1. はじめに
ARIMAモデル(AutoRegressive Integrated Moving Average Model、自己回帰和分移動平均モデル)とSARIMAモデル(Seasonal ARIMA Model、季節ARIMAモデル)は、時系列データを解析し、未来のデータを予測するための強力な手法です。これらのモデルは、特に非定常な時系列データや、季節性のあるデータに対して有効です。
この記事では、初心者にもわかりやすく、ARIMAモデルとSARIMAモデルについて基礎理論から応用までを詳しく解説します。数式も交えて、これらのモデルがどのようにしてデータの変動を捉えるかを理解していきます。
2. ARIMAモデル
2.1 ARIMAモデルの基本概念
ARIMAモデルは、自己回帰(AR)、移動平均(MA)、和分(I: Integrated)という3つの要素を組み合わせたモデルです。ARIMAモデルは、データが非定常(時系列の平均や分散が時間とともに変化する)であっても、それを定常に変換することで、予測を行います。
ARIMAモデルは一般的に$ARIMA(p, d, q)$の形式で表されます。ここで、
- $p$は自己回帰項の次数(過去のデータにどの程度依存するか)、
- $d$はデータを定常化するために行う差分回数、
- $q$は移動平均項の次数(過去の誤差にどの程度依存するか)です。
2.2 ARIMAモデルの数式
ARIMAモデルは、以下の3つの要素で構成されます。
自己回帰(AR)部分
自己回帰部分は、過去のデータが現在のデータにどのように影響するかを表します。自己回帰部分は、AR(p)モデルとして次のように定義されます。
$$
X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \dots + \phi_p X_{t-p} + \epsilon_t
$$
ここで、$\phi_1, \phi_2, \dots, \phi_p$は自己回帰係数、$\epsilon_t$はホワイトノイズ(予測誤差)です。
移動平均(MA)部分
移動平均部分は、過去の予測誤差が現在のデータに与える影響を表します。これは、MA(q)モデルとして次のように定義されます。
$$
X_t = c + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
$$
ここで、$\theta_1, \theta_2, \dots, \theta_q$は移動平均係数です。
差分(I)部分
非定常な時系列データを定常に変換するために、差分をとる操作を行います。差分とは、隣り合う時点でのデータの変化を求めることです。$d$回の差分を行うと、次のように定義されます。
$$
X’t = X_t – X{t-1}
$$
この操作を複数回行うことで、非定常データを定常データに変換します。
2.3 ARIMAモデルの構造
ARIMAモデルの一般式は、次のように表されます。
$$
\Delta^d X_t = c + \phi_1 \Delta^d X_{t-1} + \dots + \phi_p \Delta^d X_{t-p} + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
$$
ここで、$\Delta^d X_t$は$d$回の差分を表し、定常化された時系列データを表します。このモデルにより、データのトレンドや季節性を除去し、予測を行うことができます。
2.4 ARIMAモデルの応用例
ARIMAモデルは、様々な分野で広く使用されています。
- 経済学:株価や経済指標など、トレンドや季節性を持つ経済データの予測に用いられます。
- 工学:機械の状態監視や故障予測に活用されます。
- 気象学:気温や降水量など、季節性を持つ気象データの解析に適用されます。
2.5 ARIMAモデルの限界
ARIMAモデルは強力なツールですが、いくつかの限界があります。特に、季節性を考慮しないため、季節変動が顕著なデータには適していません。この問題を解決するために、次に説明するSARIMAモデルが開発されました。
3. SARIMAモデル
3.1 SARIMAモデルの基本概念
SARIMAモデル(Seasonal ARIMA Model、季節ARIMAモデル)は、ARIMAモデルに季節性を考慮した拡張モデルです。季節性とは、データが一定の周期で繰り返される現象を指します。例えば、月ごとの売上データや気温データなどは、季節性の影響を強く受けます。
SARIMAモデルは、季節性の自己回帰項、季節性の移動平均項、季節性の差分項をARIMAモデルに追加することで、季節性を持つデータをより適切にモデリングします。
SARIMAモデルは、次のように表されます。
$$
SARIMA(p, d, q)(P, D, Q)_s
$$
ここで、
- $p, d, q$は通常のARIMAモデルと同様です。
- $P, D, Q$は季節性の自己回帰、差分、移動平均の次数です。
- $s$は季節性の周期(例えば、月次データであれば$s = 12$)です。
3.2 SARIMAモデルの数式
SARIMAモデルは、通常のARIMAモデルに季節成分を追加した次のような式で表されます。
$$
\Delta^d X_t = c + \phi_1 \Delta^d X_{t-1} + \dots + \phi_p \Delta^d X_{t-p} + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
$$
この式に季節性の自己回帰、差分、移動平均項が加わり、最終的に次の形となります。
$$
\Delta^d \Delta_s^D X_t = c + \sum_{i=1}^p \phi_i \Delta^d \Delta_s^D X_{t-i} + \sum_{i=1}^q \theta_i \epsilon_{t-i} + \sum_{j=1}^P \Phi_j \Delta_s^D X_{t-j} + \sum_{j=1}^Q \Theta_j \epsilon_{t-j} + \epsilon_t
$$
ここで、$\Delta_s^D X_t$は季節性の差分項を表し、$s$は季節の周期を示します。
3.3 季節成分の詳細
SARIMAモデルでは、季節性の要素が以下のようにモデルに組み込まれます。
- 季節性自己回帰項 $P$: 過去の季節性に基づく自己回帰項です。例えば、12か月前のデータが現在のデータにどのように影響を与えるかを表します。
- 季節性移動平均項 $Q$: 過去の予測誤差に基づく移動平均項です。これも季節性の周期に従って設定されます。
- 季節性差分項 $D$: データを定常化するために、季節性の差分を取ります。季節性の差分は、同じ季節のデータ間の変化を計算するために使用されます。
3.4 SARIMAモデルの応用例
SARIMAモデルは、季節性を持つデータの予測に非常に有効です。以下のような例があります。
- 販売データ:月次や四半期ごとの売上データの予
測に使われます。特に、季節性の影響が強い小売業などで活躍します。
- 気象データ:気温や降水量など、季節性の変動を考慮した気象予測に利用されます。
- 観光業:季節によって変動する観光客数の予測にも適用されます。
4. ARIMAモデルとSARIMAモデルの比較
特徴 | ARIMAモデル | SARIMAモデル |
---|---|---|
季節性 | 季節性は考慮しない | 季節性を考慮する |
適用範囲 | 非定常な時系列データに対応 | 非定常かつ季節性のあるデータに対応 |
構成要素 | AR, I, MA | AR, I, MA + 季節成分 |
応用例 | 株価、経済指標 | 販売データ、気象データ |
5. モデルの選択方法
データの特性に応じて、ARIMAモデルかSARIMAモデルを選択します。
- 季節性がない場合: ARIMAモデルが適しています。特に、トレンドがあるが、季節性がないデータにはARIMAモデルが有効です。
- 季節性がある場合: SARIMAモデルが適しています。季節ごとの周期的なパターンが見られる場合、SARIMAモデルはその季節性を取り入れることができます。
6. まとめ
ARIMAモデルとSARIMAモデルは、時系列データ解析の代表的な手法です。ARIMAモデルは、非定常なデータの予測に用いられ、SARIMAモデルはそれに季節性を加味した拡張版です。これらのモデルを適切に使用することで、経済データ、気象データ、販売データなど、さまざまな分野での予測精度を向上させることが可能です。
これから時系列データの分析を学ぶ方にとって、ARIMAモデルとSARIMAモデルの理解は、時系列データの扱い方を大きく広げる一歩となるでしょう。