Youtube登録者10000人突破!!

強定常と弱定常

定常性(Stationarity)は、時系列データ解析において重要な概念です。時系列データとは、時間に従って記録されたデータのことを指し、経済、気象、物理現象など、様々な分野で観測されます。時系列データを解析する上で、データが定常的であるかどうかを確認することが非常に重要です。定常性には大きく分けて「強定常」と「弱定常」の2種類があり、それぞれの定義と特徴について解説していきます。

1. 強定常と弱定常の概要

まず、定常性の基本的な考え方として、時間に関する性質が変わらないことがポイントです。時系列データの統計的性質が、時間の経過に依存しない状態を定常性と呼びます。この統計的性質には、平均、分散、共分散などが含まれます。

1.1 強定常(Strict Stationarity)

強定常とは、時系列データの任意の時間点における全ての確率分布が、時間の経過に対して不変であることを指します。より具体的には、時系列データの任意のラグ(時間差)に対して、確率分布が変わらないという非常に強い条件を課します。数式で表すと、次のようになります。

$$
P(X_{t_1}, X_{t_2}, \dots, X_{t_k}) = P(X_{t_1+\tau}, X_{t_2+\tau}, \dots, X_{t_k+\tau})
$$

ここで、$X_t$は時系列データの値、$\tau$は任意のラグです。この条件が満たされると、時系列の確率分布が時間のずれに依存しないため、時系列データ全体が時間に対して一様であると言えます。

1.2 弱定常(Weak Stationarity)

弱定常は、強定常の条件を緩めた概念です。弱定常では、平均、分散、自己共分散(自己相関)のみが時間に対して不変であることが要求されます。つまり、分布全体が時間に依存しないわけではなく、特定の統計的な指標のみが時間に対して不変であるという条件です。具体的には、以下の3つの条件が必要です。

  1. 平均が一定: 時系列データの平均値が時間に依存しないこと。
    $$
    E[X_t] = \mu \quad (\text{定数})
    $$
  2. 分散が一定: 時系列データの分散が時間に依存しないこと。
    $$
    \text{Var}(X_t) = E[(X_t – \mu)^2] = \sigma^2 \quad (\text{定数})
    $$
  3. 自己共分散が時間差にのみ依存: 2つの異なる時間点$t_1$と$t_2$における共分散が、その差$\tau = |t_1 – t_2|$のみに依存し、時間の経過には依存しないこと。
    $$
    \text{Cov}(X_{t_1}, X_{t_2}) = \gamma(\tau)
    $$

この3つの条件が満たされているとき、その時系列データは弱定常であると言えます。

2. 定常性の数式的解釈

強定常と弱定常の違いは、定常性の「強さ」にあります。強定常では時系列データ全体の確率分布に強い制約を課すのに対し、弱定常では平均や分散といった統計的指標に制約を課します。これらの定義を理解するために、具体的な例や数式を用いて解説していきます。

2.1 強定常の具体例

強定常を満たす例として、正規分布に従うホワイトノイズ(White Noise)を考えます。ホワイトノイズは、平均が0で分散が一定のランダムな時系列データです。このとき、ホワイトノイズの時系列データ$X_t$は強定常性を満たします。なぜなら、ホワイトノイズの各データ点は時間に依存せず、全て独立同分布に従うためです。

ホワイトノイズの分布は次のように定義されます。

$$
X_t \sim N(0, \sigma^2)
$$

ここで、$N(0, \sigma^2)$は平均0、分散$\sigma^2$の正規分布を表します。この場合、任意の時点におけるデータの確率分布が時間に依存しないため、強定常の条件を満たしています。

2.2 弱定常の具体例

弱定常を満たす時系列データの例として、自己回帰モデル(AR(1)モデル)を挙げます。自己回帰モデルは、過去のデータに依存して現在の値が決まるモデルです。AR(1)モデルは次のように定義されます。

$$
X_t = \phi X_{t-1} + \epsilon_t
$$

ここで、$\phi$はモデルのパラメータ、$\epsilon_t$はホワイトノイズです。このモデルでは、過去のデータ$X_{t-1}$に依存して現在の値$X_t$が決まりますが、ホワイトノイズ$\epsilon_t$は時間に依存しないため、適切な条件下では弱定常性を満たします。

具体的には、$|\phi| < 1$であれば、このモデルは弱定常になります。このとき、平均$\mu$は次のように一定であり、

$$
E[X_t] = \frac{0}{1 – \phi} = 0
$$

分散も次のように一定となります。

$$
\text{Var}(X_t) = \frac{\sigma^2}{1 – \phi^2}
$$

また、自己共分散も時間差$\tau$にのみ依存するため、弱定常の条件を満たします。

3. 定常性の物理的解釈

定常性の概念は、物理学や自然現象においても広く応用されています。定常性を理解することで、時間に対して変化しない(または少ない)システムをモデル化することが可能です。

3.1 物理現象における強定常

強定常なシステムの例として、温度が一定の部屋における粒子の運動を考えてみましょう。もし、粒子が一定の温度の中でランダムに運動している場合、粒子の運動は時間に対して変化しません。このとき、粒子の運動の確率分布は強定常性を満たしていると考えられます。

3.2 物理現象における弱定常

弱定常なシステムの例として、天気データを考えることができます。例えば、ある都市の1日の平均気温の時系列データを考えた場合、気温の平均や変動は一定の範囲に収まることが多いですが、長期的な気候変動や季節性の影響を受けることもあります。このようなシステムは、短期的には弱定常とみなせる場合があります。

4. 定常性の確認方法

時系列データが定常性を持っているかどうかを確認するためには、いくつかの方法があります。ここでは、代表的な方法を紹介します。

4.1 平均と分散の確認

時系列データの平均と分散が一定であるかどうかを確認することが、弱定常を判断する第一歩です。具体的には、データをいくつかの部分に分割し、各部分で平均と分散を計算して、それらが時間に対して大きく変動していないかどうかを確認します。

4.2 自己相関関数(ACF)

自己相関関数(Autocorrelation Function, ACF)は、時系列データの自己相関を調べるための指標です。ACFを使って、

データが時間差(ラグ)に対してどのように関連しているかを調べることで、弱定常かどうかを判断できます。弱定常な時系列データでは、自己相関が時間差にのみ依存するため、ACFは一定のパターンを示します。

$$
\gamma(\tau) = \text{Cov}(X_t, X_{t+\tau})
$$

この自己相関関数が時間の経過に対して安定している場合、データは弱定常である可能性が高いです。

4.3 単位根検定(Unit Root Test)

データが定常かどうかを検定するための代表的な方法として、単位根検定があります。単位根が存在する場合、データは非定常であることが示唆されます。単位根検定には、Augmented Dickey-Fuller (ADF) 検定KPSS検定などがあります。特にADF検定は、データが単位根を持つかどうかを確認するために広く使用されています。

5. 定常性と非定常性の関係

時系列データが非定常である場合、そのまま解析を行うと誤った結論を導くことがあります。非定常なデータには、トレンドや季節性などの要素が含まれることが多く、これらの影響を取り除くための前処理が必要です。例えば、差分(Differencing)をとることで、データを定常化することが一般的な方法です。

5.1 差分による定常化

差分をとるとは、時系列データの隣接するデータ点の差を計算することです。例えば、1次差分は次のように定義されます。

$$
X_t’ = X_t – X_{t-1}
$$

この操作を行うことで、トレンドが除去され、データが定常性を持つようになることがあります。

5.2 季節調整

季節性があるデータの場合、一定の周期で同じパターンが繰り返されます。このような場合、季節調整を行うことで、定常な部分のみを取り出すことができます。季節調整には、移動平均を使用する方法や、統計的なモデルに基づく方法などがあります。

6. まとめ

強定常と弱定常の違い、そしてそれらが時系列データ解析においてどのように重要かを理解することは、データの正確な解析にとって重要です。強定常は非常に厳しい条件を課しますが、現実のデータでは弱定常であることが多いため、時系列解析においては弱定常を前提としたモデルが多用されます。

定常性の確認や、非定常データに対する前処理方法を適切に活用することで、信頼性の高い時系列データの解析を行うことができ、さまざまな分野でのデータ分析において役立つスキルとなるでしょう。