Youtube登録者5000人突破!!

最尤推定の基礎理論と応用

1. はじめに

最尤推定(Maximum Likelihood Estimation, MLE)は、統計学において非常に重要な推定方法の一つです。観測データに基づいて、モデルのパラメータを推定するために用いられ、広範な応用分野を持っています。本記事では、最尤推定の理論的な基礎を詳細に解説し、その背後にある数理的な概念や物理的な意味についても掘り下げます。

2. 最尤推定の基本概念

2.1 尤度関数とは

最尤推定の中心的な概念は、尤度関数(Likelihood Function)です。これは、観測データが与えられた場合に、そのデータが特定のパラメータによって生成される確率を表す関数です。尤度関数は、あるパラメータに対する「データがどれだけ尤もらしいか」を定量的に評価するものです。

定義

観測データを$X = {x_1, x_2, \ldots, x_n}$、モデルのパラメータを$\theta$とします。このとき、$X$が$\theta$に従って生成された確率密度関数(または確率質量関数)が$f(X|\theta)$で表されるとします。

尤度関数$L(\theta)$は次のように定義されます。

$$
L(\theta) = f(X|\theta)
$$

これを明示的に書くと、

$$
L(\theta) = \prod_{i=1}^{n} f(x_i|\theta)
$$

ここで、$f(x_i|\theta)$は、各観測値$x_i$がパラメータ$\theta$のもとで得られる確率密度または確率質量です。

2.2 最尤推定量

最尤推定量とは、尤度関数を最大化するパラメータの値を指します。つまり、観測データに最も「尤もらしい」パラメータ$\hat{\theta}$を見つけることが最尤推定の目的です。

最尤推定量の定義

最尤推定量$\hat{\theta}$は次のように定義されます。

$$
\hat{\theta} = \text{argmax}_{\theta} L(\theta)
$$

通常、尤度関数は対数を取った形で最大化されます。対数尤度関数$l(\theta)$は以下のように表されます。

$$
l(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i|\theta)
$$

この対数尤度関数を最大化する$\theta$が最尤推定量です。

3. 最尤推定の具体例

3.1 正規分布の最尤推定

正規分布は、統計学で最も広く用いられる分布の一つであり、そのパラメータを最尤推定する例を考えます。

正規分布のモデル

正規分布に従うデータを考え、その平均$\mu$と分散$\sigma^2$をパラメータとします。観測データ$X = {x_1, x_2, \ldots, x_n}$がこの分布に従うと仮定すると、各データ点$x_i$の確率密度関数$f(x_i|\mu, \sigma^2)$は以下のように与えられます。

$$
f(x_i|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i – \mu)^2}{2\sigma^2}\right)
$$

尤度関数の導出

全データに対する尤度関数は次のように書けます。

$$
L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i – \mu)^2}{2\sigma^2}\right)
$$

対数を取ると、対数尤度関数$l(\mu, \sigma^2)$は以下のようになります。

$$
l(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) – \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i – \mu)^2
$$

パラメータの最尤推定

$\mu$に関して対数尤度関数を最大化するために、$\mu$で微分してゼロに設定します。

$$
\frac{\partial l(\mu, \sigma^2)}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i – \mu) = 0
$$

これを解くと、$\mu$の最尤推定量$\hat{\mu}$が得られます。

$$
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

次に、$\sigma^2$に関して対数尤度関数を最大化します。

$$
\frac{\partial l(\mu, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^{n} (x_i – \mu)^2 = 0
$$

これを解くと、$\sigma^2$の最尤推定量$\hat{\sigma}^2$が得られます。

$$
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \hat{\mu})^2
$$

したがって、正規分布の最尤推定量は、データの平均$\hat{\mu}$と分散$\hat{\sigma}^2$として与えられます。

3.2 二項分布の最尤推定

二項分布もまた、広く用いられる確率分布であり、成功確率$p$を最尤推定する例を考えます。

二項分布のモデル

二項分布に従う試行の回数を$n$、成功回数を$k$、成功確率を$p$とします。このとき、二項分布の確率質量関数は以下のように表されます。

$$
f(k|n, p) = \binom{n}{k} p^k (1-p)^{n-k}
$$

尤度関数の導出

$k_1, k_2, \ldots, k_m$という観測データが得られたとします。このとき、尤度関数$L(p)$は以下のように表されます。

$$
L(p) = \prod_{i=1}^{m} \binom{n_i}{k_i} p^{k_i} (1-p)^{n_i-k_i}
$$

対数尤度関数$l(p)$は次のようになります。

$$
l(p) = \sum_{i=1}^{m} \left[ k_i \log p + (n_i – k_i) \log(1-p) \right]
$$

成功確率$p$の最尤推定

$p$で微分してゼロに設定すると、成功確率$p$の最尤推定量$\hat{p}$が得られます。

$$
\frac{\partial l(p)}{\partial p} = \sum_{i=1}^{m} \left[ \frac{k_i}{p} – \frac{n_i – k_i}{1-p} \right] = 0
$$

これを解くと、以下のようになります。

$$
\hat{p} = \frac{\sum_{i=1}^{m} k_i}{\sum_{i=1}^{m} n_i}
$$

したがって、二項分布における成功確率の最尤推定量は、全試行の成功回数の総和を全試行回数の総和で割った値となります。

4. 最尤推定の性質と理論

4.1 一致性

最尤推定量は、一致性(Consistency)という性質を持っています。

これは、サンプルサイズが無限に大きくなると、最尤推定量が真のパラメータに収束することを意味します。

4.2 不偏性

最尤推定量は一般に不偏ではないことが知られています。不偏性とは、推定量の期待値が真のパラメータに等しいことを意味します。しかし、最尤推定量は大標本の場合、ほぼ不偏であるとされます。

4.3 漸近正規性

最尤推定量は、サンプルサイズが十分に大きい場合、漸近的に正規分布に従うことが知られています。具体的には、最尤推定量$\hat{\theta}$が以下のように正規分布に従うという性質を持ちます。

$$
\sqrt{n}(\hat{\theta} – \theta) \xrightarrow{d} N(0, I(\theta)^{-1})
$$

ここで、$I(\theta)$は情報行列と呼ばれるもので、尤度関数の二階微分から計算されます。

5. 最尤推定の応用

5.1 回帰分析

回帰分析では、独立変数と従属変数の関係をモデル化するために最尤推定が用いられます。一般化線形モデルやロジスティック回帰など、多くの統計モデルにおいて最尤推定が基本的な推定手法として使われます。

5.2 時系列分析

時系列データのモデル化においても最尤推定は重要です。ARIMAモデルやGARCHモデルなどの時系列モデルのパラメータ推定には最尤推定が用いられます。

5.3 機械学習

機械学習の分野でも、最尤推定は広く利用されています。特に、ニューラルネットワークの訓練やサポートベクターマシンのパラメータ推定において、最尤推定が用いられることが多いです。

6. 最尤推定の限界と改良

6.1 過適合

最尤推定には過適合のリスクがあります。過適合とは、モデルが訓練データに対して過度にフィットしてしまい、新しいデータに対して性能が低下する現象です。これを避けるために、正則化手法やベイズ推定が用いられることがあります。

6.2 数値的な問題

尤度関数の最大化は、数値的に困難な場合があります。特に、非線形モデルやパラメータの次元が高い場合、最大化アルゴリズムが収束しないことがあります。このような場合、最適化アルゴリズムの改良や初期値の工夫が必要です。

7. まとめ

最尤推定は、統計学における強力な推定手法であり、多くの分野で応用されています。その理論的な基礎は確立されており、多くの性質を持っています。しかし、その応用には注意が必要であり、過適合や数値的な問題など、限界も存在します。最尤推定の理解を深めることで、データ解析や機械学習の分野におけるより精緻なモデル構築が可能となります。