Youtube登録者10000人突破!!

最尤推定 (Maximum Likelihood Estimation, MLE) の基礎

最尤推定(さいゆうすいてい、Maximum Likelihood Estimation, MLE)は、統計学の基本的な手法のひとつで、データに最も適したパラメータを推定するための方法です。MLEは、さまざまな科学分野やエンジニアリングで利用され、パラメータ推定の標準的な手法として広く認識されています。この記事では、最尤推定の原理や数学的な裏付けについて、初心者でも理解できるように解説していきます。

確率分布とパラメータ

最尤推定を理解するためには、まず「確率分布」と「パラメータ」という概念を理解する必要があります。

確率分布とは?

確率分布は、あるランダムな変数がどのような値を取る可能性があるかを示す数学的な関数です。例えば、コインを投げたときに表が出るか裏が出るかというランダムな現象を、確率で表すことができます。ここでは、いくつかの代表的な確率分布について簡単に説明します。

  • ベルヌーイ分布: コイン投げのように、成功と失敗という2つの結果しかない場合の分布です。成功する確率を$p$、失敗する確率を$1 – p$とします。
  • 正規分布: 平均$\mu$と分散$\sigma^2$によって形が決まる分布で、多くの自然現象や測定結果に適用されます。山形の形をしており、データが平均値の周りに集まりやすいことを示します。

確率分布は、一般に「確率密度関数 (probability density function, PDF)」または「確率質量関数 (probability mass function, PMF)」として表現され、これが観測データの生成モデルになります。

パラメータとは?

確率分布は特定のパラメータによって特徴づけられます。例えば、正規分布の場合、平均$\mu$と分散$\sigma^2$がそのパラメータです。パラメータは、確率分布の形や位置を決めるものであり、MLEはこのパラメータをデータに基づいて推定する手法です。

最尤推定の基本アイデア

最尤推定の基本的なアイデアは、観測されたデータが実際に得られた確率を最大化するようなパラメータを探すことです。ここで「尤度 (likelihood)」という概念が登場します。

尤度とは?

尤度とは、観測データが得られる確率を指します。データが特定の確率分布に従って生成されると仮定したとき、その分布のパラメータを使ってデータが観測される確率を計算します。この確率を最大化するパラメータを見つけるのが最尤推定です。

例えば、データが正規分布に従うと仮定した場合、平均$\mu$と分散$\sigma^2$が尤度を決定します。観測データに対して、これらのパラメータが最も尤もらしい値を取るように設定します。

数式による説明

$X_1, X_2, \dots, X_n$ を独立同分布(同じ確率分布に従う独立した変数)と仮定したデータとします。このとき、それぞれのデータ点が特定の確率密度関数$f(x; \theta)$に従うと仮定します。$\theta$は分布のパラメータであり、最尤推定ではこの$\theta$を推定します。

尤度関数は次のように定義されます:

$$
L(\theta) = f(X_1; \theta) \cdot f(X_2; \theta) \cdot \dots \cdot f(X_n; \theta)
$$

ここで、$L(\theta)$はパラメータ$\theta$が与えられたときのデータの尤度を表します。つまり、観測されたデータが実際に得られる確率をパラメータ$\theta$に依存して計算しています。

実際には、この尤度関数の対数を取って扱うことが一般的です。なぜなら、尤度関数は掛け算で表されており、データ数が増えると計算が非常に複雑になるためです。対数を取ると、掛け算が足し算に変わり、計算が簡単になります。

対数尤度関数は次のようになります:

$$
\log L(\theta) = \log f(X_1; \theta) + \log f(X_2; \theta) + \dots + \log f(X_n; \theta)
$$

最尤推定では、この対数尤度関数を最大化する$\theta$を見つけることを目指します。

最尤推定の例

ここで、具体的な例を用いて最尤推定のプロセスを説明します。簡単な例として、コイン投げの問題を考えてみましょう。

コイン投げの最尤推定

コインを$n$回投げて、表が出た回数を$k$とします。ここで、コインの表が出る確率$p$を推定したいとします。これはベルヌーイ分布に従う問題であり、成功(表が出る)の確率$p$と失敗(裏が出る)の確率$1 – p$を持ちます。

尤度関数は次のようになります:

$$
L(p) = p^k (1 – p)^{n – k}
$$

この尤度関数を最大化する$p$を求めるために、まず対数尤度を取ります:

$$
\log L(p) = k \log p + (n – k) \log (1 – p)
$$

次に、この対数尤度関数を$p$で微分して、その結果を0に等しくします。これは、最尤推定で最大化の問題を解くための一般的な手法です。

$$
\frac{\partial}{\partial p} \log L(p) = \frac{k}{p} – \frac{n – k}{1 – p} = 0
$$

この方程式を解くと、$p$に関する推定値が得られます:

$$
p = \frac{k}{n}
$$

つまり、コインの表が出る確率$p$は、表が出た回数$k$をコインを投げた総回数$n$で割ったものになります。これは、直感的に「表が出た割合」と一致します。

最尤推定の性質

最尤推定には、いくつかの重要な性質があります。これらの性質を理解することで、最尤推定がどのように機能し、どのような場合に有効かを理解できます。

一致性

最尤推定量は、サンプルサイズが増えると真のパラメータに収束するという性質を持っています。これを一致性 (consistency) といいます。つまり、データが十分に多い場合、最尤推定によって得られるパラメータの推定値は、真の値に近づきます。

不偏性

最尤推定量は、サンプルサイズが大きい場合に、真のパラメータの周りに平均的に分布する性質を持っています。これを不偏性 (unbiasedness) といいます。ただし、サンプルサイズが少ない場合には不偏ではないこともあります。

有効性

最尤推定量は、他の推定方法と比べて分散が小さく、最も効率的な推定量であることが示されています。これを有効性 (efficiency) といいます。

最尤推定の応用

最尤推定は、さまざまな応用分野で利用されています。特に、次のような分野で活躍しています。

  • 統計モデルの推定: データに基づいて、確率モデルのパラメータを推定するために最尤推定が使われます。
  • 機械学習: 機械学習のモデルを訓練する際、最尤推定がモデルのパラメータの最適化に利用されます。例えば、ロジスティック回帰や線形回帰といったモデルで最尤推定が重要な役割を果たします。

結論

最尤推定は、確率モデルに基づいて観測データからパラメータを推定するための強力な方法です。データがどのように生成されるかという仮定(確率分布)に基づいて、尤もらしいパラメータを見つけ出すための基本的な手法であり、統計学や機械学習の分野で広く使われています。