指数型分布族とは何か？ - ITとCFD入門サイト

はじめに

確率分布という概念は、統計学や機械学習において非常に重要な役割を果たします。確率分布を通じて、データがどのように生成されるか、またそのデータに基づいてどのように予測を行うかを理解することができます。その中でも「指数型分布族」は、さまざまな確率分布を一つの枠組みで表現できる強力な数学的ツールです。

この記事では、指数型分布族の基礎理論を中心に、その特徴や具体的な例を挙げながら解説します。まずは、指数型分布族の定義と、そこに含まれる確率分布の例を紹介し、その後に数学的な性質や特徴を詳しく見ていきます。

指数型分布族の定義

指数型分布族（Exponential Family Distribution）は、ある形式の確率密度関数（または確率質量関数）を持つ確率分布の集合を指します。この形式は、次のように一般的に表現されます。

$$
p(x|\theta) = h(x) \exp\left(\eta(\theta)^\top T(x) – A(\theta)\right)
$$

ここで、各項の意味を解説します。

$x$: 観測データ（確率変数）
$\theta$: 分布のパラメータ
$h(x)$: 基底測度（基準測度とも呼ばれる関数）
$\eta(\theta)$: 自然パラメータと呼ばれるパラメータの関数
$T(x)$: 統計量（十分統計量とも呼ばれる）
$A(\theta)$: 対数正規化定数（またはキャリア関数）

この形式の分布は、非常に多くの実用的な確率分布を包括しています。以下に、具体的な分布の例をいくつか挙げます。

例1: ベルヌーイ分布

ベルヌーイ分布は、試行が成功する確率$p$の二値分布です。例えば、コインを一度投げて表が出るか裏が出るかをモデル化する際に用いられます。ベルヌーイ分布は次のように書けます。

$$
p(x|p) = p^x (1-p)^{1-x}
$$

これを指数型分布族の形式に書き換えると、

$$
p(x|\theta) = \exp\left(x \log\left(\frac{p}{1-p}\right) + \log(1-p)\right)
$$

となり、ここで $\theta = \log\left(\frac{p}{1-p}\right)$ と定義できます。この形式は、指数型分布族の一般形に対応していることがわかります。

例2: ガウス分布（平均既知、分散未知）

ガウス分布（正規分布）は、統計学において最もよく知られた分布の一つです。平均 $\mu$ が既知で分散 $\sigma^2$ が未知の場合、この分布は次のように表現されます。

$$
p(x|\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
$$

これを指数型分布族の形式に変換すると、

$$
p(x|\theta) = \exp\left(-\frac{x^2}{2\sigma^2} + \frac{\mu x}{\sigma^2} – \frac{\mu^2}{2\sigma^2} – \frac{1}{2}\log(2\pi\sigma^2)\right)
$$

ここで、$\theta = \frac{1}{\sigma^2}$、$T(x) = x^2$、$h(x) = 1$ などと定義できます。

自然パラメータ空間と正規化定数

自然パラメータ

指数型分布族の重要な概念の一つに、自然パラメータ $\eta(\theta)$ があります。自然パラメータは、分布のパラメータ $\theta$ の関数として定義され、分布の統計的性質を直接的に反映しています。例えば、ベルヌーイ分布では $\eta(\theta) = \log\left(\frac{p}{1-p}\right)$ と定義されますが、この量は対数オッズと呼ばれ、成功と失敗の相対的な確率を表しています。

正規化定数 $A(\theta)$

正規化定数 $A(\theta)$ は、確率分布が正しく規格化されるために必要な補正項です。この項は、指数型分布族の分布が確率分布としての条件を満たすためのものであり、次のように定義されます。

$$
A(\theta) = \log \int h(x) \exp(\eta(\theta)^\top T(x)) dx
$$

この式は、全ての可能な $x$ の値に対して確率密度が積分した結果が1になるように調整する役割を果たします。具体的には、$A(\theta)$ は $\theta$ の関数であり、分布がどのように変化するかを決定します。

指数型分布族の性質

十分統計量

十分統計量 $T(x)$ は、観測データ $x$ に対して、その分布のパラメータに関する全ての情報を持つ統計量です。すなわち、$T(x)$ を知ることによって、他の情報を一切必要とせずに分布のパラメータ $\theta$ を推定することが可能になります。例えば、ガウス分布の場合、平均と分散が十分統計量に対応します。