カルバック・ライブラー情報量(Kullback-Leibler Divergence、以下KLダイバージェンス)は、情報理論において、2つの確率分布の違いを定量的に表す指標の一つです。この指標は、真の分布(通常は $P$ と表記)と、仮定された分布(通常は $Q$ と表記)の間の情報のロスや不一致を測定します。KLダイバージェンスは特に、機械学習、統計学、通信理論など、様々な分野で応用されていますが、その根底には情報理論の基本的な物理現象があります。
1. 情報理論の基本概念
情報理論では、「情報量」とは、ある事象が起こったとき、その事象がもたらす「驚き」の度合いを定量化するものです。この情報量は、確率に基づいて計算されます。事象 $X$ の確率が $P(X)$ であるとき、その事象が発生する際の情報量は以下のように定義されます。
$$
I(X) = – \log P(X)
$$
ここで、$I(X)$ は事象 $X$ の情報量であり、$P(X)$ は事象 $X$ の確率です。この式からわかるように、確率が小さい(つまり、滅多に起こらない)事象ほど、その事象が起こったときに得られる情報量は大きくなります。
エントロピー
エントロピー(entropy)は、ある確率分布が持つ「平均的な情報量」を表す指標です。これは、全ての可能な事象が発生する確率に基づいて、その情報量の期待値を計算したものです。エントロピー $H(P)$ は次の式で表されます。
$$
H(P) = – \sum_x P(x) \log P(x)
$$
このエントロピーは、分布 $P$ がどれだけ「不確実」か、つまり予測がどれだけ困難かを示します。エントロピーが高いほど、分布がばらついていて、予測が難しいことを意味します。
2. KLダイバージェンスの定義
KLダイバージェンスは、ある確率分布 $P$ から別の確率分布 $Q$ への「情報のロス」を測定するものです。具体的には、$Q$ を用いて $P$ をどれだけ正確に近似できているかを示します。KLダイバージェンス $D_{\mathrm{KL}}(P \parallel Q)$ は次のように定義されます。
$$
D_{\mathrm{KL}}(P \parallel Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}
$$
解説
- $P(x)$ は、真の分布(実際に起こる確率)です。
- $Q(x)$ は、仮定された分布(近似した確率)です。
- $\log \frac{P(x)}{Q(x)}$ は、真の確率と仮定した確率の比率に基づいた「情報のズレ」を表します。
- 全ての事象 $x$ に対して、このズレの重み付き和を計算することで、全体としてどれだけのロスがあるかがわかります。
KLダイバージェンスの結果は、通常「非対称」であることが重要な特徴です。つまり、$D_{\mathrm{KL}}(P \parallel Q)$ と $D_{\mathrm{KL}}(Q \parallel P)$ は一般的に等しくありません。
KLダイバージェンスの性質
KLダイバージェンスの重要な性質の一つは、常に0以上の値を取るということです。また、$P$ と $Q$ が完全に一致する場合、KLダイバージェンスは0になります。つまり、仮定した分布 $Q$ が真の分布 $P$ と完全に一致する場合、情報のロスはないということです。
$$
D_{\mathrm{KL}}(P \parallel Q) \geq 0
$$
また、KLダイバージェンスが0でない場合、その値が大きいほど、仮定した分布 $Q$ が真の分布 $P$ からどれだけ離れているかを示します。
3. KLダイバージェンスとエントロピーの関係
KLダイバージェンスは、エントロピーと密接に関連しています。エントロピーは、真の分布 $P$ に基づいて、その分布の内部での不確実性を表しますが、KLダイバージェンスは、仮定された分布 $Q$ を用いて、真の分布 $P$ の情報量をどれだけ失っているかを示します。
エントロピーとの差異
例えば、エントロピー $H(P)$ と、$Q$ を使った仮のエントロピー $H(P, Q)$ を考えると、KLダイバージェンスはこれら2つのエントロピーの差として次のように表現できます。
$$
D_{\mathrm{KL}}(P \parallel Q) = H(P, Q) – H(P)
$$
ここで、$H(P, Q)$ は「クロスエントロピー」と呼ばれ、真の分布 $P$ と仮定された分布 $Q$ に基づいた情報量を計算する指標です。この式は、KLダイバージェンスがエントロピーを超える情報量(つまり、近似の際に失われた情報)を表していることを示しています。
4. KLダイバージェンスの直感的理解
KLダイバージェンスの背後にある直感的な理解として、以下のように考えることができます。
- 情報の距離
KLダイバージェンスは、2つの確率分布の「距離」を測定していると解釈できます。ただし、これはユークリッド距離やマンハッタン距離のような対称的な距離ではありません。むしろ、片方の分布がもう片方の分布にどれだけ合致しているかを示します。 - 情報のロス
KLダイバージェンスが大きい場合、仮定された分布 $Q$ が真の分布 $P$ に対して情報を大きく損なっていることを意味します。逆に、KLダイバージェンスが小さい場合、$Q$ は $P$ をより正確に近似していることを意味します。
例
簡単な例として、あるコインが表($H$)と裏($T$)の確率を考えます。
- 真の分布 $P$:表 $P(H) = 0.6$, 裏 $P(T) = 0.4$
- 仮定した分布 $Q$:表 $Q(H) = 0.5$, 裏 $Q(T) = 0.5$
この場合、KLダイバージェンス $D_{\mathrm{KL}}(P \parallel Q)$ は次のように計算されます。
$$
D_{\mathrm{KL}}(P \parallel Q) = 0.6 \log \frac{0.6}{0.5} + 0.4 \log \frac{0.4}{0.5}
$$
計算すると、
$$
D_{\mathrm{KL}}(P \parallel Q) \approx 0.6 \cdot 0.1761 + 0.4 \cdot (-0.2218) = 0.1057 + (-0.0887) = 0.017
$$
この結果からわかるように、$Q$ が $P$ に対してわずかに異なるものの、比較的近いことがわかります。
5. KLダイバージェンスの物理的解釈
KLダイバージェンスは、物理現象の観点からも解釈することができます。例えば、物理学におけるエントロピー増大則や、熱力学第二法則との類似性が指摘されています。
熱力学とエントロピー
熱力学におけるエントロピーは、あるシステムの無秩序さや不確実性を表す指標です。システムが
平衡状態に向かう過程では、エントロピーが増大することが知られています。このエントロピーとKLダイバージェンスの概念は、どちらも不確実性や情報のロスを扱っているため、関連付けて考えることができます。
具体的には、システムがある分布から他の分布に遷移する際に、情報のロスが生じる様子をKLダイバージェンスで表現できると考えられます。システムが平衡状態に近づくにつれて、KLダイバージェンスは減少し、最終的には0に近づきます。これは、システムが真の分布に収束し、情報のロスがなくなることを意味します。
確率的過程における応用
KLダイバージェンスは、確率的な過程においても重要な役割を果たします。例えば、マルコフ過程における状態遷移の違いを測定するためにも用いられます。システムがある状態から別の状態へと遷移する確率が異なる場合、その情報のズレをKLダイバージェンスを使って定量化できます。
6. 結論
カルバック・ライブラー情報量(KLダイバージェンス)は、2つの確率分布間の違いを測定するための強力な指標です。エントロピーの概念に基づき、情報のロスや不確実性を定量的に表すことができます。特に、仮定された分布が真の分布からどれだけ離れているかを示すため、統計学や機械学習、物理学など幅広い分野で活用されています。
KLダイバージェンスを理解することで、確率的なモデルや情報理論における「情報」の概念について深く洞察することができます。そして、物理的な視点からも、その意味を考えることで、情報の流れやシステムの不確実性に関する理解がさらに深まるでしょう。