交差エントロピー(こうさエントロピー、Cross Entropy)は、情報理論や機械学習において非常に重要な概念の一つです。この概念は、主に確率分布の違いを測定するために使用されます。例えば、ある確率分布と別の確率分布がどれだけ「異なっている」かを定量的に表すことができます。この記事では、交差エントロピーの基礎理論やその物理的な背景、関連する数式について初心者でも理解できるように解説します。
エントロピーとは何か?
交差エントロピーを理解するためには、まず「エントロピー」という概念について知る必要があります。
エントロピーの基本概念
エントロピーは、もともと熱力学の概念で、あるシステムの「無秩序さ」や「不確実さ」を示す量です。しかし、情報理論においては、エントロピーは「情報の不確実さ」や「予測不可能性」を表します。情報理論のエントロピーは、クロード・シャノンによって定義されたため、「シャノンエントロピー (Shannon entropy)」とも呼ばれます。
確率分布 $P(X)$ に従って発生するイベントのエントロピー $H(P)$ は、次の式で定義されます:
$$
H(P) = – \sum_{x \in X} P(x) \log P(x)
$$
ここで、$P(x)$ はイベント $x$ が発生する確率です。エントロピーは、データがどれだけ予測しづらいかを示すもので、確率が均等であればエントロピーが最大となり、確率が偏っていればエントロピーは小さくなります。
直感的な理解
エントロピーは、情報の「驚き度合い」を測るとも言えます。例えば、コインを投げたときに表と裏が完全に均等な確率で出る場合($P(\text{表}) = 0.5, P(\text{裏}) = 0.5$)、次に何が起こるか全く予測がつきません。この場合、エントロピーは高くなります。しかし、もしコインが「裏しか出ない」ように歪んでいる場合($P(\text{裏}) = 1$)、結果は常に同じなので、エントロピーはゼロに近づきます。
交差エントロピーの定義
交差エントロピーは、2つの確率分布間の違いを測定するための指標です。具体的には、ある「真の」確率分布 $P$ と、それを近似する「推定された」確率分布 $Q$ の間での情報量の差を計算します。これは、$Q$ が $P$ をどれだけうまくモデル化できているかを表す指標です。
交差エントロピー $H(P, Q)$ は次の式で定義されます:
$$
H(P, Q) = – \sum_{x \in X} P(x) \log Q(x)
$$
ここで、$P(x)$ は真の確率分布、$Q(x)$ は推定された確率分布を表します。この式は、$Q$ が $P$ にどれだけ近いか、あるいはどれだけ離れているかを表しています。
交差エントロピーの物理的な意味
交差エントロピーは、情報の伝達やデータ圧縮において重要な役割を果たします。例えば、通信システムでは、送信者がデータを送信し、それを受信者が解釈します。このとき、送信者が持つ「真の」データ分布 $P$ と、受信者が予測する「推定」分布 $Q$ との間にズレがあると、情報が正確に伝わらない可能性があります。このズレが大きければ大きいほど、受信者がデータを正しく解釈できなくなる可能性が高まります。交差エントロピーは、この「解釈のずれ」を定量的に示すものです。
情報伝達の観点から
真の確率分布 $P$ に基づいてデータを符号化する場合、そのデータを復元するために必要な平均的なビット数は $H(P)$ で表されます。しかし、受信者が誤った確率分布 $Q$ に基づいて復元を試みる場合、実際に必要となるビット数は交差エントロピー $H(P, Q)$ で表されます。この値が大きいほど、受信者は余分なビット数を使ってデータを復元しなければならず、効率が低下します。
交差エントロピーとKLダイバージェンス
交差エントロピーは、もう一つ重要な概念であるKLダイバージェンス(カルバック・ライブラー・ダイバージェンス)とも密接に関係しています。KLダイバージェンスは、2つの確率分布間の差異を直接測定するために使用されます。
KLダイバージェンス $D_{\text{KL}}(P \parallel Q)$ は次の式で定義されます:
$$
D_{\text{KL}}(P \parallel Q) = \sum_{x \in X} P(x) \log \frac{P(x)}{Q(x)}
$$
この式は、$P$ と $Q$ の間の相対的な「距離」を測ります。重要なことは、KLダイバージェンスは常に非負であり、$P$ と $Q$ が同じ場合にのみゼロになります。KLダイバージェンスが大きいほど、$Q$ が $P$ をうまくモデル化できていないことを示します。
交差エントロピーとKLダイバージェンスの関係
交差エントロピーは、エントロピーとKLダイバージェンスを組み合わせた形で表すことができます。具体的には、次の関係式が成り立ちます:
$$
H(P, Q) = H(P) + D_{\text{KL}}(P \parallel Q)
$$
この式は、交差エントロピーがエントロピーとKLダイバージェンスの和であることを示しています。つまり、交差エントロピーは、真の分布 $P$ のエントロピーに、$Q$ が $P$ とどれだけ異なるかを示すKLダイバージェンスを加えたものと解釈できます。
交差エントロピーの例
交差エントロピーの計算をより具体的に理解するために、簡単な例を考えてみましょう。
例1: 二項分布における交差エントロピー
まず、二項分布を考えます。これはコイン投げのように、成功と失敗の2つの結果しかない場合に使用される確率分布です。成功の確率を $p$ とし、失敗の確率を $1 – p$ とします。真の確率分布 $P$ では、$P(\text{成功}) = 0.8$、$P(\text{失敗}) = 0.2$ としましょう。また、推定された分布 $Q$ は、$Q(\text{成功}) = 0.6$、$Q(\text{失敗}) = 0.4$ であると仮定します。
交差エントロピー $H(P, Q)$ は次のように計算されます:
$$
H(P, Q) = – \left( P(\text{成功}) \log Q(\text{成功}) + P(\text{失敗}) \log Q(\text{失敗}) \right)
$$
この場合、
$$
H(P, Q) = – \left( 0.8 \log 0.6 + 0.2 \log 0.4 \right)
$$
これを計算すると、
$$
H(P, Q) \approx – \left( 0.8 \times (-0.2218) + 0.2 \times (-0.3979) \right)
$$
$$
H(P, Q) \approx 0.2590 + 0.0796
= 0.3386
$$
つまり、真の分布 $P$ と推定された分布 $Q$ の間の交差エントロピーは約0.34ビットです。この値が大きいほど、$Q$ が $P$ に対して不正確であることを示します。
交差エントロピーの応用
交差エントロピーは、さまざまな分野で応用されています。特に機械学習においては、分類問題における損失関数として広く使用されています。
機械学習における交差エントロピー
機械学習では、モデルが予測した確率分布と実際の正解ラベルとの間の交差エントロピーが、モデルの「誤差」として計算されます。例えば、二値分類問題では、交差エントロピー損失(log loss)を最小化することが、モデルの精度を高めるための目標となります。
ニューラルネットワークにおける使用例
ニューラルネットワークの訓練において、出力層で予測された確率分布と、真のラベルに基づく確率分布との間の交差エントロピーが損失関数として使用されます。これにより、モデルは予測の不確実性を減少させ、より正確な予測を行うように学習します。
結論
交差エントロピーは、情報理論や機械学習において確率分布間の差異を測定するための基本的なツールです。エントロピーの拡張として、交差エントロピーは真の分布と推定された分布の間にどれだけの差があるかを定量的に示し、その結果、通信システムやデータ圧縮、さらには機械学習モデルの評価に広く応用されています。