一般化線形モデル(Generalized Linear Model, GLM)は、回帰分析の一つであり、従属変数が持つ特性に応じて異なる分布を考慮しながら、独立変数と従属変数の関係をモデル化するための強力な手法です。GLMは、通常の線形回帰の拡張として位置づけられ、より多様なデータの解析に適用できます。この記事では、GLMの基本概念、理論、実装方法、及びその応用について詳しく解説します。
1. 一般化線形モデルの概要
一般化線形モデルは、次の3つの要素から構成されています。
- 線形予測子(Linear Predictor)
- リンク関数(Link Function)
- 確率分布(Probability Distribution)
これにより、従属変数の特性に応じた柔軟なモデルを構築することができます。
1.1 線形予測子
線形予測子は、独立変数の線形結合を表します。数式で表すと、次のようになります。
$$
\eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n
$$
- $\eta$:線形予測子
- $\beta_0$:切片(定数項)
- $\beta_1, \beta_2, \dots, \beta_n$:回帰係数
- $x_1, x_2, \dots, x_n$:独立変数
1.2 リンク関数
リンク関数は、線形予測子と従属変数の期待値との関係を定義します。GLMでは、従属変数の期待値を$g(\mu)$として次のように表します。
$$
g(\mu) = \eta
$$
ここで、$\mu$は従属変数の期待値です。一般的なリンク関数には、次のようなものがあります。
- 恒等リンク関数:$g(\mu) = \mu$(通常の線形回帰)
- ロジスティックリンク関数:$g(\mu) = \log\left(\frac{\mu}{1-\mu}\right)$(ロジスティック回帰)
- 対数リンク関数:$g(\mu) = \log(\mu)$(ポアソン回帰)
1.3 確率分布
一般化線形モデルでは、従属変数の分布を指定する必要があります。GLMは、以下の一般的な分布に基づいて構築されます。
- 正規分布:連続データに適用される(通常の線形回帰)
- 二項分布:成功/失敗のデータ(ロジスティック回帰)
- ポアソン分布:カウントデータに適用される(ポアソン回帰)
2. 一般化線形モデルの理論
GLMは、基本的に3つの部分から成り立っていますが、その理論は以下の要素に基づいています。
2.1 最尤推定
一般化線形モデルでは、パラメータ($\beta$)を推定するために最尤推定(Maximum Likelihood Estimation, MLE)が用いられます。最尤推定とは、観測されたデータが得られる確率を最大化するパラメータを求める方法です。
最尤推定の手法では、尤度関数(Likelihood Function)を構築します。尤度関数は、観測データに対してパラメータが与えられたときの確率を示します。
$$
L(\beta) = \prod_{i=1}^{n} P(y_i | \beta)
$$
ここで、$y_i$は観測されたデータ、$P(y_i | \beta)$は与えられたパラメータのもとでの確率です。
尤度関数を最大化することで、最適なパラメータ$\hat{\beta}$を推定します。
2.2 デビエンス(Deviance)
デビエンスは、モデルの適合度を測る指標です。GLMでは、デビエンスは尤度比を使って計算されます。これは、最適モデルと完全モデル(理想的なモデル)との間の情報の損失を示します。
デビエンスは次のように表されます。
$$
D = -2 \log\left(\frac{L(\hat{\beta}{\text{最適}})}{L(\hat{\beta}{\text{完全}})}\right)
$$
デビエンスの値が小さいほど、モデルの適合度が良いとされます。
2.3 アカイケ情報量基準(AIC)
モデルの比較にはアカイケ情報量基準(Akaike Information Criterion, AIC)がよく用いられます。AICは、モデルの適合度と複雑さを考慮した指標であり、次のように計算されます。
$$
\text{AIC} = 2k – 2\log(L)
$$
- $k$:モデルのパラメータの数
- $L$:尤度
AICの値が小さいモデルがより良いとされ、異なるモデルを比較する際に有用です。
3. 一般化線形モデルの種類
一般化線形モデルは、従属変数の特性に応じていくつかの種類に分類されます。ここでは代表的なGLMの種類について説明します。
3.1 線形回帰
線形回帰は、従属変数が正規分布に従うと仮定したGLMです。リンク関数には恒等リンク関数を使用し、モデルは次のように表されます。
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
$$
3.2 ロジスティック回帰
ロジスティック回帰は、従属変数が二項分布に従う場合に用いられます。成功/失敗のデータを扱う際に使われ、リンク関数にはロジスティック関数を使用します。
$$
\text{logit}(\mu) = \log\left(\frac{\mu}{1-\mu}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n
$$
ここで、$\mu$は成功の確率です。
3.3 ポアソン回帰
ポアソン回帰は、カウントデータに適用されます。従属変数がポアソン分布に従う場合に使用し、リンク関数には対数リンク関数を用います。
$$
\log(\mu) = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n
$$
ここで、$\mu$は平均カウントです。
4. 一般化線形モデルの適用例
一般化線形モデルは、さまざまな分野で広く利用されています。以下にいくつかの具体的な適用例を示します。
4.1 医療分野
医療分野では、ロジスティック回帰を用いて患者の治療効果やリスクファクターの影響を分析します。例えば、ある新薬が患者の治癒率に与える影響を評価するために、治癒した患者と治癒しなかった患者のデータを使ってロジスティック回帰モデルを構築することができます。
4.2 経済学
経済学では、ポアソン回帰を使ってある商品の売上データや顧客の購買行動を分析することがあります。売上がカウントデータである場合、ポアソン回帰を適用することで、価格や広告費などの要因が売上に与える影響を測定できます。
4.3 環境科学
環境科学の研究では、線形回帰を用いて気温や降水量が作物の生産量に与える影響を分析することが一般的です。従属変数を作物の生産量とし、独立変数として気温や
降水量を考慮したモデルを構築します。
5. まとめ
一般化線形モデルは、従属変数の分布に応じた柔軟な回帰分析手法であり、多くの応用分野で利用されています。最尤推定やデビエンス、アカイケ情報量基準(AIC)などの理論に基づき、モデルの適合度や複雑さを考慮しながらパラメータを推定します。GLMは、医療、経済学、環境科学などさまざまな分野でデータ解析において重要な役割を果たしています。
このように、一般化線形モデルを理解することで、より複雑なデータに対する洞察を得ることができ、実世界の問題解決に役立てることができます。