はじめに
回帰分析は、変数間の関係をモデル化するための統計的手法です。特に、単回帰分析や重回帰分析において、変数間の関係を定量的に評価するために使用されます。その中で重要な指標の一つが決定係数(Coefficient of Determination)です。本記事では、決定係数の定義、計算方法、解釈、そしてその限界について詳しく解説します。
1. 回帰分析の基本
1.1 回帰分析とは
回帰分析は、ある変数(従属変数)が他の変数(独立変数)によってどのように影響を受けるかを調べるための手法です。従属変数は、予測や説明を行いたい変数であり、独立変数はその影響を与える変数です。
例えば、家庭の収入(独立変数)が消費支出(従属変数)に与える影響を調査する場合、消費支出は回帰分析の従属変数になります。
1.2 単回帰分析と重回帰分析
- 単回帰分析: 一つの独立変数が従属変数に与える影響を調査します。数式で表すと、次のようになります:
$$
y = \beta_0 + \beta_1 x + \epsilon
$$
ここで、$y$は従属変数、$x$は独立変数、$\beta_0$は切片、$\beta_1$は回帰係数、$\epsilon$は誤差項です。
- 重回帰分析: 複数の独立変数が従属変数に与える影響を調査します。数式で表すと、
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon
$$
ここで、$x_1, x_2, \ldots, x_n$は独立変数です。
2. 決定係数の定義
2.1 決定係数とは
決定係数($R^2$)は、回帰分析においてモデルの説明力を示す指標です。具体的には、従属変数の変動のうち、どれだけが独立変数によって説明されるかを示します。決定係数は0から1の値を取り、次のように定義されます:
$$
R^2 = 1 – \frac{SS_{\text{res}}}{SS_{\text{tot}}}
$$
ここで、$SS_{\text{res}}$は残差平方和(Residual Sum of Squares)、$SS_{\text{tot}}$は全平方和(Total Sum of Squares)です。
2.2 残差平方和と全平方和の定義
- 残差平方和($SS_{\text{res}}$): モデルによって説明されない変動の合計を示します。これは、観測値と予測値の差の平方和であり、次のように表されます:
$$
SS_{\text{res}} = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2
$$
ここで、$y_i$は実際の観測値、$\hat{y}_i$はモデルによって予測された値です。
- 全平方和($SS_{\text{tot}}$): 従属変数の全変動の合計を示します。これは、観測値とその平均値の差の平方和であり、次のように表されます:
$$
SS_{\text{tot}} = \sum_{i=1}^{n} (y_i – \bar{y})^2
$$
ここで、$\bar{y}$は観測値の平均です。
3. 決定係数の解釈
3.1 決定係数の範囲
決定係数は0から1の範囲を取ります。
- $R^2 = 1$: モデルが全ての変動を説明していることを示します。観測値と予測値が完全に一致します。
- $R^2 = 0$: モデルが全く変動を説明していないことを示します。これは、従属変数の変動が完全に誤差によるものであることを意味します。
3.2 決定係数の意義
高い決定係数は、独立変数が従属変数に対して強い影響を持つことを示します。しかし、必ずしも高い決定係数が良いモデルを意味するわけではありません。以下にその理由を示します:
- 過剰適合: モデルがトレーニングデータに過剰に適合すると、決定係数が高くなることがありますが、これは新しいデータに対する予測精度が低下する可能性を示唆しています。
- 関連性のない変数: 無関係な独立変数を追加することで決定係数は高くなることがありますが、これはモデルの解釈を難しくします。
4. 決定係数の計算例
4.1 データセットの例
以下のようなサンプルデータを考えます:
$x$ (独立変数) | $y$ (従属変数) |
---|---|
1 | 2 |
2 | 3 |
3 | 5 |
4 | 4 |
5 | 5 |
4.2 回帰モデルの作成
このデータに対して単回帰分析を行うと、次のような回帰式が得られます:
$$
\hat{y} = 1.4 + 0.6x
$$
4.3 残差平方和と全平方和の計算
- 観測値の平均:
$$
\bar{y} = \frac{2 + 3 + 5 + 4 + 5}{5} = 3.8
$$ - 残差平方和:
[
SS_{\text{res}} = (2 – 2.0)^2 + (3 – 3.0)^2 + (5 – 4.6)^2 + (4 – 4.2)^2 + (5 – 5.0)^2 = 0 + 0 + 0.16 + 0.04 + 0 = 0.2
] - 全平方和:
[
SS_{\text{tot}} = (2 – 3.8)^2 + (3 – 3.8)^2 + (5 – 3.8)^2 + (4 – 3.8)^2 + (5 – 3.8)^2 = 3.24 + 0.64 + 1.44 + 0.04 + 1.44 = 6.8
]
4.4 決定係数の計算
決定係数は次のように計算されます:
$$
R^2 = 1 – \frac{SS_{\text{res}}}{SS_{\text{tot}}} = 1 – \frac{0.2}{6.8} \approx 0.9706
$$
この結果から、この回帰モデルは約97%の変動を説明していることがわかります。
5. 決定係数の限界
5.1 決定係数の解釈の注意点
決定係数はモデルのフィットを示す一つの指標ですが、以下の点に注意が必要です。
- モデルの適切性: 決定係数が高いからといって、モデルが正しいとは限りません。モデルの仮定が満たされているかを確認する必要があります。
- 非線形関係の無視: 決定係数は線形関係に基づいているため、非線形な関係を持つデータには不適切です。この場合、他の指標や手法を考慮する必要があります。
5.2 調整済み決定係数
複数の独立変数を使用する重回帰分析の場合、単純に決定係数を使用すると、変数の数が増えるにつれて
常に値が増加してしまう問題があります。これを防ぐために、調整済み決定係数(Adjusted R^2)を使用します。調整済み決定係数は、次のように計算されます:
$$
R^2_{\text{adj}} = 1 – \left( \frac{(1 – R^2)(n – 1)}{n – p – 1} \right)
$$
ここで、$n$は観測データの数、$p$は独立変数の数です。
6. まとめ
決定係数は回帰分析における重要な指標であり、モデルが従属変数の変動をどれだけ説明できるかを示します。高い決定係数は良いモデルの指標とされますが、その解釈には注意が必要です。過剰適合や無関係な変数の影響を考慮し、他の指標と組み合わせてモデルの適切性を判断することが重要です。
回帰分析や決定係数を理解することで、データに基づいた意思決定や予測がより効果的に行えるようになります。データを解析する際は、ぜひ決定係数を活用してみてください。