回帰分析における決定係数 - ITとCFD入門サイト

はじめに

回帰分析は、変数間の関係をモデル化するための統計的手法です。特に、単回帰分析や重回帰分析において、変数間の関係を定量的に評価するために使用されます。その中で重要な指標の一つが決定係数（Coefficient of Determination）です。本記事では、決定係数の定義、計算方法、解釈、そしてその限界について詳しく解説します。

1. 回帰分析の基本

1.1 回帰分析とは

回帰分析は、ある変数（従属変数）が他の変数（独立変数）によってどのように影響を受けるかを調べるための手法です。従属変数は、予測や説明を行いたい変数であり、独立変数はその影響を与える変数です。

例えば、家庭の収入（独立変数）が消費支出（従属変数）に与える影響を調査する場合、消費支出は回帰分析の従属変数になります。

1.2 単回帰分析と重回帰分析

単回帰分析: 一つの独立変数が従属変数に与える影響を調査します。数式で表すと、次のようになります：

$$
y = \beta_0 + \beta_1 x + \epsilon
$$

ここで、$y$は従属変数、$x$は独立変数、$\beta_0$は切片、$\beta_1$は回帰係数、$\epsilon$は誤差項です。

重回帰分析: 複数の独立変数が従属変数に与える影響を調査します。数式で表すと、

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon
$$

ここで、$x_1, x_2, \ldots, x_n$は独立変数です。

2. 決定係数の定義

2.1 決定係数とは

決定係数（$R^2$）は、回帰分析においてモデルの説明力を示す指標です。具体的には、従属変数の変動のうち、どれだけが独立変数によって説明されるかを示します。決定係数は0から1の値を取り、次のように定義されます：

$$
R^2 = 1 – \frac{SS_{\text{res}}}{SS_{\text{tot}}}
$$

ここで、$SS_{\text{res}}$は残差平方和（Residual Sum of Squares）、$SS_{\text{tot}}$は全平方和（Total Sum of Squares）です。

2.2 残差平方和と全平方和の定義

残差平方和（$SS_{\text{res}}$）: モデルによって説明されない変動の合計を示します。これは、観測値と予測値の差の平方和であり、次のように表されます：

$$
SS_{\text{res}} = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2
$$

ここで、$y_i$は実際の観測値、$\hat{y}_i$はモデルによって予測された値です。

全平方和（$SS_{\text{tot}}$）: 従属変数の全変動の合計を示します。これは、観測値とその平均値の差の平方和であり、次のように表されます：

$$
SS_{\text{tot}} = \sum_{i=1}^{n} (y_i – \bar{y})^2
$$

ここで、$\bar{y}$は観測値の平均です。

3. 決定係数の解釈

3.1 決定係数の範囲

決定係数は0から1の範囲を取ります。

$R^2 = 1$: モデルが全ての変動を説明していることを示します。観測値と予測値が完全に一致します。
$R^2 = 0$: モデルが全く変動を説明していないことを示します。これは、従属変数の変動が完全に誤差によるものであることを意味します。

3.2 決定係数の意義

高い決定係数は、独立変数が従属変数に対して強い影響を持つことを示します。しかし、必ずしも高い決定係数が良いモデルを意味するわけではありません。以下にその理由を示します：

過剰適合: モデルがトレーニングデータに過剰に適合すると、決定係数が高くなることがありますが、これは新しいデータに対する予測精度が低下する可能性を示唆しています。
関連性のない変数: 無関係な独立変数を追加することで決定係数は高くなることがありますが、これはモデルの解釈を難しくします。

4. 決定係数の計算例

4.1 データセットの例

以下のようなサンプルデータを考えます：

$x$ (独立変数)	$y$ (従属変数)
1	2
2	3
3	5
4	4
5	5

4.2 回帰モデルの作成

このデータに対して単回帰分析を行うと、次のような回帰式が得られます：

$$
\hat{y} = 1.4 + 0.6x
$$

4.3 残差平方和と全平方和の計算

観測値の平均:
$$
\bar{y} = \frac{2 + 3 + 5 + 4 + 5}{5} = 3.8
$$
残差平方和:
[
SS_{\text{res}} = (2 – 2.0)^2 + (3 – 3.0)^2 + (5 – 4.6)^2 + (4 – 4.2)^2 + (5 – 5.0)^2 = 0 + 0 + 0.16 + 0.04 + 0 = 0.2
]
全平方和:
[
SS_{\text{tot}} = (2 – 3.8)^2 + (3 – 3.8)^2 + (5 – 3.8)^2 + (4 – 3.8)^2 + (5 – 3.8)^2 = 3.24 + 0.64 + 1.44 + 0.04 + 1.44 = 6.8
]