重回帰分析は、複数の説明変数を用いて一つの目的変数を予測する手法です。この技術は、社会科学、経済学、医療、マーケティングなどさまざまな分野で広く利用されています。本記事では、重回帰分析の基本的な理論、モデルの構築方法、実例を通じてその理解を深めることを目的とします。
1. 重回帰分析とは
重回帰分析は、次のような数式で表現されます。
$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon
$$
ここで、各記号の意味は以下の通りです:
- $Y$: 目的変数(従属変数)
- $X_1, X_2, \ldots, X_n$: 説明変数(独立変数)
- $\beta_0$: 切片(定数項)
- $\beta_1, \beta_2, \ldots, \beta_n$: 各説明変数の回帰係数
- $\epsilon$: 誤差項(モデルの未説明部分)
1.1 目的変数と説明変数
- 目的変数: 予測したい値や結果。
- 説明変数: 目的変数に影響を与えると考えられる要因。
2. 重回帰分析の理論的背景
2.1 最小二乗法
重回帰分析では、回帰係数を推定するために「最小二乗法」がよく用いられます。最小二乗法の目的は、観測値とモデルによる予測値の誤差の二乗和を最小にすることです。具体的には、次のような目的関数を最小化します。
$$
S = \sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2
$$
ここで、$Y_i$は観測された目的変数の値、$\hat{Y}_i$はモデルによる予測値です。
2.2 回帰係数の推定
最小二乗法により、回帰係数は以下のように推定されます。
$$
\hat{\beta} = (X^TX)^{-1}X^TY
$$
ここで、$X$は説明変数の行列、$Y$は目的変数のベクトルです。
3. モデルの適合度
モデルの適合度を評価するために「決定係数($R^2$)」を用います。$R^2$は、モデルがどの程度目的変数の変動を説明できているかを示します。
$$
R^2 = 1 – \frac{\sum_{i=1}^{n} (Y_i – \hat{Y}i)^2}{\sum{i=1}^{n} (Y_i – \bar{Y})^2}
$$
ここで、$\bar{Y}$は目的変数の平均値です。
3.1 Adjusted $R^2$
複数の説明変数を含むモデルでは、$R^2$は説明変数の数が増えるごとに増加するため、実際のモデルの適合度を正確に評価するには「調整済み$R^2$」を使用します。
4. 仮定と前提条件
重回帰分析にはいくつかの前提条件があります。これらが満たされていないと、結果が信頼できない可能性があります。
4.1 線形性
目的変数と説明変数の関係は線形である必要があります。
4.2 独立性
説明変数は互いに独立であるべきです。
4.3 誤差の正規性
誤差項は正規分布に従うと仮定されます。
4.4 等分散性
誤差の分散は一定でなければなりません。
5. 実例: 家の価格予測
5.1 データセットの準備
家の価格を予測するためのデータセットを考えます。以下の説明変数を使用します:
- $X_1$: 部屋数
- $X_2$: 建物の面積(平方メートル)
- $X_3$: 築年数
5.2 モデルの構築
データをもとに重回帰モデルを構築します。モデルの形は次のようになります。
$$
Price = \beta_0 + \beta_1 \cdot Rooms + \beta_2 \cdot Area + \beta_3 \cdot Age + \epsilon
$$
5.3 モデルのフィッティング
最小二乗法を用いて回帰係数を推定し、適合度を評価します。
5.4 結果の解釈
推定された回帰係数から、各説明変数が家の価格に与える影響を解釈します。例えば、$β_2$が正であれば、建物の面積が増えるごとに家の価格が上がることを示します。
6. 重回帰分析の利点と欠点
6.1 利点
- 複数の要因を考慮: 複数の説明変数を用いることで、現実的なモデルが構築できます。
- 直感的な解釈: 回帰係数が各変数の影響を示すため、結果が直感的に理解しやすい。
6.2 欠点
- 外れ値の影響: 外れ値があるとモデルの推定が歪むことがあります。
- 多重共線性: 説明変数が強く相関している場合、回帰係数の推定が不安定になることがあります。
7. まとめ
重回帰分析は、複数の説明変数を用いて目的変数を予測する強力な統計手法です。基本的な理論を理解し、実例を通じてその応用を学ぶことで、実際の問題に対する解決策を見出すことができるでしょう。今後の研究や実務において、重回帰分析を活用して、データに基づく意思決定を行ってみてください。