はじめに
ピアソン相関係数(Pearson correlation coefficient)は、二つの変数間の線形関係の強さと方向を示す統計的指標です。この指標は、統計学やデータ分析において非常に重要な役割を果たし、多くの科学的研究や実務において使用されています。本記事では、ピアソン相関係数の定義、計算方法、解釈、限界、そしてその背景にある理論について詳しく解説します。
1. ピアソン相関係数の基本
1.1 相関とは
相関とは、二つの変数の間に存在する関係を指します。例えば、身長と体重の関係や、気温とアイスクリームの販売量の関係などが相関の例です。相関には以下のような種類があります:
- 正の相関: 一方の変数が増加するにつれて、もう一方の変数も増加する場合(例:気温が高くなるとアイスクリームの販売が増える)。
- 負の相関: 一方の変数が増加するにつれて、もう一方の変数が減少する場合(例:気温が高くなると暖房の使用が減少する)。
- 無相関: 二つの変数間に明確な関係がない場合(例:身長と靴のサイズの関係)。
1.2 ピアソン相関係数の定義
ピアソン相関係数は、以下のように定義されます:
$$
r = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum (x_i – \bar{x})^2 \sum (y_i – \bar{y})^2}}
$$
ここで、
- $r$: ピアソン相関係数
- $x_i$: $i$番目の独立変数の観測値
- $y_i$: $i$番目の従属変数の観測値
- $\bar{x}$: 独立変数の平均値
- $\bar{y}$: 従属変数の平均値
ピアソン相関係数は-1から1の範囲を取り、次のように解釈されます:
- $r = 1$: 完全な正の相関
- $r = -1$: 完全な負の相関
- $r = 0$: 相関なし
2. ピアソン相関係数の計算
2.1 データセットの例
以下のようなデータセットを考えます:
$x$ (独立変数) | $y$ (従属変数) |
---|---|
1 | 2 |
2 | 3 |
3 | 5 |
4 | 4 |
5 | 5 |
2.2 平均値の計算
まず、$x$と$y$の平均値を計算します。
- 独立変数の平均 ($\bar{x}$):
$$
\bar{x} = \frac{1 + 2 + 3 + 4 + 5}{5} = 3
$$
- 従属変数の平均 ($\bar{y}$):
$$
\bar{y} = \frac{2 + 3 + 5 + 4 + 5}{5} = 3.8
$$
2.3 相関係数の計算
次に、相関係数の計算を行います。
- 分子の計算:
$$
\sum (x_i – \bar{x})(y_i – \bar{y}) = (1-3)(2-3.8) + (2-3)(3-3.8) + (3-3)(5-3.8) + (4-3)(4-3.8) + (5-3)(5-3.8)
$$
$$
= (-2)(-1.8) + (-1)(-0.8) + (0)(1.2) + (1)(0.2) + (2)(1.2) = 3.6 + 0.8 + 0 + 0.2 + 2.4 = 7
$$
- 分母の計算:
- $x$の平方和:
$$
\sum (x_i – \bar{x})^2 = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4 + 1 + 0 + 1 + 4 = 10
$$
- $y$の平方和:
$$
\sum (y_i – \bar{y})^2 = (2-3.8)^2 + (3-3.8)^2 + (5-3.8)^2 + (4-3.8)^2 + (5-3.8)^2 = 3.24 + 0.64 + 1.44 + 0.04 + 1.44 = 6.8
$$
- 分母の合計:
$$
\sqrt{\sum (x_i – \bar{x})^2 \sum (y_i – \bar{y})^2} = \sqrt{10 \cdot 6.8} = \sqrt{68} \approx 8.246
$$
- 相関係数の計算:
$$
r = \frac{7}{8.246} \approx 0.849
$$
この結果から、$x$と$y$には強い正の相関があることがわかります。
3. ピアソン相関係数の解釈
3.1 相関係数の範囲
ピアソン相関係数は-1から1までの範囲を取り、次のように解釈されます。
- $r = 1$: 完全な正の相関を示し、$x$が増加する際に$y$も必ず増加します。
- $r = -1$: 完全な負の相関を示し、$x$が増加する際に$y$は必ず減少します。
- $r = 0$: $x$と$y$の間に相関がないことを示します。これは、$x$の値が変化しても$y$の値に影響がないことを意味します。
3.2 ピアソン相関係数の意義
ピアソン相関係数は、データの分析や研究において非常に役立つ指標です。相関係数が高い場合、変数間に強い関係が存在する可能性が高いと考えられます。例えば、医療研究では、特定の生活習慣が健康に与える影響を調査する際に、ピアソン相関係数が利用されます。
4. ピアソン相関係数の限界
4.1 線形性の仮定
ピアソン相関係数は線形関係に基づいているため、非線形な関係を持つデータには適さないことがあります。例えば、$x$と$y$の間に二次関係やその他の非線形関係が存在する場合、相関係数は低くなり、真の関係を正しく評価できないことがあります。
4.2 外れ値の影響
ピアソン相関係数は外れ値(outlier)の影響を受けやすいです。外れ値とは、他のデータポイントから大きく離れた値を持つデータ点のことです。外れ値が存在すると、相関係数の値が歪む可能性があるため、注意が必要です。
4.3 因果関係の誤解
相関関係は因果関係を示すものではありません。例えば、$x$と$y$が高い相関を持つからといって、$x$が$y$の原因であるとは限りません。相関関係が見られる場合でも、他の要因(隠れた変数)が影響を及ぼしている可能性があります。
5. ピアソン相関係数の計算の実践
5.1 データセットの用意
以下のようなデータセットを考えます:
$x$ | $y$ |
---|---|
10 | 12 |
20 | 22 |
30 | 32 |
40 | 45 |
50 | 50 |
5.2 相関係数の計算手順
- 平均値を計算する。
- 分子を計算する。
- 分母を計算する。
- 相関係数を計算する。
5.3 結果の解釈
このデータセットの相関係数を計算すると、相関がどの程度あるかがわかります。もし相関係数が0.9以上であれば、非常に強い正の相関があると解釈できます。
6. まとめ
ピアソン相関係数は、二つの変数間の線形関係を測定するための重要な指標です。その計算は比較的簡単ですが、正確な解釈と限界を理解することが不可欠です。相関は因果関係を示さないため、データ分析や研究の際には注意が必要です。ピアソン相関係数を適切に利用することで、データの洞察を得ることができ、意思決定に役立てることができます。