Youtube登録者10000人突破!!

ピアソン相関係数

はじめに

ピアソン相関係数(Pearson correlation coefficient)は、二つの変数間の線形関係の強さと方向を示す統計的指標です。この指標は、統計学やデータ分析において非常に重要な役割を果たし、多くの科学的研究や実務において使用されています。本記事では、ピアソン相関係数の定義、計算方法、解釈、限界、そしてその背景にある理論について詳しく解説します。

1. ピアソン相関係数の基本

1.1 相関とは

相関とは、二つの変数の間に存在する関係を指します。例えば、身長と体重の関係や、気温とアイスクリームの販売量の関係などが相関の例です。相関には以下のような種類があります:

  • 正の相関: 一方の変数が増加するにつれて、もう一方の変数も増加する場合(例:気温が高くなるとアイスクリームの販売が増える)。
  • 負の相関: 一方の変数が増加するにつれて、もう一方の変数が減少する場合(例:気温が高くなると暖房の使用が減少する)。
  • 無相関: 二つの変数間に明確な関係がない場合(例:身長と靴のサイズの関係)。

1.2 ピアソン相関係数の定義

ピアソン相関係数は、以下のように定義されます:

$$
r = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum (x_i – \bar{x})^2 \sum (y_i – \bar{y})^2}}
$$

ここで、

  • $r$: ピアソン相関係数
  • $x_i$: $i$番目の独立変数の観測値
  • $y_i$: $i$番目の従属変数の観測値
  • $\bar{x}$: 独立変数の平均値
  • $\bar{y}$: 従属変数の平均値

ピアソン相関係数は-1から1の範囲を取り、次のように解釈されます:

  • $r = 1$: 完全な正の相関
  • $r = -1$: 完全な負の相関
  • $r = 0$: 相関なし

2. ピアソン相関係数の計算

2.1 データセットの例

以下のようなデータセットを考えます:

$x$ (独立変数)$y$ (従属変数)
12
23
35
44
55

2.2 平均値の計算

まず、$x$と$y$の平均値を計算します。

  • 独立変数の平均 ($\bar{x}$):

$$
\bar{x} = \frac{1 + 2 + 3 + 4 + 5}{5} = 3
$$

  • 従属変数の平均 ($\bar{y}$):

$$
\bar{y} = \frac{2 + 3 + 5 + 4 + 5}{5} = 3.8
$$

2.3 相関係数の計算

次に、相関係数の計算を行います。

  1. 分子の計算:

$$
\sum (x_i – \bar{x})(y_i – \bar{y}) = (1-3)(2-3.8) + (2-3)(3-3.8) + (3-3)(5-3.8) + (4-3)(4-3.8) + (5-3)(5-3.8)
$$

$$
= (-2)(-1.8) + (-1)(-0.8) + (0)(1.2) + (1)(0.2) + (2)(1.2) = 3.6 + 0.8 + 0 + 0.2 + 2.4 = 7
$$

  1. 分母の計算:
  • $x$の平方和:

$$
\sum (x_i – \bar{x})^2 = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4 + 1 + 0 + 1 + 4 = 10
$$

  • $y$の平方和:

$$
\sum (y_i – \bar{y})^2 = (2-3.8)^2 + (3-3.8)^2 + (5-3.8)^2 + (4-3.8)^2 + (5-3.8)^2 = 3.24 + 0.64 + 1.44 + 0.04 + 1.44 = 6.8
$$

  • 分母の合計:

$$
\sqrt{\sum (x_i – \bar{x})^2 \sum (y_i – \bar{y})^2} = \sqrt{10 \cdot 6.8} = \sqrt{68} \approx 8.246
$$

  1. 相関係数の計算:

$$
r = \frac{7}{8.246} \approx 0.849
$$

この結果から、$x$と$y$には強い正の相関があることがわかります。

3. ピアソン相関係数の解釈

3.1 相関係数の範囲

ピアソン相関係数は-1から1までの範囲を取り、次のように解釈されます。

  • $r = 1$: 完全な正の相関を示し、$x$が増加する際に$y$も必ず増加します。
  • $r = -1$: 完全な負の相関を示し、$x$が増加する際に$y$は必ず減少します。
  • $r = 0$: $x$と$y$の間に相関がないことを示します。これは、$x$の値が変化しても$y$の値に影響がないことを意味します。

3.2 ピアソン相関係数の意義

ピアソン相関係数は、データの分析や研究において非常に役立つ指標です。相関係数が高い場合、変数間に強い関係が存在する可能性が高いと考えられます。例えば、医療研究では、特定の生活習慣が健康に与える影響を調査する際に、ピアソン相関係数が利用されます。

4. ピアソン相関係数の限界

4.1 線形性の仮定

ピアソン相関係数は線形関係に基づいているため、非線形な関係を持つデータには適さないことがあります。例えば、$x$と$y$の間に二次関係やその他の非線形関係が存在する場合、相関係数は低くなり、真の関係を正しく評価できないことがあります。

4.2 外れ値の影響

ピアソン相関係数は外れ値(outlier)の影響を受けやすいです。外れ値とは、他のデータポイントから大きく離れた値を持つデータ点のことです。外れ値が存在すると、相関係数の値が歪む可能性があるため、注意が必要です。

4.3 因果関係の誤解

相関関係は因果関係を示すものではありません。例えば、$x$と$y$が高い相関を持つからといって、$x$が$y$の原因であるとは限りません。相関関係が見られる場合でも、他の要因(隠れた変数)が影響を及ぼしている可能性があります。

5. ピアソン相関係数の計算の実践

5.1 データセットの用意

以下のようなデータセットを考えます:

$x$$y$
1012
2022
3032
4045
5050

5.2 相関係数の計算手順

  1. 平均値を計算する。
  2. 分子を計算する。
  3. 分母を計算する。
  4. 相関係数を計算する。

5.3 結果の解釈

このデータセットの相関係数を計算すると、相関がどの程度あるかがわかります。もし相関係数が0.9以上であれば、非常に強い正の相関があると解釈できます。

6. まとめ

ピアソン相関係数は、二つの変数間の線形関係を測定するための重要な指標です。その計算は比較的簡単ですが、正確な解釈と限界を理解することが不可欠です。相関は因果関係を示さないため、データ分析や研究の際には注意が必要です。ピアソン相関係数を適切に利用することで、データの洞察を得ることができ、意思決定に役立てることができます。