Skip to Main Content

★手計算とRで学ぶ統計学: 相関分析

「なぜ統計学が必要か」という問いをひもとき,実践を通じて読者の方と統計学の心理的距離を縮めるガイドです。

基本・相関分析

ここでは変数間の線形な関係,つまり2つの変数が相互関係するかどうか (相関) を検討するための手法を紹介します。
相関分析は探索的に行われることが多いので,サンプルサイズ設計を行うことはそこまで多くありません
。もちろん,その他の検定と同じように効果量 (相関係数そのもの) をもとにサンプルサイズを事前に決定することもできます。
(データ概要)
1年間の平均気温と家庭ごとのアイスクリームの平均消費額のデータは以下のようになりました。

\begin{array}{ccc}
  \hline
  Month & temperature & sales \\
  \hline
 1 &  10.1   & 510   \\
  \hline
 2 &  13.8 & 458 \\
  \hline
3 &  17.5  & 602 \\
  \hline
4&   20.7  & 708 \\
  \hline
5 &  24.1  & 915 \\
  \hline
 6 & 27.7  & 1089 \\
  \hline
  7 & 32.5  & 1485 \\
  \hline
  8 &30.7  & 1427 \\
  \hline
 9 & 28.8  & 973\\
  \hline
 10 & 24.8  & 779 \\
  \hline
 11 & 17.9  & 582 \\
  \hline
 12 & 12.7  & 620 \\
  \hline
\end{array}

① それぞれのデータの平均値を求める
相関係数を求める前に,1年間の平均気温とアイスクリームの平均消費額のデータについてそれぞれ平均を取ります。
1年間の平均気温の平均\(\overline x\) は
\begin{align}
\overline x &=\frac{1}{n} \sum_{i = 1}^{n}x_{i} \\
&= \frac{1}{12} \left(x_{1} + x_{2} + ... + x_{12} \right) \\
&= \frac{1}{12} \left(10.1 + 13.8 + ... + 12.7 \right) \\
&= 21.775
\end{align}

月ごとのアイスクリーム消費額の平均\(\overline y\) は
\begin{align}
\overline y &=\frac{1}{n} \sum_{i = 1}^{n}y_{i} \\
&= \frac{1}{12} \left(y_{1} + y_{2} + ... + y_{12} \right) \\
&= \frac{1}{12} \left(510 + 458 + ... + 620 \right) \\
&\fallingdotseq 846.667
\end{align}
と,それぞれ求めることができます。

② データの積和,相乗平均を求める
2つの量的変数の関係を表す値である相関係数 (正式名称: ピアソンの積率相関係数) \(r\) を求める公式は以下のとおりです。
\begin{align}
r &= \frac{SP_{xy}}{\sqrt {SS_{x} SS_{y}}} \\
\end{align}

このとき,分子\(SP_{sy}\) は積和 (各データと平均値の差の総和),分母\(\sqrt {SS_{x} SS_{y}}\) は\(x\)と\(y\)の平方和 (各データと平均値の差を二乗したものの総和) の積の平方根をとったものを表します。

分子と分母をそれぞれ計算すると,以下のようになります。
\begin{align}
SP_{xy} &= \sum_{i = 1}^{n}\left(x_{i} - \overline x \right)\left(y_{i} - \overline y \right) \\
& =\left(x_{1} - \overline x \right)\left(y_{1} - \overline y \right) + \left(x_{2} - \overline x \right)\left(y_{2} - \overline y \right) + ... + \left(x_{12} - \overline x \right)\left(y_{12} - \overline y \right) \\
& =\left(10.1 - 21.775 \right)\left(510 - 846.667 \right) + ... + \left(12.7 - 21.775 \right)\left(620 - 846.667 \right) \\
&= 25610.9
\end{align}

\begin{align}
\sqrt{SS_{x}SS_{y}} &= \sqrt{\sum_{i=1}^{n}(x_{i} - \overline x)^2 \sum_{i=1}^{n}(y_{i} - \overline y)^2} \\
& = \sqrt{\left\{(x_{1} - \overline x)^2 + (x_{2} - \overline x)^2 + ... + (x_{12} - \overline x)^2\right\} \left\{(y_{1} - \overline y)^2 + (y_{2} - \overline y)^2 + ... + (y_{12} - \overline y)^2\right\}} \\
&= \sqrt{\left\{10.1 - 21.775)^2 +  ... + (12.7- 21.775)^2\right\} \left\{(510 - 845.667)^2  + ... + (620 - 845.667)^2\right\}} \\
&\fallingdotseq 28094.69
\end{align}

③ 相関係数\(r\) を求める
② の行程で求めた分子,分母の値から相関係数\(r\) を求めます。
\begin{align}
r &= \frac{SP_{xy}}{\sqrt {SS_{x} SS_{y}}} \\
&= \frac{25610.9}{28094.69} \\
&\fallingdotseq 0.9115
\end{align}
相関係数\(r\) のとりうる値の範囲は-1から1の間です。よって,この結果からは月ごとの平均気温とアイスクリームの平均消費金額には極めて強い正の相関 (気温が上がるとアイスクリームの消費金額も上がる) があるとわかりました。

基本・無相関検定

母集団の真の相関係数を推定する,つまりデータから得られた相関係数が統計的に有意なものであるかを検討するには無相関検定 (\(t\)検定) を行います。
この場合,帰無仮説\(H_0\) は「2つの母集団の間の相関係数は0である」,対立仮説\(H_1\) は「2つの母集団の間の相関係数は0ではない」とします。

① 検定統計量を求める
無相関検定の検定統計量\(t\) は以下の式によって求められます。
\begin{align}
t &=\frac{(相関係数)\sqrt {サンプルサイズ - 2}}{\sqrt {1 - (相関係数)^2}} \\
&= \frac{(0.9115)\sqrt {12 - 2}}{\sqrt {1 - (0.9115)^2}} \\
&\fallingdotseq  7.0122
\end{align}

② データの自由度と有意水準をもとに棄却域 (データから求めた\( t\)値がこの中に含まれれば帰無仮説を棄却する) を定める
\( t\)分布表の自由度10の行を見ると,\(t_{0.025}(10) = 2.228 \) であることがわかります。よって,求めた\(t\) 値が\(1.812<  x < \infty \) または   \(- \infty < x < -1.812 \) の範囲に含まれていれば帰無仮説を棄却,含まれていなければ帰無仮説についての判断を保留することにします。

③ \(t\) 値と2棄却域を比較し,帰無仮説を棄却するかどうか決める (手計算の場合のみ)
データから求めた\(t\) 値はおよそ7.012であり,棄却域の内側にあります。
よって,今回は帰無仮説を棄却し,「母集団の相関係数は0ではない」と結論づけます。

★相関関係 ≠ 因果関係

相関関係を検討する上で最も注意すべきことは,「相関があるからといって2つの変数間に因果関係があるわけではない」ということです。
この2つを混同することでどのような悪影響が生じるか,を紹介した動画もあります。英語ですが,視覚的な説明によって理解がしやすくなっています。

1999〜2009年のプールでの溺死者数とニコラス・ケイジ氏の出演した映画の本数の間には強い正の相関があることが知られています。
しかし,「ニコラス・ケイジ氏を映画に出さないことでプールでの溺死者数を減らすことができる!」とはなりません。因果関係の推定を行うこともできますが,相関係数から直接導き出せるものではありません。
このような「一見関係があるように見えないけれ
ど,計算してみるとまあまあ高い相関係数が得られる」ようなデータをまとめたウェブサイトもあります。

2変数の相関には隠れた変数 (潜在変数) の影響が存在していることも無視できません。たとえば「週末ハイキングに行く回数が多いほど職業におけるストレスの値が低い」というデータを考えてみましょう。
その場合「週末に会社主催でハイキングをして従業員のストレスを緩和しよう!」という決定を下したくなるかもしれません。しかし,この2変数の裏には労働環境という潜在変数が存在している可能性がかなり高いと考えられます。
もともと職業におけるストレスが発生しにくい (人間関係が良好,休みが取りやすい,残業が少ない) 職場だと職業におけるストレスが発生しにくい,ということは想像しやすいでしょう。ストレスが少ないということは週末ハイキングに行く肉体的・精神的余裕が持ちやすい,つまり週末ハイキングに行く回数が多い,という結果につながっていると考えられます。
そのため職場でストレスを発生させる要因があるにもかかわらずそれらを無視して週末ハイキングをやったところで効果がない,または逆効果になる可能性が高いです。

どうしても「強い相関がある→因果関係がある」という結論を導きたくなってしまいますが,一旦立ち止まって冷静に考えてみましょう。