0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
ここでは,対応のない一元配置分散分析の流れを実際の値を使って確認してみましょう。\(t\) 検定と同様に,「対応のない」とあるときは,独立な2群以上の平均値差を比較しています。
(データ概要)
ある果樹園のA,B,Cの3区画にリンゴの木がそれぞれ4本あります。それぞれの木に実っている果実の数を数えたところ,以下のようなデータが得られました。
\begin{array}{cccc}
\hline
ID & area\_A & area\_B & area\_C\\
\hline
1 & 28 & 40 & 56 \\
\hline
2 & 33 & 40 & 54 \\
\hline
3 & 35 & 37 & 59 \\
\hline
4 & 35 & 37 & 62 \\
\hline
\end{array}
① 仮説を立てる
今回は
帰無仮説\(H_{0}\): 区画A,B,Cのリンゴの果実数に統計的に有意な差がない
対立仮説\(H_{1}\): 区画A,B,Cの少なくともどれか1つの組み合わせでリンゴの果実数に統計的に有意な差がある
という仮説を立てます。
② データの自由度を求める
検定統計量の選択を行う前に,要因 (ここでは果樹園の区画) と残差 (ここでは群内の誤差) の自由度を求めます (※1)。
要因の自由度は \( (群数) - 1 = 3 - 1 = 2\),残差の自由度は\( (各群のサンプルサイズの和) - (群数) = 12 - 3 = 9\) と求められます。
③ 検定統計量を選択する
今回の事例では,要因 (群間) と残差 (群内) の自由度 \(df_{B}\),\(df_{W}\)を用いる検定統計量\(F\) を使用します。また,帰無仮説の棄却 / 保留の判断には\( F\left(df_{B}, df_{W}\right)\) \(= F\left(2, 9\right)\) となる \(F\) 分布を使用します。
④ 有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha\) = 0.05と定めることが一般的です。研究の目的や分野によっては異なる有意水準 (\(\alpha\) = 0.1,\(\alpha\) = 0.01など) を定めることもあります。
⑤ 各群の平均,データ全体の平均を求める
まずは区画A,B,Cそれぞれの平均とデータ全体の平均を求めます。
それぞれの区画の平均 \(\overline{x_{A}} ,\overline{x_{B}}, \overline{x_{C}}\) は
\begin{align}
\overline{x_{A}} &=\frac{1}{n_{A}}\sum_{i =1}^{n_{A}}x_{i A} \\
&= \frac{1}{4} \left( 28 + 33 + 35 + 35 \right) \\
&= 32.75
\end{align}
\begin{align}
\overline{x_B} &=\frac{1}{n_B}\sum_{i =1}^{n_B}x_{i B} \\
&= \frac{1}{4} \left( 40 + 40 + 37 + 37 \right) \\
&= 38.5
\end{align}
\begin{align}
\overline{x_C} &=\frac{1}{n_C}\sum_{i =1}^{n_C}x_{i C} \\
&= \frac{1}{4} \left( 56 + 56 + 59 + 62 \right) \\
&= 57.75
\end{align}
また,データ全体の平均は
\begin{align}
\overline{x} &= \frac{1}{N}\sum_{i = 1}^{m}\sum_{j = 1}^{n_{i}}x_{ij} (※2) \\
&= \frac{1}{N}\sum_{i = 1}^{m}\left[\left\{x_{i1} + x_{i2} + ... +x_{in_1}\right\} + \left\{x_{i1} + x_{i2} + ... +x_{in_2}\right\} + \left\{x_{i1} + x_{i2} + ... +x_{in_3}\right\}\right] \\
&= \frac{1}{12}\left[\left\{x_{11} + x_{12} + ... +x_{14}\right\} + \left\{x_{21} + x_{22} + ... +x_{24}\right\} + \left\{x_{31} + x_{32} + ... +x_{34}\right\}\right] \\
&= \frac{1}{12}\left[\left\{28 + 33 + 35 + 35\right\} + \left\{40 + 40 + 37 + 37\right\} + \left\{56 + 54 + 59 + 62\right\}\right] \\
&= 43
\end{align}
です。ここで,\(N\) はデータの総数,\(m\) は群数をあらわします。この場合は \(N = 12\),\(m = 3\) です。
また,\(i\)は各群のサンプルサイズをとります。この場合,A,B,Cすべての群でサンプルサイズは4です。
⑥ 群間分散,群内分散を求める
○群間分散
群間分散は,群ごとの処理の効果 (ここでは果樹園の区画ごとの違い) と群間で生じた偶然のばらつきを表す指標です。
まずは群間平方和\(SS_{B}\),つまり各群のそれぞれのデータと各群平均の差の二乗 (= 群ごとの標本分散) と各群のサンプルサイズの積の総和を求めます。
\begin{align}
SS_{B} &= \sum_{i=1}^mn_{i}\left(x_{i} - \overline{x_{i}}\right)^2 \\
&= 4\left(32.75 - 43\right)^2 + 4\left(38.5 - 43\right)^2 + 4\left(57.75 - 43\right)^2 \\
&= 1371.5
\end{align}
この群間平方和を自由度で割ることで群間分散が求められます。
\begin{align}
MS_{B} &= \frac{SS_{B}}{df_{B}} \\[7pt]
&= \frac{1371.5}{2} \\[7pt]
&= 685.75
\end{align}
○群内分散
群内分散は,群内で生じた偶然のばらつきを表す指標です。
まずは群内平方和,つまり各群の標本分散と各群のサンプルサイズの積の総和を求めます。
\begin{align}
SS_{W} &= \sum_{i=1}^m\sum_{j=1}^{n_{i}} n_{i}\frac {1}{n_{i}}\left(x_{ij} - \overline{x_{i}}\right)^2 \\
&= \sum_{i=1}^m\left\{ \left(x_{i1} - \overline{x_{i}}\right)^2 + \left(x_{i2} - \overline{x_{i}}\right)^2 + ... + \left(x_{in_{i}} - \overline{x_{i}}\right)^2\right\} \\[14pt]
&= \left\{ \left(x_{11} - \overline{x_{1}}\right)^2 + \left(x_{12} - \overline{x_{1}}\right)^2 + ... + \left(x_{14} - \overline{x_{1}}\right)^2\right\} \\
&+ \left\{ \left(x_{21} - \overline{x_{2}}\right)^2 + \left(x_{22} - \overline{x_{1}}\right)^2 + ... + \left(x_{24} - \overline{x_{2}}\right)^2\right\} \\
&+ \left\{ \left(x_{31} - \overline{x_{3}}\right)^2 + \left(x_{32} - \overline{x_{3}}\right)^2 + ... + \left(x_{34} - \overline{x_{3}}\right)^2\right\}\\[14pt]
&= \left\{ \left(28 - 32.75\right)^2 + \left(33 - 32.75\right)^2 + \left(35 - 32.75\right)^2 + \left(35 - 32.75\right)^2\right\} \\
&+\left\{ \left(40 - 38.5\right)^2 + \left(40 - 38.5\right)^2 + \left(37 - 38.5\right)^2 + \left(37 - 38.5\right)^2\right\} \\
&+\left\{ \left(56 - 57.75\right)^2 + \left(54 - 57.75\right)^2 + \left(59 - 57.75\right)^2 + \left(62 - 57.75\right)^2\right\} \\
&= 78.5
\end{align}
この群内平方話を自由度で割ることで群内分散が求められます。
\begin{align}
MS_{W} &= \frac{SS_{W}}{df_{W}} \\[7pt]
&= \frac{78.5}{9} \\[7pt]
&\fallingdotseq 8.722
\end{align}
⑦ \(F\)値を求める
群内分散,群間分散が求められたので,それらの比である\(F\)値を求めます。
\begin{align}
F = \frac{群間分散}{群内分散} \\[7pt]
= \frac{78.5}{8.72} \\[7pt]
\fallingdotseq 78.62
\end{align}
⑧ データの自由度と有意水準をもとに棄却域 (データから求めた\( F\)値がこの中に含まれれば帰無仮説を棄却する) を定める
\(F\) 分布表で \(F\left(2, 9\right)_{0.05}\) の数値を見ると,\(F \left(2, 9\right)_{0.05} = 4.26\) であることがわかります。よって,求めた\(F\) 値が\(4.26 < x < \infty \) の範囲に含まれていれば帰無仮説を棄却,含まれていなければ帰無仮説についての判断を保留することにします。
⑨ \(F\) 値と棄却域を比較し,帰無仮説を棄却するかどうか決める (手計算の場合のみ)
データから求めた\(F\) 値はおよそ78.62であるため,棄却域内にあります。
よって,今回は帰無仮説を棄却し,「A,B,Cの少なくとも1つの区画でリンゴの実の数に統計的に有意な差がある」と結論づけます。
(※1) \(F\) 値は自由度をパラメータとするため,先に自由度を求めておく方が手計算の場合は便利です。
コンピュータを使って行う場合はデータから自由度を計算してくれるので,この過程は不要です。
(※2) 統計学のテキストにもデータ全体の平均を求める式としてシグマが2つついたこの式が掲載されています。
一見難しい式に見えますが,このように分解すると「なーんだ,ただ群ごとにデータの総和をとっているだけじゃないか」となり,怖さが半減します。