0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
ここでは,1標本\(t\) 検定の流れを実際の値を使って確認してみましょう。\(p\) 値の計算は手計算では難しいので棄却域との比較を行っていますが,「Rのt.test関数 (その他SPSSだったりExcelだったりに適宜読み替えてください) の裏側ではこのように計算しているんだ」というイメージをつかみましょう。
(データ概要)
ある学校で,無作為に選んだ10人の子どもの身長を測定したところ,以下のようなデータが得られました。10人の平均身長は\(149.3 cm\) でした。
\begin{array}{cc}
\hline
ID & height \\
\hline
1 & 155 \\
\hline
2 & 151 \\
\hline
3 & 140 \\
\hline
4 & 154 \\
\hline
5 & 142 \\
\hline
6 & 153 \\
\hline
7 & 151 \\
\hline
8& 146 \\
\hline
9& 141 \\
\hline
10 & 160 \\
\hline
\end{array}
①仮説を立てる
今回は
帰無仮説\(H_{0}\): この学校に在籍する子どもの平均身長は150.0 cmである
対立仮説\(H_{1}\): この学校に在籍する子どもの平均身長は150.0 cmでない
という仮説を立てます。
差の有無にのみ着目しているので,今回は両側検定を採用します。
②検定統計量を選択する
今回の事例では母分散 (母集団の分散) が不明なので,不偏分散\(u^2\) を用いる検定統計量\( t\) を使用します。また,帰無仮説の棄却 / 保留の判断には自由度\(n - 1 = 9\) の \(t\) 分布を使用します。
③有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha = 0.05 \) と定めることが一般的です。研究の目的や分野によっては異なる有意水準 ( \(\alpha = 0.1\) , \(\alpha = 0.01 \) など) を定めることもあります。
④適切な検定統計量を求める
○不偏分散
\(t\) 値を求めるために,まずは不偏分散 \(u^2\) を以下の公式によって求めます。
\[u^{2} = \frac{1}{n - 1} \sum_{i = 1}^n {(x_{i} - \overline{x})^2}\]
このとき,\( n\) はサンプルサイズ,\(x_{i}\) は\(i\) 番目のデータ,\(\overline{x} \)はデータの平均を表します。
今回の場合は,\( n = 10\) ,\(\overline{x} = 149.3\)です。
したがって,不偏分散は
\begin{align}
u^{2} &= \frac{1}{10 - 1} \left\{\left(x_{1} - 149.3 \right)^{2} + \left(x_{2} - 149.3 \right)^{2} + \left(x_{3} - 149.3 \right)^{2} + ... + \left(x_{10} - 149.3 \right)^{2}\right\} \\[14pt]
&= \frac{1}{9} \left\{\left(155 - 149.3 \right)^{2} + \left(151 - 149.3 \right)^{2} + \left(140 - 149.3 \right)^{2} + ... + \left(160 - 149.3\right)^{2} \right\} \\[14pt]
&\fallingdotseq 45.344
\end{align}
と求められます (※1)。
○\(t \) 値
不偏分散が求められたところで,いよいよ\( t \) 値を求めます。
\( t \)値は以下の公式で求められます。
\[ t = \frac{\overline{x} - \mu}{\sqrt{\frac{u^2}{n}}} \]
今回の場合だと,母平均 (= ある学校の生徒全員の身長の平均) が150.0 cmであるかどうかを検討したいので, 母平均\(\mu = 150.0\) とおきます。
したがって,\(t\) 値は
\begin{align}
t &= \frac{149.3 - 150.0}{\sqrt{\frac{45.344}{10}}} \\[14pt]
&\fallingdotseq -0.329
\end{align}
と求められます。
⑤データの自由度と有意水準をもとに棄却域 (データから求めた\(t\)値がこの中に含まれれば帰無仮説を棄却する) を定める
\(t\)分布表の自由度9の行を見ると,\(t_{0.025}(9) = 2.262 \) であることがわかります。よって,求めた\( t\) 値が\(2.262 < x <\infty \) または \(- \infty < x < -2.262\) の範囲に含まれていれば帰無仮説を棄却,含まれていなければ帰無仮説についての判断を保留することにします。
⑥ \(t\) 値と棄却域を比較し,帰無仮説を棄却するかどうか決める (手計算の場合のみ)
データから求めた\(t\) 値はおよそ-0.329であり,棄却域内には含まれていません。
よって,今回は帰無仮説についての判断を保留し,「ある学校に在籍する子どもの平均身長は\(150.0 cm\)と異なるとはいえない」と結論づけます。
(※1) このガイドでは便宜上小数点第二位までを表示していますが,実際には途中の値は四捨五入せずに計算を進めます。途中で四捨五入をすると最終的な計算結果が変わってしまうためです。