0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
ここでは,対応のない2標本\(t\) 検定の流れを実際の値を使って確認してみましょう。「対応のない」とあるときは,独立な2群の平均値差を比較している,と覚えましょう。
基本的な計算の流れは1標本\(t\) 検定と同一ですが,分散の扱い方が少し違うので注意してみていきましょう。
(データ概要)
飲食店AとBのプリンの美味しさを10点満点で採点したところ,それぞれ以下のようなデータが得られました。
\begin{array}{ccc}
\hline
ID & value\_A & value\_B \\
\hline
1 & 7 & 1 \\
\hline
2 & 5 & 3 \\
\hline
3 & 5 & 2 \\
\hline
4& 8 & 4 \\
\hline
5 & 5 & 5 \\
\hline
6 & 7 & 4 \\
\hline
7 & 5 & 2 \\
\hline
8 &8 & 3 \\
\hline
9 & 5 & 1\\
\hline
10 & 4 & 3 \\
\hline
\end{array}
① 仮説を立てる
今回は
帰無仮説\(H_{0}\): 飲食店AとBのプリンの主観的美味しさに差がない
対立仮説\(H_{1}\): 飲食店Aのプリンは飲食店Bのプリンより主観的美味しさの点数が高い
という仮説を立てます。
差の大小に着目しているので,今回は片側検定を採用します。
② 検定統計量を選択する
今回の事例では母分散 (母集団の分散) が不明なので,それぞれのデータの不偏分散\(u_{1}^2\),\(u_{2}^2\)を用いる検定統計量\(t\) を使用します。また,帰無仮説の棄却 / 保留の判断には自由度\(n_{1} + n_{2} - 2 = 10 + 10 - 2= 18\) の \(t\) 分布を使用します。
③ 有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha\) = 0.05と定めることが一般的です。研究の目的や分野によっては異なる有意水準 (\(\alpha\) = 0.1,\(\alpha\) = 0.01など) を定めることもあります。
④ 適切な検定統計量を求める
○不偏分散
1標本 \(t\) 検定と同様に,まずはそれぞれのサンプルの不偏分散 \(u_{1}^2\), \(u_{2}^2\) を求めます。
今回の場合は,飲食店Aのプリンを食べた人の数 ( = 群1のサンプルサイズ) は \(n_{1}\) \( = 10\) ,群1の平均点は \(\overline{x_{1}} = 5.9\),飲食店Bのプリンを食べた人の数 ( = 群2のサンプルサイズ)\(n_{2}\) \( = 10\) ,群1の平均点は \(\overline{x_{2}} = 2.8\)です。
したがって,飲食店Aのデータの不偏分散は
\begin{align}
u_{1}^2 &= \frac{1}{10 - 1} \left\{(x_{1,1} - 5.9)^2 + (x_{2, 1} - 5.9)^2 + (x_{3, 1} - 5.9)^2 + ... + (x_{10, 1} - 5.9)^2 \right\} \\[14pt]
&= \frac{1}{10 - 1}\left\{(7 - 5.9)^2 + (5 - 5.9)^2 + (5 - 5.9)^2 + ... + (4 - 5.9)^2 \right\} \\[14pt]
&\fallingdotseq 2.1
\end{align}
飲食店Bのデータの不偏分散は
\begin{align}
u_{2}^2 &= \frac{1}{10 - 1} \left\{(x_{1, 2} - 2.8)^2 + (x_{2, 2} - 2.8)^2 + (x_{3, 2} - 2.8)^2 + ... + (x_{10, 2} - 2.8)^2 \right\} \\[14pt]
&= \frac{1}{10 - 1} \left\{(1 - 2.8)^2 + (3 - 2.8)^2 + (2 - 2.8)^2 + ... + (4 - 2.8)^2 \right\} \\[14pt]
&\fallingdotseq 1.733
\end{align}
と求められます。
○プールした分散
対応のない\(t \)検定では,2つの標本の分散をまとめた (プールした) 値を使います。
プールした分散は以下の公式によって求められます。
\[u^2 = \frac{u_{1}^2\left(n_{1} -1\right) + u_{2}^2\left(n_{2} -1\right)}{n_{1} + n_{2} - 2}\]
したがって,今回のデータの場合は
\begin{align}
u^2 &= \frac{2.1 \times \left(10 -1\right) + 1.733\times \left(10 -1\right)}{10 + 10 - 2} \\
&\fallingdotseq 1.917
\end{align}
となります。
○\(t \) 値
プールした分散が求められたところで,いよいよ\(\it t \) 値を求めます。
対応のない2標本\( t \) 検定における \( t \) 値は以下の公式で求めます。
\[t = \frac{\overline{x_1} - \overline{x_2}}{\sqrt{u^2 \left(\frac{1}{n_{1}} + \frac{1}{n_{2}}\right)}}\]
今回のデータの場合は
\begin{align}
t &= \frac{5.9 - 2.8}{\sqrt{1.917 \left(\frac{1}{10} + \frac{1}{10}\right)}} \\[14pt]
&\fallingdotseq 5.007
\end{align}
となります。
⑤ データの自由度と有意水準をもとに棄却域 (データから求めた\(\it t\)値がこの中に含まれれば帰無仮説を棄却する) を定める
\(t\)分布表の自由度18の行を見ると,\(t_{0.05}(18) = 1.734 \) であることがわかります。よって,求めた\( t\) 値が\(1.734 <x < \infty \) の範囲に含まれていれば帰無仮説を棄却,含まれていなければ帰無仮説についての判断を保留することにします。
⑥ \(t\) 値と棄却域を比較し,帰無仮説を棄却するかどうか決める (手計算の場合のみ)
データから求めた\(t\) 値はおよそ5.007であり,棄却域内に含まれています。
よって,今回は帰無仮説を棄却し,「飲食店Aのプリンは飲食店Bのプリンより主観的美味しさが高い」と結論づけます。