0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
ここでは,手元にあるデータがある特定の分布に適合 (一致) するかどうかを検定する適合度の検定について,実際のデータを使って流れを確認しましょう。
(データ概要)
あるエンドウマメで交配実験を行ったところ,収穫できたエンドウマメ1600個のうち「黄色・丸」「黄色・しわ」「緑色・丸」「緑色・しわ」それぞれの形質を持ったマメの数が925個, 293個, 280個,102個でした。
\begin{array}{ccccc}
\hline
\qquad & 黄色・丸 & 黄色・しわ & 緑色・丸 & 緑色・しわ \\
\hline
個数 & 925 & 293 & 280 & 102 \\
\hline
\end{array}
①仮説を立てる
メンデルの法則によると「黄色・丸」「黄色・しわ」「緑色・丸」「緑色・しわ」の4種類の形質のエンドウマメが9 : 3 : 3 : 1の割合で現れるとされています。
そのため,今回は
帰無仮説\(H_{0}\): 4種類の形質の出現比率は9 : 3 : 3 : 1と等しい
対立仮説\(H_{1}\): 4種類の形質の出現比率は9 : 3 : 3 : 1と等しくない
という仮説を立てます。
②検定統計量を選択する
今回の事例ではカイ二乗統計量 (カイ二乗値) \(\chi^2\) を使用します。また,帰無仮説の棄却 / 保留の判断には自由度\(k-1 = 4 - 1 = 3\qquad (ただしkはカテゴリ数)\) のカイ二乗分布を使用します。
③有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha\) = 0.05と定めることが一般的です。研究の目的や分野によっては異なる有意水準 (\(\alpha\) = 0.1,\(\alpha\) = 0.01など) を定めることもあります。
④適切な検定統計量を求める
カイ二乗値を求めるため,まずは事前に考えている分布通りにエンドウマメが収穫できた場合の値 (理論値) を考えます。
理論値はサンプルサイズと出現比率の積によって求められます。したがって,理論値は以下の表の通りです。
\begin{array}{c|c|c|c|c}
\qquad & 黄色・丸 & 黄色・しわ & 緑色・丸 & 緑色・しわ \\
\hline
実測値 & 925 & 293 & 280 & 102 \\
\hline
出現比率 & 0.5625 (\frac{9}{16}) & 0.1875 (\frac{3}{16}) & 0.1875(\frac{3}{16}) &0.0625 (\frac{1}{16}) \\
\hline
理論値 & 900 (\frac{9}{16}\times1600) & 300 (\frac{3}{16}\times1600) &300 (\frac{3}{16}\times1600) & 100(\frac{1}{16}\times1600)
\end{array}
カイ二乗値を求めるには,理論値と実測値の差の二乗を理論値で割ったものを全て足し合わせます。理論値をとった場合と比較してどの程度データにずれがあるかを求め,カテゴリごとに足し合わせるイメージです。
数学的には適切でないたとえかもしれませんが,カテゴリ内でそれぞれ分散を求め,それらを足し合わせることで理論値からのズレを求めている,とするとなんとなくイメージが掴めるのではないでしょうか。
\begin{array}
c\chi^2 = \sum_{i=1}^n \frac{1}{i番目のカテゴリの理論値}(i番目のカテゴリの実測値-i番目のカテゴリの理論値)^2 \\
=\sum_{i=1}^4 \frac{1}{np_{i}}(X_{i}-np_{i})^2 \\
= \frac{1}{0.5625\times1600}(925 - 900)^2 + \frac{1}{0.1875 \times1600}(293 - 300)^2 +\frac{1}{ 0.1875 \times1600}(280 - 300)^2 +\frac{1}{ 0.0625 \times1600}(102 - 100)^2 \\
= \frac{1}{900}(925 - 900)^2 +\frac{1} {300}(293 - 300)^2 + \frac{1}{300}(280 - 300)^2 + \frac{1}{100}(102 - 100)^2 \\
\fallingdotseq 2.231 \\
X_{i}: i番目のカテゴリに属する個数 \\
np_{i}: i番目のカテゴリに属するデータの理論値 \\
n: 全体のサンプルサイズ \\
p_{i}: それぞれのカテゴリで仮定されている出現比率
\end{array}
⑤データの自由度と有意水準をもとに棄却域 (データから求めたカイ二乗値がこの中に含まれれば帰無仮説を棄却する) を定める
カイ二乗分布表の自由度3の行を見ると,\(\chi^2_{0.05}(3) = 7.82 \) であることがわかります。よって,求めたカイ二乗値が\(7.82 <x < \infty \) の範囲に含まれていれば帰無仮説を棄却,含まれていなければ帰無仮説についての判断を保留することにします。
⑥カイ二乗値と棄却域を比較し,帰無仮説を棄却するかどうか決める (手計算の場合のみ)
データから求めたカイ二乗値はおよそ2.231であり,棄却域の外にあります。
よって,今回は帰無仮説に関する判断を保留し,「4種類の形質の出現比率は9 : 3 : 3 : 1と等しくない (=今回の実験データはメンデルの法則に当てはまらない) とはいえない」と結論づけます。