0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
ここでは,対応のない2群の標本において母集団の代表値に差があるかどうかを検討するマン・ホイットニーのU検定について,実際のデータを使って流れを確認しましょう。
対応のない\(t\)検定をノンパラメトリックなデータに適応したいときに使われる検定手法です。同様の検定にウィルコクソンの順位和検定がありますが,本質的にはマン・ホイットニーのU検定と同じことをしています。
(データ概要)
男性6名,女性4名の身長を測定したところ,以下のデータが得られました。
このとき,身長の中央値に男女差があるかを検討しましょう。
\begin{array}{ccc}
\hline
ID & 男性 & 女性 \\
\hline
1 & 165.3 & 196.5 \\
\hline
2 & 172.7 & 153.2 \\
\hline
3 & 178.3 & 160.9 \\
\hline
4 & 164.3 & 170.8 \\
\hline
5 & 158.1 & \qquad \\
\hline
6 & 175.0 & \qquad \\
\hline
\end{array}
① 仮説を立てる
今回は
帰無仮説\(H_{0}\): 男女間で母集団の身長の代表値に差があるとはいえない( \(\fallingdotseq\) 差がない)
対立仮説\(H_{1}\): 男女間で母集団の身長の代表値に差がないとはいえない( \(\fallingdotseq\) 差がある)
という仮説を立てます。
② 検定統計量を選択する
今回の事例では\(U\) という検定統計量を使用します。
③ 有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha\) = 0.05と定めることが一般的です。研究の目的や分野によっては異なる有意水準 (\(\alpha\) = 0.1,\(\alpha\) = 0.01など) を定めることもあります。
④ 適切な検定統計量を求める
マン・ホイットニー検定においては,まずデータ全体を大きい順に並べ替え,順位をつけるところから計算を始めます。
今回のデータを大きい順に並べ替えると以下の表のようになります。
\begin{array}{ccc}
順位 & 身長 & 性別 \\
\hline
1 &196.5 & 女性 \\
\hline
2 & 178.3 & 男性 \\
\hline
3 & 175.0 & 男性 \\
\hline
4 & 172.7 & 男性 \\
\hline
5 & 170.8 & 女性\\
\hline
6 & 165.3 & 男性 \\
\hline
7 & 164.2 & 男性 \\
\hline
8 & 160.9 & 女性 \\
\hline
9 & 158.1 & 男性 \\
\hline
10 & 153.2 & 女性 \\
\end{array}
次に,カテゴリごとにデータを整理し,それぞれ順位の和を求めます。
男性の順位和は\(R_{1} = 2 + 3 + 4 + 6 + 7 + 9 = 31\), 女性の順位和は\(R_{2} = 1 + 5 + 8 + 10 = 24\) となります。
そして,以下の式によってそれぞれの群の検定統計量\(U\)を求め,小さい方を検定統計量として採用します。
\begin{array}
uU_1 &= n_{1}n_{2} + \frac{n_{1} (n_{1} + 1)}{2} - R_{1} \\
&= 6\times4 + \frac{6 (6 + 1) }{2} - 31 \\
&= 24 + 21 - 31 \\
&= 14
\end{array}
\begin{array}
uU_2 &= n_{1}n_{2} + \frac{n_{2} (n_{2} + 1)}{2} - R_{2} \\
&= 6\times4 + \frac{4 (4 + 1) }{2} - 24 \\
&= 24 + 10 - 24 \\
&= 10
\end{array}
このデータでは,\(U_{2} = 10\) を検定統計量\(U\)として採用します。
⑤ 各群のサンプルサイズ,有意水準によって限界値を求める
有意水準\(\alpha = 0.05\) のときのU検定表から\(n_1 = 6,\; n_2 = 4\) の値を探し,その値を限界値\(U_0\)とします。
このデータでは\(U_0 = 2\)が限界値となります。
⑥ 限界値と検定統計量を比較し,帰無仮説に関する判断を行う
これまでの計算より\(U_0 < U\) となるため帰無仮説に対する判断を保留し,男女間で母集団の身長の代表値に統計的に有意な差があるとはいえない,と結論づけます。