Skip to Main Content

★手計算とRで学ぶ統計学: マン・ホイットニーのU検定

「なぜ統計学が必要か」という問いをひもとき,実践を通じて読者の方と統計学の心理的距離を縮めるガイドです。

基本・マン・ホイットニーのU検定

ここでは,対応のない2群の標本において母集団の代表値に差があるかどうかを検討するマン・ホイットニーのU検定について,実際のデータを使って流れを確認しましょう。
対応のない\(t\)検定をノンパラメトリックなデータに適応したいときに使われる検定手法です。同様の検定にウィルコクソンの順位和検定がありますが,本質的にはマン・ホイットニーのU検定と同じことをしています。

(データ概要)
男性6名,女性4名の身長を測定したところ,以下のデータが得られました。
このとき,身長の中央値に男女差があるかを検討しましょう。
\begin{array}{ccc}
\hline
 ID & 男性 & 女性  \\ 
\hline
1 & 165.3 & 196.5 \\ 
\hline
2 & 172.7 & 153.2 \\
\hline
3 & 178.3 & 160.9 \\
\hline
 4 & 164.3 & 170.8 \\
\hline
5 & 158.1 & \qquad \\
\hline
6 & 175.0 & \qquad \\
\hline
\end{array}

① 仮説を立てる
今回は
帰無仮説\(H_{0}\): 男女間で母集団の身長の代表値に差があるとはいえない( \(\fallingdotseq\) 差がない)
対立仮説\(H_{1}\): 男女間で母集団の身長の代表値に差がないとはいえない( \(\fallingdotseq\) 差がある)
という仮説を立てます。

② 検定統計量を選択する
今回の事例では\(U\) という検定統計量を使用します。

③ 有意水準\(\alpha\) (第一種の過誤が生じることをどこまで許容するか) を定める
\(\alpha\) = 0.05と定めることが一般的です。研究の目的や分野によっては異なる有意水準 (\(\alpha\) = 0.1,\(\alpha\) = 0.01など) を定めることもあります。

④ 適切な検定統計量を求める
マン・ホイットニー検定においては,まずデータ全体を大きい順に並べ替え,順位をつけるところから計算を始めます。
今回のデータを大きい順に並べ替えると以下の表のようになります。
\begin{array}{ccc}
順位 & 身長 & 性別  \\ 
\hline
1 &196.5 & 女性 \\ 
\hline
2 & 178.3 & 男性 \\
\hline
3 & 175.0 & 男性 \\
\hline
4 & 172.7 & 男性 \\
\hline
5 & 170.8 & 女性\\
\hline
6 & 165.3 & 男性 \\
\hline
7 & 164.2 & 男性 \\
\hline
8 & 160.9 & 女性 \\
\hline
9 & 158.1 & 男性 \\
\hline
10 & 153.2 & 女性 \\
\end{array}

次に,カテゴリごとにデータを整理し,それぞれ順位の和を求めます。
男性の順位和は\(R_{1} = 2 + 3 + 4 + 6 + 7 + 9 = 31\), 女性の順位和は\(R_{2} = 1 + 5 + 8 + 10 = 24\) となります。

そして,以下の式によってそれぞれの群の検定統計量\(U\)を求め,小さい方を検定統計量として採用します。
\begin{array}
uU_1 &= n_{1}n_{2} + \frac{n_{1} (n_{1} + 1)}{2} - R_{1} \\
&= 6\times4 + \frac{6 (6 + 1) }{2} - 31 \\
&= 24 + 21 - 31 \\
&= 14
\end{array}
\begin{array}
uU_2 &= n_{1}n_{2} + \frac{n_{2} (n_{2} + 1)}{2} - R_{2} \\
&= 6\times4 + \frac{4 (4 + 1) }{2} - 24 \\
&= 24 + 10 - 24 \\
&= 10
\end{array}
このデータでは,\(U_{2} = 10\) を検定統計量\(U\)として採用します。

⑤ 各群のサンプルサイズ,有意水準によって限界値を求める
有意水準\(\alpha = 0.05\) のときのU検定表から\(n_1 = 6,\; n_2 = 4\) の値を探し,その値を限界値\(U_0\)とします。
このデータでは\(U_0 = 2\)が限界値となります。

⑥ 限界値と検定統計量を比較し,帰無仮説に関する判断を行う
これまでの計算より\(U_0 < U\) となるため帰無仮説に対する判断を保留し,男女間で母集団の身長の代表値に統計的に有意な差があるとはいえない,と結論づけます。