0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
これから紹介する検定手法は,全て統計的仮説検定の枠組みで行われます。具体的な手法を見ていく前に,一旦基本に立ち返って統計的仮説検定がどのような流れで行われるかをもう一度確認しましょう。
①帰無仮説と対立仮説を立てる
統計的仮説検定では,まず示したい仮説の命題である対立仮説,示したい仮説の否定命題である帰無仮説を立てます (例外的に,動学的パネル分析におけるAR検定など,帰無仮説について示したい検定も存在します)。
そして,帰無仮説として立てた命題が真であると仮定したときにその命題が誤っていることを証明する背理法の手続きを用いて対立仮説が真であるかどうかを検討します。
\(\sqrt 2\) が無理数であることを証明するとき,一旦「\(\sqrt 2\) を有理数とする」と仮定する問題を解いたことがある方もいらっしゃるかもしれません。そうです,あの背理法です。
「対立仮説をそのまま証明するんじゃダメなの?」と考えた方もいるかもしれません。なぜわざわざ回りくどい背理法の手続きを用いる必要があるのか,サイコロ投げの例をもとに説明します。
あるサイコロを6回投げたとき,6回連続で1が出ました。「6回連続で1が出るなんてあり得ない!このサイコロはインチキだ!」という主張を検定したい,と仮定します。この場合,対立仮説は「1の目が出る確率は1/6より大きい (= サイコロには1の目が出やすくなる細工がなされている)」,帰無仮説は「1の目が出る確率は1/6に等しい (= サイコロには何の細工もされていない)」となります。
対立仮説を直接検証する場合だと,どこから1/6 (≒ 16.7%) より大きいと判断するかは主観に左右されます。つまり17%でも「1/6より大きい」と判断するか,50%を超えてはじめて「1/6より大きい」と判断するかは個人の判断に委ねられます。
一方,「1/6に等しい」という仮説を検証する場合は,1/6という確実な基準をもとに1の出る確率の大きさを比較することができます。そのため,推測統計学では背理法の手続きを用いて帰無仮説を棄却するかどうかを判断する,という手続きをとることが一般的です。
②有意水準\(\alpha\)を定める
有意水準はうっかり帰無仮説を棄却してしまう第一種の過誤をどこまで許容するかの基準となる値です。
\(\alpha = .05\) (うっかり帰無仮説を棄却する確率を5%までは許容する) とするのが一般的ですが,分野によっては\(\alpha = .01\) (第一種の過誤を1%までは許容する) や\(\alpha = .1\) (第一種の過誤を10%までは許容する) など,第一種の過誤に対する厳格さにはかなりの差があります。
また,うっかり帰無仮説を棄却しない第二種の過誤をどこまで許容するかについても考慮する必要があります。以下の図では,第一種の過誤と第二種の過誤が真実 (分析者が知り得ない) と分析者の判断によってどのように位置づけられるかを示しています。
③適切な検定統計量を定める
適切な検定統計量は使用する検定法によって決められているので,統計学のテキストを参照して決めましょう。
④データをもとに検定統計量を求める
数理統計学の講義では手計算で検定統計量を求めることもありますが,実際の分析ではコンピュータがやってくれます。
⑤棄却ルールとなる検定統計量を求める
「この値を超えたら帰無仮説を棄却する」という基準となる検定統計量を求めます。手計算の場合は正規分布表を用いて求めます。
「\(p\)値 (帰無仮説が真である場合にデータから導き出された検定統計量をとる確率) が0.05より小さかったら帰無仮説を棄却する」という理解も間違いではないのですが,手計算で\(p\)値を求めるのは非常に煩雑なので検定統計量を比較する方法をとります。コンピュータでデータ分析を行う際は,実際の\(p\)値を積分によって計算しています。
⑥これまでに求めた統計検定量をもとに帰無仮説を棄却するかどうか判断する
帰無仮説が棄却されたら対立仮説を採択し,帰無仮説が棄却されなければ対立仮説に対する判断を保留します。
標本 (データ) に有意な差がないことから母集団にも差がない,と演繹しているような記述を見かけることもありますが,これは誤りです。
それでは,統計的仮説検定の流れを掴むためにサイコロの目を例に考えてみましょう。
読むだけでもよいのですが,紙とペンと関数電卓を用意して実際に計算してみるとより理解が深まります。
(問題設定)
サイコロを10000回転がしたところ,1の目が3000回出ました。あなたはこのサイコロは1が出やすくなるように細工されているのかを知りたいと考えています。
① 仮説,有意水準の設定
帰無仮説\(H_0\)を「このサイコロで1の目が出る確率は1/6である (= サイコロには歪みがない)」,対立仮説\(H_1\)を「このサイコロで1の目が出る確率は1/6に等しいとはいえない (= サイコロに歪みがある)」とします。また,有意水準を\(\alpha = .05\) と設定します。
② 適切な統計量の設定
サイコロを振って1が出るか出ないかは,結果が二値 (1が出る / 1が出ない) で表現されます。このような試行はベルヌーイ試行と呼ばれ,二項分布に従うことがわかっています。したがって,検定統計量として以下の式に表された\(z\)を設定します。
\begin{align}
z &= \frac{X - np}{\sqrt{np(1 - p)}} \\[14pt]
&X: 1が出た回数 \\[7pt]
&p: 成功確率 (=1が出る確率) \\[7pt]
&n: 試行回数
\end{align}
③ 統計量の計算
上の式に実際のデータを代入すると,以下の式のようになります。
\begin{align}
z &= \frac{3000 - 10000\cdot \frac{1}{6}}{\sqrt{10000\cdot \frac{1}{6} \left(1 - \frac{1}{6}\right)}} \\[14pt]
&\fallingdotseq 35.78
\end{align}
④ 棄却ルールを求める
検定統計量\(z\)は標準正規分布に従うことがわかっているので,標準正規分布表を使用して棄却ルールを決定します。また,サイコロの1の目の出方に歪みがないかどうかを確認したいので,両側検定を行います。統計数値表から\(z_{0.025}\)の値を読み取ると1.96となっています。この値よりもデータの検定統計量の絶対値が大きければ帰無仮説を棄却する,小さければ帰無仮説の棄却を保留する,という判断を下します。
⑤ 帰無仮説の棄却を判断
データの検定統計量は \(z = 35.78\),棄却域は\(z_{0.025} = 1.96\)より,データの検定統計量は棄却域に入っていることがわかります。そのため,帰無仮説を棄却して対立仮説を採択する,という判断ができます。
よって,このサイコロは歪んでいる,という結論を導くことができます。
また,\(p\)値を直接有意水準と比較して帰無仮説を棄却するか保留するかを判断することもあります。コンピュータを使用して統計的仮説検定を行う場合はこちらの方が一般的です。