Skip to Main Content

★手計算とRで学ぶ統計学: 「有意である」ってどういうこと?

「なぜ統計学が必要か」という問いをひもとき,実践を通じて読者の方と統計学の心理的距離を縮めるガイドです。

p ≧ .05の結果には価値がないのか?

卒業論文のシーズンになると,「やったー!\(p < .05\)だ!有意だ! (よろこびのまい」や「あ…有意差ない…卒論死んだ…」などの叫びが現実世界からもSNSからも聞こえてきます。
実際に,学術界でも有意でない結果は出版されにくい,という出版バイアスも存在しています。このように,\(p\)値の大小は卒業論文から学術雑誌の論文までを広く支配しているように思えます。

しかし,はたして\(p\)値はその研究結果に本当に意味があることを保証する値なのでしょうか?

"Publish or Perish (出版か死か)" と表現されるような研究者のおかれた厳しい状況や,\(p < .05\)の「統計的に有意な」結果を出した研究がより出版されやすいという出版バイアスなどの影響で,長年多くの研究者によってなんとか\(p < .05\)にするための色々な策が講じられてきました。しかし,これらはQRPs  (Questionable Research Practices 日: 問題ある研究実践) として研究の信頼性,再現性を損なうなどの悪影響が近年問題視されています。

2016年には,アメリカ統計学会 (ASA) が「\(p\)値以外のアプローチを用いた結果の解釈をすべき」という声明を発出しました。それでも統計学の授業や書籍では\(p\)値について取り扱っていますし,論文でも\(p\)値についての記述があるものがほとんどです。

この章では,\(p\)値をもっと理解するために,そして\(p\)値に惑わされないために「\(p\)値とは一体何なのか」を紹介します。

改めて確認!p値の定義

そもそも\(p\)値は,帰無仮説が真である,つまり帰無仮説の分布と得られたデータの母集団の分布が同一であるときに手元のデータから得られた検定統計量よりも極端な値をとる確率のことです。データから得られた検定統計量と正,または負の無限大の範囲内で積分したときの値として表されます。
言葉で表現するよりも,実際に図を見ながら紹介した方が早いので図を示しながら説明します。

○有意である場合
対応のない片側2標本\(t\) 検定を実施して\(t = 5.007, p < 0.001\) という結果が得られたとき,\(t = 5.007\) となる確率が\(0.001\times 100 = 0.1\%\)未満である,つまり,帰無仮説が真であるときに\(t = 5.007\)という値が得られるのは非常に考えにくいことを示しています。

また,\(p\) 値は \(5.007 < t < \infty \) の範囲で自由度18の\(t\)分布を積分した値です。この場合は面積が0.001未満であるため,図で示しきれません。

一方,対応のある両側2標本\(t\) 検定を実施して\(t= 0.937, p =0.187\) という結果が得られたとき,\(t= 0.937 \)となる確率が\(0.187 \times 100 = 18.7 \% \)である,つまり,帰無仮説が真であるときに\(t = 0.937\)という値が得られると考えるのが容易であることを示しています。

また,\(p\) 値は \(-\infty < t < -0.937 /, 0.937 < t < \infty  \) の範囲で自由度9の\(t\)分布を積分した値です。

p値にまつわるさまざまな誤解

以下に示す文章の中には誤ったものがいくつか含まれています。

・\(p\)値は「対立仮説が間違っている確率」や「帰無仮説が正しい確率」である

・\(0.05 \leq p < 0.1 \) のような場合には「有意傾向」と表記してもよい

・\(p > .05\)であれば帰無仮説が正しく,帰無仮説を採択すべきであることを意味する

・\(p > .05\) であれば効果のないことが証明されたことを意味する

・\(p < .05\) の場合は帰無仮説が誤りであり,棄却すべきであることを意味する

・\(p\)値が小さいほど,実験,観察,調査で確認された効果が大きいことを示す

・\(p < .05\)は結果に学術的価値があることを担保する

・\(p = .01\) ということは100回に1回しか起こらないことが起こったということなので帰無仮説を棄却しても100回に1回しか間違わない

自分の中で答えがまとまったら,ボックス上部の「解答編」というタブから正解を確認しましょう!

先ほどの問題ですが,答えは「すべて誤り」です。
それぞれの項目について,「なぜ誤りなのか」を以下で解説します。

・\(p\)値は「対立仮説が間違っている確率」や「帰無仮説が正しい確率」である
(なぜ誤り?)
そもそも,これまで紹介してきた統計的仮説検定の枠組み (ネイマン=ピアソン流) においては帰無仮説に確率を割り当てることはできません。したがって,「5%の確率で帰無仮説が正しい」は不適切な表現なのです。
仮説に対して確率を割り当てることのできる確率論 (ベイズ統計学) もありますが,その場合でも\(p\)値は「帰無仮説が真である確率」にはなりません。

・\(0.05 \leq p \leq 0.1 \) のような場合には「有意傾向 (marginally significant)」と表記してもよい
(なぜ誤り?)
これまで紹介してきた検定では,いずれも「とりあえず第一種の誤りをこれくらい \(\left(\alpha = 0.05, 0.1 \right) \) は許容する。\(p\)値がこの値以上であれば有意でない,この値未満であれば有意であるとみなす」と検定を行う前に決めていましたね。そのため,有意 / 有意でないという二値の区別しか存在しないことになります。
したがって,「有意傾向」という解釈は事前に決めたゴールポスト \( \left( \alpha = .05\right ) \) を事後的にずらす行為に該当します。サッカーであれば一発で反則を取られますね。そもそも統計的仮説検定の原理的にグレーゾーン (有意傾向ゾーン) は存在し得ません。しかし,残念なことに数多くの学術論文でいまだに「有意傾向」という表現はしぶとく生き残っています。

・\(p > .05\)であれば帰無仮説が正しく,帰無仮説を採択すべきであることを意味する
・\(p < .05\) の場合は帰無仮説が誤りであり,棄却すべきであることを意味する
(なぜ誤り?)
統計的仮設検定の枠組みでは,帰無仮説に対して棄却/保留という二種類の判断のみを行います。そのため,「帰無仮説を採択する」という判断を下すことがそもそもできません
また,有意水準5%のもとで行う検定は第一種の過誤を犯す確率を5%は許容している状態です。そのため,\(p < .05\)となっても帰無仮説の正誤を判断してしまうのはとても危険です。

・\(p\)値が小さいほど,実験,観察,調査で確認された効果が大きいことを示す
・\(p > .05\) であれば効果のないことが証明されたことを意味する
(なぜ誤り?)
繰り返しにはなりますが,\(p\)値はあくまでも「帰無仮説が真である場合に計算された検定統計量より極端な値を取る確率」です。また,実際の効果の大小にかかわらず,\(p\)値はサンプルサイズが大きいほど小さくなる性質があります。そのため,効果の有無や大きさを議論するために用いてよい値ではありません
効果の大きさについて議論したいなら効果量を計算し,その値によって議論すべきでしょう。

・\(p < .05\)は結果に学術的価値があることを担保する
(なぜ誤り?)
そもそも統計的仮説検定では「とりあえず!とりあえず第一種の過誤を5% (1%や10%のこともある) は許容する!!」という前提のもとに検定を行っています。そのため,実際には効果がないがうっかり\(p < .05\) という結果になる可能性は十分あります。また,様々な策を講じれば有意でない結果を「有意である」と見せかけることもできます。これまでの研究者が\(p < .05\)という結果を得るために講じてきた様々な策は後ほど紹介します。
加えて,仮に\(p < .05\)という結果が得られたとして,実際の効果の大きさは効果量を検討するまではわかりません。効果量の大小が直接学術的価値の大小につながるとは限りませんが,統計的仮説検定では有意であるが効果としては極々小さく,追試で再現されなかった結果も数多くあります。

・\(p = .01\) ということは100回に1回しか起こらないことが起こったということなので帰無仮説を棄却しても100回に1回しか間違わない
(なぜ誤り?)
「100回に1回」は「帰無仮説が真である場合に手元の統計検定量が得られた」という現象に対する説明であり,実験・調査の結果生じた現象とは関係がありません。

涙ぐましい努力 (絶対に真似しないでください)

過去の研究史で,なんとか\(p < .05\) にすべく研究者たちが講じてきたQRPsの一部を紹介します。この中には,かつて書籍でも推奨されていた研究実践もあります。

・検定の結果を見ながらデータ収集の継続/終了を決める
「自分たちの仮説を支持する結果が出るまでサンプルサイズを大きくした」とアブストラクトに記載された論文も過去には存在したそうです。また,データを取るたびに検定をかけ,ちょうど有意になったところでデータ収集をやめるという手法もあります。

・仮説を定めずに様々な検定を行い,有意になったものだけ報告
「下手な鉄砲数打ちゃ当たる」方式で進めると,統計的仮説検定を採用している検定手法の前提が崩れてしまいます。
近年は様々な方法で分析を行い,有意かどうかにかかわらず全ての結果を報告するマルチバース分析も行われています。

・データを図示して,「ノイズになりそうな」値を基準なく勝手に除外
確実にノイズになる値 (機器の不調,実験者のミス,明らかに設問を読んでいないことがわかる適当な回答…) を基準を設けた上で除外することには問題がありません。しかし,データをプロットした散布図などを見た上で「この値はノイズになりそうだ」と除外すると,有意な値が得られやすくなります。

・仮説を支持する検定結果のみを論文に掲載する (cherry picking)
手元のデータに対してさまざまな処理 (外れ値になりそうな値を除外するなど) や検定を行い,その中でも有意だったものだけを論文に掲載すると,見た目としては「仮説を支持する美しい検定結果」が得られます。
しかし,チェリーピッキングされた論文をもとに行われる後続研究への影響は非常に大きいです。

・仮説の後付け (HARKing)
HARKingは結果を知った後に仮説を作りなおし,データを取る前からその結果を予測していたかのように見せかける行為です。実験前の仮説のもとに統計的仮説検定を行なってはいますが,後出しした仮説については検証が行われません。そのため,後出しされた仮説について実験を行うと再現されないことが多々あります。
2007年に出版された統計学の本をたまたま手に取ったことがあるのですが,HARKingが当たり前のように推奨されていて思わず目を疑いました。

これらの研究実践は,捏造,改ざん,盗用のように研究不正として認定されておらず,論文中で報告しない限りはとても「美しい」データとして論文を執筆することができます。しかし,QRPsは科学の根幹をなす研究の現可能性を損ないます。「巨人の肩の上に立つ」という言葉で表現されるはずの科学の営みが,実際にはガタガタなジェンガの上に立っているような状況に陥ってしまうのです。
「心理学の権威ある学術雑誌に掲載された実験のデータを主観的に再現できた割合は33%」という衝撃的な結果を紹介した論文がScience誌に掲載されたことや「いやいや,心理学以外の分野でも70%の研究者が他者の実験の再現に失敗したらしいぞ」という調査結果が発表されたことをご存知の方もいるかもしれません。

p値に惑わされないために

\(p\)値に惑わされないために心がけておくべきことをいくつか紹介します。

・\(p\)値の定義をきちんと理解し,誤用しないよう慎重に分析や結果の解釈を行う
\(p\)値の理解を確実にするだけで,\(p\)値の誤った解釈や\(p\)値の神格化はだいたい防げます。

・\(p\)値だけでなく効果量,信頼区間も必ず検討する
仮に\(p\)値が事前に定めた有意水準を下回ったとしても,「その結果は本当に意味のあるものか」「平均値にはどの程度幅があるのか」についてもあわせて検討しましょう。
最近では効果量や信頼区間の記載を必須とする学術雑誌も増えています。

・先行研究での記述をあてにしすぎない
先行研究で「有意傾向であった」などの記述があったら,「こう書いていいんだ」と考えてしまいがちです。確かにある程度は参考になりますが,「統計学的に適切か?」とテキストに立ち返ることも必要です。

統計的仮説検定でこれらの問題が生じていることに着目し,「いっそのこと\(p\)値を捨てればいいじゃない」とベイズ統計学を取り入れる研究者も国内外に多数います。
しかし,ベイズ統計学は実際のデータ解析で使えるようになるまでの知識を得るためにある程度の根気が必要です。そのため,ネイマン=ピアソン流での適切なデータ分析方法とあわせて少しずつ学ぶのがよいでしょう。