0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
データをより簡潔に,客観的に説明するための手段としての統計学について,ある大学生Aさんを例に紹介します。
※以下の場面設定はすべてフィクションです。
とある大学生のAさんは,卒業研究で気温とバッタの体表面温度にどのような関係があるかを調べるために,夏の間ずっと野原で虫取り網を片手にバッタを追いかけ回していました。
十分な数のデータがとれ,「外気温とバッタの体表面温度には関係がありそうだ!」と実験を重ねるにつれて確信を持ちました。そこで,大学院生の先輩Bさんに生データ (※1) (下図) を見せてみたところ,「このデータから何が言いたいのかさっぱりわからない…。せめて何かしらの図にして見せてくれたら考えようがあるんだけど」と手厳しいコメントをもらいました。
Aさんはデータからなんとかして下の散布図を作り,Bさんのところに持っていきました。この状態で示すと,気温とバッタの体表面温度の間に何かしらの関係がありそうだ,というAさんの主張がBさんにもきちんと伝わりました。
「ありがとうございます!じゃあこの状態で先生に見せてきます!」というAさんをBさんは必死で止めます。
「なんでですか!図を見たら気温と体表面温度の間に正の相関があるって伝わるじゃないですか!」と不満そうなAさん。しかし,Bさんは静かに諭します。「確かに図示をすることで気温とバッタの体表面温度の間には正の相関がありそうだと分かった。しかし「どの程度強い関係なのか」を数値化し,客観的に示すことが重要なんだ。この場合は相関係数の計算と,無相関検定をやるといいよ」と分析について丁寧なアドバイスももらえました。
それもそうか,と納得してAさんはBさん指導のもとで相関係数の算出と無相関検定を行いました。その結果,\(r (相関係数) = .77 , p = .001\) という結果が得られました。Aさんは「気温とバッタの体表面温度の間には有意な正の相関がみられた」と相関係数をもとに報告することで,この後の実験や分析の方向性について指導教員と有意義な議論を交わすことができました。
Aさんはデータ収集→図示→統計的検定というプロセスによってデータから得られた主張を伝える,という方法をBさんとの対話によって学びました。このように,統計を用いると膨大なデータの中から自分が注目したい特徴だけを抽出し,数字という客観的な指標に変換することで自分の主張に説得力を持たせることができます。
(※1) 生データ: 集計や編集などを施していない,最初に記録された状態のままのデータ。実験ノートなどに記録されたものをコンピュータに入力し,表形式のデータ (csv形式やxlsx形式が主流) にしたものも生データと呼ばれます。
数字に騙されないための手段として統計学を使う方法を,とある事例をベースに紹介します。
※類似した有名な事例もありましたが,あくまでもフィクションです。
T大学のC教授が,とあるテレビ番組で「バナナを1日3本食べる群と食べない群で体重の減少量を比較した結果,バナナを1日3本食べた群では体重が大きく減少することがわかりました。このようにバナナにはダイエット効果があります」とグラフを示しながら説明しました。
このグラフを純粋 (ナイーブ) な目で見ると,確かにバナナにはダイエット効果があるように思えます。しかし,「まあすごい!バナナを買いにスーパーへ走らなくちゃ!」と財布を握りしめ近所のスーパーのバナナを買い占めるのはちょっと待ちましょう。
このグラフ,実は統計学を少しでも理解した人が見ると…
「そもそもグラフの縦軸の単位が何か,目盛りの刻みがどの程度になっているかわからない」←本当は取るに足らないほどの小さな差を,目盛りの刻みをなくすことで大きく見せているかもしれません。
「各群の参加者数は何人なのか?」←適切なサンプルサイズ (ここでは参加者数) を確保した上で研究を実施しないと,想定外の結果や実態とは異なる結果が得られる可能性があります。
「バナナ以外の条件 (運動,サプリメント,開始時の体型,基礎代謝…) は揃えたのか」←バナナ以外にも減量に効果があること (サプリメント,運動…) を習慣にしている人がバナナを食べた群にいたら,体重減少はバナナの効果だけなのかはっきりしません。
「実際に検定 (\(t\)検定) にかけてみたらどうなるのか?」←図の見せ方で「大きな効果がある」ように見えていても,実際には統計学的に意味のある差ではないのかもしれません。
「\(t\)検定で有意差が出たとしてもその差はどの程度のものなのか?」←\(p\)値によって統計的に有意だと示されても,効果量 (差の程度) が極端に小さいのであれば,バナナダイエットをする意味はないのかもしれません。
「そもそもこのデータを得る段階で研究不正やp-hacking (※1) などの不適切な行為は行われていなかったのか?」←元々の論文 (可能であれば公開されているデータセット) にあたる必要はありますが,とても重要な観点です。
というように,そのまま信じ込むには少し危険なデータだと脳が危険信号を出しまくります。
バナナの例は極端だとしても,実際学術誌で発表された論文にも残念ながら効果量の記載等が不十分な研究も散見されるので,数字に騙されないために統計学を学ぶことはとても重要です。
(※1) p-hacking: 取得後のデータを取捨選択して,\(p\)値が有意水準を下回るような結果を導こうとする行為。現在は不適切な行為としての認識が強いですが,かつてはHARKing (データを見てから仮説を決める) のように統計学の入門書で推奨されていたp-hackingもあります。