Skip to Main Content

★手計算とRで学ぶ統計学: 頻出用語の定義確認

「なぜ統計学が必要か」という問いをひもとき,実践を通じて読者の方と統計学の心理的距離を縮めるガイドです。

このページについて

統計学のテキストをめくると「正規分布」や「\(t\) 分布」などの確率分布や自由度についての説明が登場します。データ分析についての例題を解くとき,\(t\)分布表から臨界値 (この値よりデータから求めた\(t\)値が大きいとき帰無仮説を棄却する) を探したことがある人もいるかと思います。しかし,確率分布や自由度が何かを説明せよと言われたら答えに詰まる方もいるのではないでしょうか。
ここでは,確率分布や自由度などの用語が何を表しているかを改めて確認します。

確率分布

確率分布は,母集団においてどのようにデータが発生するかのメカニズム (構造) を数式で表現したものです。
最も使用頻度が高い確率分布である正規分布に従う確率変数Xの確率密度関数\(f(x)\)は以下の式で表されます。
\begin{align}
f(x) &= \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \\
&= \frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) \\
\\
x&: 確率変数 \\
f(x)&: 確率密度 (確率変数の現れやすさ) \\
\mu&: 母集団の平均値 (母平均) \\
\sigma^2&: 母集団の分散 (母分散)
\end{align}
見ているだけで数式アレルギーを発症した読者の方もいらっしゃるかもしれません。しかし,確率分布を数式で表すことには様々な種類のデータを分析する上で大きなメリットがあります。それは,分析にとって本質的でない要素を排除し,分析に一般性を持たせられることです。つまり,研究対象が何かにかかわらずデータ発生のメカニズムが同一であれば母集団の性質を同じ式で表現し,性質の異なる様々な母集団 (手元にあるデータの発生メカニズム) を同じ式を用いて説明することができるのです。
実践編ではボテトスナックの長さやテストの得点などさまざまな種類のデータに対して正規分布を仮定して分析を行いますが,これができるのも数式で母集団を表現したからこそなのです。

手元にあるデータの母集団が特定の分布 (多くは正規分布) に従っていることを前提とした統計的仮説検定の手法はパラメトリック検定,特定の分布に従っていることを前提としなくても使える統計的仮説検定の手法はノンパラメトリック検定と呼ばれます。

データと確率変数の関係

統計学において,データは確率変数の実現値と定義されます。それでは,この「確率変数」が何なのか,確率変数と確率分布の関係を見ていきましょう。

○「確率変数の実現値」ってそもそも何?
確率変数は,取りうる値がわかっていてそれらに確率が与えられている変数のことです。試行を行うことで,確率変数は1つの値に定まります。この時の値を確率変数の実現値と呼びます。
より具体的に説明するため,サイコロを使ってみましょう。サイコロの目を確率変数Xとすると,Xは1, 2, 3, 4, 5, 6の6つの値をとる可能性がありますが,サイコロを振る試行を行うまではXの値をひとつの値に絞ることができません。サイコロを振ることで確率変数Xが1つの値に実現します。

○離散型確率変数,確率分布
離散型確率変数は,サイコロの目やコインの裏表のようにデータがとりうる値が離散的な (飛び飛びの) 確率変数です。
離散型確率変数の特徴は,とりうる値1つ1つに確率を割り振ることができることです。 全ての目が出る確率が同様に確からしいサイコロの場合,1〜6の目が出る確率にそれぞれ\(\frac{1}{6}\)という値を割り振ることができます。
離散的なデータの発生の仕方が離散型確率分布,離散型確率分布を記述する数式が確率質量関数です。
離散型確率分布の代表例は,二項分布 (コインの裏表など,取りうる値が二値の試行のデータ発生メカニズムについて記述) やポアソン分布 (二項分布の極限を取った分布。発生することが稀な現象のデータ発生メカニズムについて記述) です。

○連続型確率変数,確率分布
連続型確率変数は,身長やルーレットが止まる場所のようにデータが取りうる値が連続的な確率変数です。
離散型確率変数と異なり,連続型確率変数ではとりうる値1つ1つに確率を割り振ることができません。そのため,\(P (a \leq X \leq b)\) (確率変数が\(a \leq X \leq b\) の範囲の値を取る確率) というように任意の区間に対して確率を割り当てます
連続型確率変数Xにおけるデータの発生確率は,確率密度関数\(f(x)\) を任意の区間\(a \leq x \leq b\)で積分した値 (面積) によって表現されます。
このとき,確率密度関数 \(f(x)\) はある試行を無限回行った時の仮想的なヒストグラムとして表現されます。
連続型確率変数の特徴は,確率変数の性質が確率密度関数によって定まることです。たとえば標準正規分布 \(N(0, 1)\) に従う確率変数の場合,平均値である0に近い値のデータが現れやすく,0から大きく離れた値のデータが現れることは稀である,という性質を持ちます。
連続型確率分布の代表例は正規分布や\(t\) 分布です。

自由度

様々な統計的仮説検定において,しばしば登場する「自由度」という単語は何を意味しているのでしょうか?
自由度は,あるデータや数値の中から自由に設定できるものの個数として定義されます。
たとえばサンプルサイズが10で平均が3.5であることがわかっている標本があるとします。このとき,10個の値の合計は35である,という制約がかけられます。
一番最初から無制限にデータの値を設定しても,平均が3.5であるという制限がある以上最後のデータは必ず特定の値になります。そのため,最後の1つのデータに値を選ぶ自由はありません。この場合,自由度は\(10 - 1 = 9\) であると表現されます。

「対応あり」と「対応なし」

統計学のテキストを読み進め,\(t\)検定や分散分析などの具体的なところに差し掛かると「対応のある\(t\)検定」「対応のない\(t\)検定」などの分類が登場します。
対応の有無によって何が異なるのかをここで把握しておきましょう。

○対応のないデータ,対応のない検定
S,L,Fのコンビニチェーンのコーヒーの味を評価するテストを例に,対応のないデータと対応のない検定について考えてみましょう。
Aさん,Bさん,CさんはチェーンSの,Dさん,Eさん,FさんはチェーンLの,Gさん,Hさん,IさんはチェーンFのコーヒーをそれぞれ飲んで味を評価し,味の評価値にチェーン間で差があるかどうかを検討するとします。

この場合,AさんがチェーンL,チェーンFのコーヒーを飲むことはありません。つまり,全ての参加者,全ての条件のデータは互いに独立 (互いに無関係) です。この条件を満たすとき,このデータは対応のないデータとして考えることができます。そのため,この場合は対応のない検定を使用してコーヒーの味の評価に差があるかを検討します。

○対応のあるデータ,対応のある検定
新しい薬の効果を検証する臨床研究を例に,対応のあるデータと対応のある検定について考えてみましょう。
Aさん,Bさん,Cさんは新しい降圧薬 (血圧を下げる薬) の効果を検証する臨床研究に参加しました。この研究では,服薬前の最高血圧と1週間服薬した後の最高血圧を比較し,新しい降圧薬の効果があるかを検討します。

このように,同一のサンプルから複数回データが取得されたときそのデータは対応のあるデータと呼ばれます。この場合,Aさん,Bさん,Cさんの服薬前後のデータは独立ではないため,そのままだと対応のないデータのように\(t\) 検定を使うことができません。しかし,服薬前後の血圧の差はAさん,Bさん,Cさんでそれぞれ独立です。そのため,服薬前後の最高血圧の差を母集団とし,そこから無作為抽出された標本と考えることで統計的仮説検定を行うための条件を満たすことができます。そのため,この場合は対応のある検定を使用して服用前後の最高血圧に差があるかを検討します。

○混合計画
実際の研究では,対応のある条件と対応のない条件を同時に検討することもしばしばあります。

上の図では,ボールをより早く投げるための新しい練習法に効果があるかどうかを検討するための研究計画を示しています。
新しい手法の効果を検証する場合,新しい練習法の実践前後で球速に変化が変化があったかどうか (対応のある検定) だけでなく,従来の練習法の実践前後の球速の変化と比較したときに新しい練習法でより球速が増加しているか (対応のない検定) についても検討する必要があります。そのため,このような混合計画が用いられることが多いです。