0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
\(t\) 検定とは,あるデータ (正確にはそのデータが属する母集団) の平均値\(\mu\)と特定の値\(\mu_{0}\) (または別の群の母集団の平均値) の間に統計的に有意な差があるかどうかを調べたい時に用いられる方法です。
\(t\) 検定の仮説の考え方は以下の図のように示されます。
\(t\) 検定では,検討したい差の方向性によって仮説の立て方,検定の仕方が異なります。
差の大小に関心がある場合は片側検定を,大小を問わずとにかく差の有無に関心がある場合は両側検定を採用します。
それぞれの帰無仮説,対立仮説の立て方を以下に示します。
○片側検定の場合: 差の方向性を定めた上で仮説を立てる
帰無仮説\(H_{0}\): あるデータの平均値\(\mu\)は特定の値\(\mu_{0}\)と等しい
対立仮説\(H_{1}\): あるデータの平均値\(\mu\)は特定の値\(\mu_{0}\)より大きい (小さい)
○両側検定の場合: 差の方向性を定めず,「特定の値との差がある」ことを仮説とする
帰無仮説\(H_{0}\): あるデータの平均値\(\mu\)は特定の値\(\mu_{0}\)と等しい
対立仮説\(H_{1}\): あるデータの平均値\(\mu\)は特定の値\(\mu_{0}\)と差がある
「なんで正規分布に従う標本の検定なのに\(t\)分布なる新しいものが出てくるんだ?」と疑問に思う方もいらっしゃると思います。
ここでは,正規分布に従う標本の平均値の検定に\(t\) 分布を使う理由,そしてなぜ正規分布を使う検定 (z検定) をほとんど目にしないかを,標準化と母分散がわかっているかどうかに焦点を当てて紹介します。
○標準化とz検定
正規分布は平均 \(\mu\) と分散 \(\sigma^{2} \)によって定義される確率分布です。そのため,平行移動 (\(\mu\) が変化→グラフが\(x\)軸方向に移動する) や実数倍 (頂点の\(y\)座標が変化) しても基本的なグラフの形は変化しません。
そのため,元々の母集団の母平均や母分散によらず一番シンプルな形 (平均0, 分散1) で定義された標準正規分布を使うのが一番都合がよいです。そのため,データ分析を行う際は平均を0,分散を1とする標準化が行われます。
確率変数Xが正規分布\(N(\mu, \sigma^2 ) \) に従う母集団から抽出されたとき,
\begin{align}
Z &= \frac{X - \mu}{\sigma} \\
\mu&: 母平均 \\
\sigma&: 母分散の平方根 (標準偏差) \\
\end{align}
と変換すると,Zは標準正規分布\(N(0, 1)\) (平均0, 分散1) に従う値として標準化されます。
母平均サンプルサイズ\(n\)の標本がある時,その平均と母平均に統計的に有意な差があるかどうかを検討するときには\(z\)検定を行います。このとき,検定統計量\(z\)は以下の式の通りになります。
\begin{align}
z &= \frac{\overline{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \\
n&: サンプルサイズ \\
\overline{x}&: 標本平均
\end{align}
○母分散の既知 / 未知
ここまでの話は,データ収集を行う前に母分散がわかっている,つまり母分散が既知であることを前提に進めてきました。
しかし,実際に私たちが研究で扱うデータは母分散がわからない,つまり母分散が未知の場合がほとんどです。そのため,母分散\(\sigma^2\)を式に含む標準化の式やz検定は使えません。
母分散が未知の場合,標準化や平均値の差の検定には母分散の不偏推定量 (標本から測定した推定量の期待値が母集団のものと等しい) である不偏分散\(u^2\)を使用します。
上記の\(z\)検定で用いた検定統計量\(z\)の母分散\(\sigma \)を不偏分散\(u^2\)に変換した値を仮に\(z' \) とすると,以下の式のようになります。
\begin{align}
z' &= \frac{\overline{x} - \mu}{\frac{u}{\sqrt{n}}} \\
&= \frac{\sqrt{n} (\overline{x} - \mu)}{u} \\
n&: サンプルサイズ \\
\overline{x}&: 標本平均
\end{align}
不偏分散は\(u^2 = \frac{1}{n-1}\sum_{i = 1}^{n}(x_{i} - \overline{x})^2 \) であるため,この値を上記の式に代入すると以下のようになります。
\begin{align}
z' &= \frac{\sqrt{n} (\overline{x} - \mu)}{\sqrt{\frac{1}{n-1}\sum_{i = 1}^{n}(x_{i} - \overline{x})^2}}
\end{align}
次に,無理やり\(Z\) を作るために分子に\(\frac{1}{\sigma}\) をかけます。このとき式全体としての値を等しくするため,分母にも\(\frac{1}{\sigma}\) をかける必要があります (全体にルートがかかっているので\(\frac{1}{\sigma^2}\)をかけています)。
\begin{align}
z' &= \frac{\sqrt{n} \frac{\overline{x} - \mu}{\sigma}}{\sqrt{\frac{1}{n-1}\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}(x_{i} - \overline{x})^2} } \\
&= \frac{\sqrt{n}Z}{\sqrt{\frac{1}{n-1}\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}(x_{i} - \overline{x})^2} }
\end{align}
ここで,自由度 \((n-1) \) のカイ二乗分布\(\chi^2(n-1) \) に従う値 \( W = \sum_{i = 1}^{n} \frac{(x_{i} - \overline{x})^2}{\sigma^{2}} \) を\(z' \) に代入すると,\(z' \) は自由度 \((n-1) \) の\(t\)分布の式と等しくなります。
\begin{align}
z' = \frac{\sqrt{n}Z}{\sqrt{\frac{W}{n-1} }} = t(n-1)
\end{align}
このように,不偏分散を用いて標準化を行うと分母にサンプルサイズを示す\(n\) が現れます。下図に示すように,\(t\) 分布の形状はサンプルサイズによって大きく異なります。
パラメータのうち,\(df\) は自由度 (サンプルサイズ -1),\(\mu \) は平均,\(\sigma \) は分散を示す。
平均と分散が同じでも,自由度の違いでグラフの形状に大きな違いがみられる。
そのため,母分散が未知の場合に平均値の差の検定を行う時は標準正規分布ではなく\(t\) 分布を使用する必要があるのです。
そして世の中にあるデータは母分散がデータ分析前にわかることはほぼありません。これが\(z\) 検定を実際の研究などで見ることがほぼない理由です。