Cute.Guides: ★手計算とRで学ぶ統計学: どのようにデータを取れば良いか

「データを集めて解析する」流れ

データ分析のプロセスは，分野は違っても概ね以下の図のようなプロセスで行われます。

今回は上記プロセスの中でも「実験計画を立てる (特にサンプルサイズ設計)」と「データを分析する」という2つを主に説明します。

(※1) 分野によっては，サンプルサイズ (どのくらいデータを集めるか) や分析計画の事前登録が求められる，あるいは推奨されることがあります。
(※2) この後に結果の解釈や考察，学会や論文での報告も控えていますがこのガイドでは割愛します。

データの取り方

データの分析を行う研究では，原則としてある大きな集団 (母集団) から無作為 (ランダム) に比較的小規模のデータを得るランダムサンプリングという手法が用いられます。

・なぜランダムに選ぶのか
ほとんどの場合，学術研究はサンプルの背後に存在すると仮定される母集団の性質を知ることを目的として実施されています。母集団の特徴を限られたサンプルから適切に推測するためには，元の母集団から偏りなく抽出したサンプルから取得したデータであることが必要不可欠です。
たとえば先ほどのバナナダイエットの研究 (母集団は日本人と仮定) を例にすると，健康に対する意識の高い人 (すでに体重減少に役立ちそうなことをやっていると想定される人) を実験群，大食いの人 (バナナにダイエット効果があったとしても，それを打ち消すくらいの量を食べて体重を増やす人) を対照群として作為的にサンプリングしていたならば，「実験群はバナナを1日3本食べて体重が減りました」といっても，本当にバナナの効果なのか明言することができません。この場合は，年齢・性別・日頃の食習慣・基礎代謝などを統制して実験条件を無作為に振り分けることでバナナの効果だけを検証することができます。

・なぜ少数のデータを使うのか
確かに母集団に属するすべてのデータを調べられたら，母集団の中からランダムに抽出したデータをもとに推測する必要はありませんし，「この母集団は○○という性質がある！」と明言することはできるでしょう。
しかし，バッタの例を考えると地球上すべてのバッタ，私の専門分野である心理学の場合は地球上すべてのヒトを母集団として想定しています。

もうおわかりでしょう。母集団の全標本を調査することは多くの場合現実的に無理です。

そのため，時間や労力 (場合によっては研究資金) の許す範囲でデータを得て，それに基づいて母集団の性質を推測する必要があるのです。

データの分類

一概に「データ」といっても，すべてが全く同じわけではありません。データは大きく分けて量的データと質的データの2つに分類されます。また，データを測定するための物差し (尺度) には大きく4種類があり，それぞれ実施できる操作が異なります。

○質的データ (属性やカテゴリ，項目の形をとる変数について計測されたデータ)
1. 名義尺度
性別，国籍，職種など，分類や区分を表す変量の尺度です。
数値を区別するためのみに用いられ，大小の比較や四則演算は行えません。

2. 順序尺度
満足度 (不満・やや不満・普通・やや満足・満足) や評定 (S・A・B・C・F) など，名義尺度に順序関係や大小関係が加わったものです。
大小を比較することが可能になりますが，四則演算は行えません。

○量的データ (数字の形をとる変数について計測されたデータ)
3. 間隔尺度
温度，西暦など，数字の差に意味がある変量の尺度です。
数字の差は等間隔であり，足し算・引き算ができますが，掛け算・割り算はできません。「最低気温と最高気温の差が10℃以上あるから温度差で風邪をひく」という言い方はしても，「今日と明日は最低気温に2倍の差があります」という言い方をしないことを考えるとわかりやすいと思います。

4. 比尺度
速度や長さ，面積などの，数字の間隔だけでなく比率にも意味がある変量の尺度です。
これらはすべて原点を持つため，四則演算 (足し算，引き算，掛け算，割り算) をすべて行うことができます。

尺度の種類は，測定する変数に応じて適切に使い分けることが重要です。
測定したい項目で何を計算することが必要かを念頭においた上で尺度を選択しないと検定の選択肢が極端に狭まる，測定したいものを適切に測定できないなどのデメリットが生じます。

★手計算とRで学ぶ統計学: どのようにデータを取れば良いか

目次

「データを集めて解析する」流れ

データの取り方

データの分類