データを集め終わったら、そのデータを解析していきます。
解析は通常、以下の流れで行われます。
ポイントは
・一方向に進むわけではない(行ったり来たりを繰り返して進める)
・すぐに数式を扱う統計解析をするわけではない
ということです。
データ解析というと
統計学を使った数式による解析のイメージを持つ方が多いように思われます。
データ解析の経験がある人の中には、
「難しい数式をいじりまわしてp値を計算し、"有意" かどうかを調べる」
ことがデータ解析だと考えている人もいるのではないでしょうか。
しかし、その本質はデータを図にしてみることにあります。
データを手に入れたら様々な図を作り、どんなデータなのかしっかり観察しましょう。
<さらに詳しく>
RはR言語(プログラミング言語)を使ってデータ解析を容易に行える、フリーソフトです。
(公式サイト:https://cran.r-project.org/index.html)
フリーソフトなので様々な外付け機能(パッケージ)が開発されており、
複雑な図の作成や統計解析でも、Rを使うことで簡単にできてしまいます。
パソコンでデータ解析を行う場合、 Microsoft Excel の利用を考えるかもしれません。
Excelは、みんながよく使うデータ解析を直観的に使いやすくしたものです。
そのため、他の人があまり使わないような動物の行動のデータを扱う場合、
Rを使った方がより簡単にデータを解析できます。
ちなみに、データ解析にはPythonというプログラミング言語もよく使われます。
機械学習を使って解析したい場合には、Pythonの方を使うと良いでしょう。
<さらに詳しく>
データ解析においては「データの図化」が大切、と言ってきましたが、
図からの視覚的な判断だと、人によって違う結果を導くかもしれません。
例えば、バッタのオスとメスの体長を測定して、以下の図(ヒストグラム)を得たとします。
この図から、オス(上)とメス(下)の体長に違いがあると言えるのでしょうか、言えないのでしょうか。
ある人は「違いがある」と判断するかもしれませんし、
別の人は「違いはない(目の錯覚だ)」と判断するかもしれません。
統計解析はこのように図からの判断が難しい場合に、
客観的な判断基準を提供してくれる貴重なツールとなります。
統計解析の手法には様々な種類のものがあるので、ここで詳しくは説明しません。
ざっくりとした流れを説明をすると、
1)帰無仮説(否定したい仮説。上の図だとバッタのオスとメスで体長に差はない)を立てる
2)帰無仮説の正しさを確認するための目安となる量(検定統計量)を決める
3)確率モデルを使い、帰無仮説が正しいと仮定したときに
検定統計量がとりうる値とその確率の関係(検定統計量の分布)を求める
4)この検定統計量の分布を使い、帰無仮説が正しいと仮定したときに
検定統計量の値が実際のデータから算出される値か
それより稀な値をとる確率(p値)を計算する
5)もしp値がかなり小さければ、
帰無仮説の下で実際のデータが示すような検定統計量が得られる確率は
かなり小さいのだから、帰無仮説は正しくなさそうだと考える
ということを、数式を使って行います。
(この流れは先に説明した「仮説」と「予想」の流れとよく似ています。)
ただし、統計解析の手法はいずれも前提条件をいくつか仮定しているため、
自身の得ているデータがその前提条件を満たすのかを事前に確認する必要があります。
そのためには、やはりデータの図化が必要となります。
また、統計解析においてよく使われるのが「p値」です。
この「p値」の定義は
「帰無仮説の下で注目した検定統計量がデータの示す値よりも稀な値をとる確率」と
はっきりしているのですが、その扱いについては様々な議論* が行われています。
「p値」について詳しく書かれた本には『P値:その正しい理解と適用』がありますが、
個人的に、これはやや数学の好きな人向けな気がします。
数学が好きではないものの「p値」について知りたいという方は、
まず以下の文献に目を通すのが良いと思います。
ーーーーー
大久保祐作, 會場健大 (2019).「p値とは何だったのか(Fisherの有意性検定とNeyman-Pearsonの仮説検定を超えるために)」『 生物科学』, Vol. 70, No. 4, pp. 238-251.
ーーーーー
* p値に関する議論の日本語の記事として、2019年の『Nature ダイジェスト』Vol. 16, No. 6 に
「統計的有意性を巡る重要な論争」(オープンアクセスリンク先)という記事があります。