0. Home
1. データ分析初歩の初歩
1.1 実例でわかる!統計学の重要性
1.2 どのようにデータを取れば良いか
1.3 統計量の基本
1.4 頻出用語の定義確認
2. 統計的仮説検定の仕組み
4. \(t\)検定
4.1 1標本\(t\)検定
5. 相関分析
6. 分散分析
6.2 一元配置分散分析 (対応あり)
7.1 単回帰分析 (単回帰モデル)
7.2 重回帰分析 (重回帰モデル)
8. ノンパラメトリック検定
7.1 適合度の検定
7.2 独立性の検定
7.3 マン・ホイットニーのU検定
9. 実践!データ分析
9.1 Rを使った分析その前に
9.2 \(t\)検定
9.3 分散分析
9.4 線形モデリング (回帰分析)
9.5 ノンパラメトリック検定
11. おわりに
12. 参考文献
13. 付録
これから\(t\)検定,分散分析,線形モデリング,ノンパラメトリック検定についてRを使用した分析を行います。
もちろんガイドを読むだけでもやり方はわかります。しかし,実際に手を動かすと理解が深まるので,ぜひRをインストールしてコードを動かしながら読み進めてみてください。
○Rの実行環境を整える
このガイドで紹介するコードを動かすためには,Rと呼ばれるプログラミング言語およびその実行環境が必要です。
Rのダウンロードとインストールの方法については,こちらのガイドで詳しく紹介されています。
また,RStudioをインストールするとRでのデータ分析がより快適に行えます。RStudioを使用せずデータ分析を行っている人のほうが少数派ではないか,と思うほどには便利なソフトウェアです。私もRStudioにはお世話になっています。
Rstudioのインストール方法はこちらのWebサイトに詳しく紹介されています。
○困った時は
RやRstudio,そして多種多様なパッケージのインストールやコードを実行する際に何かしらの問題 (エラー) が発生することもあります。
コードが実行できないとき,Rはエラーメッセージを出してエラーの原因や対処法を丁寧に示してくれます。しかしエラーメッセージは全て英語です。英語が苦手,プログラミングが苦手,という方はエラーメッセージが出た時点で投げ出したくなってしまうかもしれません。
そのようなトラブルが起こった際には,パソコンの前で考え込むより先にエラーメッセージをコピーして検索してみましょう。たいていは優しいRユーザーが同じトラブルへの対処法をインターネットで紹介しているWebページが見つかるはずです。
こちらのWebサイトにRを使い始めたばかりの人が遭遇しやすいエラーのパターン (パッケージが読み込めない,コマンドが実行できない…) とその対処法についてまとまっています。困ったときには確認してみましょう。
○作業ディレクトリってなに?
作業ディレクトリとは,Rでファイルの読み込みや書き出しを行う際の参照先となるフォルダのことです。基本的には1つの作業につき1つのディレクトリ (フォルダ) を使用します。
作業ディレクトリを指定することで,ファイルのパス (パス: フォルダやファイルの所在地を示す住所のようなもの) を指定しなくてもデータの読み込みや書き出しができるようになります。そのため,基本的にはRのスクリプトがあるフォルダを作業ディレクトリとして指定し,その中に分析対象のデータファイルを保存するようにしましょう。
以下の図にファイルパスと作業ディレクトリの関係をまとめています。
○作業ディレクトリの確認
作業ディレクトリを確認するためには,getwd()コマンドを実行します。
getwd()
コマンドを実行すると,以下に示す通り現在の作業ディレクトリのパスが表示されます。
※以下のコマンドはMacでの実行結果です。Windowsではパスの表記が異なります。
> getwd()
[1] "/Users/YukiMori"
○作業ディレクトリの変更
作業ディレクトリを変更するには,setwd(“csvファイルを入れているフォルダ”) のように入力し,実行します。
setwd("/Users/YukiMori/Desktop/R_demo")
何も問題なくディレクトリを変更できた場合,コンソール画面は以下のようになります。
> setwd("/Users/YukiMori/Desktop/R_demo")
>
今回はコマンドを入力してディレクトリを変更する方法を説明しました。しかし,マウス操作で作業ディレクトリを変更する方法も用意されています。
Rでは画面情報のツールバーから「その他」→「作業ディレクトリの変更」,RStudioでは画面情報のツールバーから「Session」→「Set Working Directory」と選択し,任意のフォルダを選択してディレクトリを変更することもできます。
○分析を行う上での注意点
このガイドに掲載されている分析を行う際は,基本的にダウンロードしたcsvファイルがあるフォルダを作業ディレクトリとして使用してください。デスクトップ上に作成したフォルダにcsvファイルやRのスクリプトを保存するとディレクトリ設定が煩雑にならないのでお勧めです。
(補足)
全角文字や全角スペースを含むフォルダを作業ディレクトリとして指定するとエラーが起きやすい,という話はプログラミングを経験した方はご存知だと思います。
ディレクトリとするフォルダ名に全角文字を使うとエラーが起こることを示すため,全角文字や全角スペースを使用したフォルダやファイルを使ったスクリプトを動かしてみました。その結果,「さあてどんなエラーメッセージが見られるだろうか」との期待も虚しく全くエラーが起こりませんでした。csvファイル名に全角スペースを入れて保存し,Excelで開いてみましたが何の問題もなく開けました。
この検証結果からすると,Rではファイル名,フォルダ名の全角文字や全角スペースについてはそこまで神経質にならなくてもいいのかもしれません。しかし,R以外の言語では重大なエラーにつながる恐れがあるため,「プログラミングに使用するファイル名,フォルダ名は全て半角英数字にする。全角文字や全角スペースは入れない」を徹底しておいた方がよいでしょう。