Skip to Main Content

R:ゼロから始める解析生活: データ読み込み

フリーソフトRを用いたデータ解析のはじめ方を紹介。

Rでデータ読み込み

ここからは実証研究で得たデータを実際に R で解析する方法を紹介していきます。
ここでは、Excel でのデータ作成の方法と R への読み込ませ方を紹介します。

なお、<コピペ> と書かれたコードを順にコンソール画面にコピペしていくと、R での解析の流れを体験できるようになっています。

目次

はじめに
画面の見方
基礎知識

データ読み込み

(1) Excelで入力
(2) Rで読み込み
(3) サンプルデータ
データ整理
作図
解析ノートづくり
おわりに

(1)Excel でデータの入力

これまで「解析には Excel より R の方が良い」という趣旨の表記をしてきましたが、
データの入力時には Excel を使います
R でもできないことはありませんが、Excel の方が楽にデータを入力できます。

Excel でデータを入力する際には、以下の点に注意してください。

データの構造

①1行が1サンプル、②1列が1変数、③1セルが1つの値

となるように入力してください(行は横、列は縦です)。

多くの実証研究では実験計画の三原則に従って「反復」を実施しているはずです。
この「反復」1回で得たデータが1つの行に並ぶように入力します。
(実験計画についてはこちらを参照してください)
この形で入力していないと、後のデータ整理で苦労します。

 

入力する場所
Excel のシート内の、一番左上から入力してください。
そして、一番上の行には列の名前を入力してください。
1つのシート内には1つの行列のみを入力します。
1ファイルは1シートの構成にし、複数のデータがある場合には、
シートに分けず、別のファイルとして保存します。
枠線も不要です。

 

言語
入力するデータやファイル名には基本的にアルファベットを使います。
R は日本語の入力に対応してはいるのですが、
日本語に対応していない関数や文字化けが起きる場合があるため、
可能な限りアルファベットで入力した方が扱いやすいです。
アルファベットであれば何でもよいので、ローマ字入力で構いません。
ただし、解析にはあまり使わない
長めの文章(実験時の気づきなど)は
日本語で書いた方が良いです。

 

ファイルの拡張子
基本的には CSV ファイル(.csv)として保存します *。
「名前を付けて保存」を押した後、
ファイル名を書いてから
ファイルの種類を「CSV(コンマ区切り)」を押せば OK です。


 


望ましい入力

望ましくない入力

 

* R では CSV 形式でないファイルも扱うことはできます。
  ただし、パッケージを別途読み込まなければならない場合が多いです。

  Excel の標準形式である .xlsx で保存したファイルを読み込む場合には、
  readxl というパッケージが使用できます。
  Excel標準形式の .xlsx ファイルなどは入力されたデータに加えて書式などの

  余分な情報が含まれるため、それらを含まない .csv 形式がよく使われます。

(2)Rでデータの読み込み

R で解析する際には、
まず Excel で作ったデータを R に読み込ませる必要があります。

CSV ファイルの読み込みには read.csv() という関数を使います。
() 内に該当する CSV ファイルの名前を入力しますが、
入力方法はファイルが作業ディレクトリにあるかどうかで変わってきます。

 

① 読み込むファイルが作業ディレクトリ内に ある 場合
読み込むファイルが作業ディレクトリ内にある場合、ファイル名だけを入力します。

read.csv ("ファイル名.csv")

 

② 読み込むファイルが作業ディレクトリ内に ない 場合
読み込むファイルが作業ディレクトリ内にない場合、ファイル名の前に
ファイルのパス(=ファイルの場所)を入力しておきます。

read.csv ("ファイルのパス/ファイル名.csv")

ファイルのパスを調べたい場合、file.choose() を使うと便利です。
(スラッシュ / が バックスラッシュ2つ \\ として出力されます。)

 

読み込んだデータは後の解析に使用するため、オブジェクトに格納しておきます。
前にも紹介しましたが、オブジェクトの名前は任意の英数字で問題ありません
(ただし、既に定義したものや関数で使用しているものは避ける必要があります)

解析対象のデータを含むオブジェクトは何度もコードに書くことになるため、
なるべく短くて、自身にとって分かりやすいものが良いと思います。

(私は mydata という名前を使うことが多いです。)

 

 

(3)サンプルデータ

このガイドの次のページからは、模擬データを使って R での解析方法を説明していきます。
今回は csv データではなく、R に直接入力できるデータを準備しました。
はじめに、以下の赤字部分をコピーして、コンソール画面に貼り付けてください。

<コピペ>

 

mydata<-data.frame(id=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20),
place=c("ito","ito","ito","ito","hakozaki","hakozaki","hakozaki","maidashi","maidashi","maidashi",
"ito","ito","ito","hakozaki","hakozaki","hakozaki","hakozaki","maidashi","maidashi","maidashi"),
sei=c("m","m","m","m","m","m","m","m","m","m","f","f","f","f","f","f","f","f","f","f"),
leftleg=c(13.17,15.01,15.29,14.05,15.77,16.17,15.03,14.96,15.99,16.23,17.15,16.39,17.38,17.35,17.13,15.39,16.91,19.67,20.72,18.57),
rightleg=c(16.16,16.88,14.52,14.39,16.44,15.06,14.19,17.26,16.98,17.37,16.56,16.49,16.47,16.29,17.57,17.76,17.76,18.08,19.07,19.82),
bodylength=c(23.81,24.65,22.85,23.47,25.15,25.36,24.90,29.14,26.55,32.16,28.78,28.29,30.92,30.34,31.02,30.80,27.77,34.15,35.65,34.48))

 


上記のデータは、伊都 (ito) 、箱崎 (hakozaki)、馬出 (maidashi) の3か所でバッタを採集し、
その性別と体長、左と右の後脚の長さを測定した結果です。
個々のデータの見方は以下の通りです。

列名 内容
id 採集した個体のID。採集した順に1,2,3…の順に数字を振った。
place 採集場所。伊都(ito)、箱崎(hakozaki)、馬出(maidashi)の
いずれか。
sei 採集した個体の性別。オス(m: maleの略)かメス(f: femaleの略)の
いずれか。
leftleg 左後脚の長さ。数値。
rightleg 右後脚の長さ。数値。
bodylength 体長。数値。