R言語はデータサイエンスにおいて非常に強力なツールであり、多くの種類のデータファイルを簡単に読み込み、加工、保存することができます。本記事では、Rを使用してCSV、Excel、テキストファイルなどを読み込み、加工後に適切なフォーマットで保存する方法について詳しく解説します。初心者でも理解できるように、各ステップごとにサンプルコードと実行結果を提示しながら説明します。
Rでのデータ読み込み
1. CSVファイルの読み込み
CSV(カンマ区切り値)ファイルは、データ解析で最も一般的に使用されるフォーマットです。Rにはread.csv()関数が用意されており、簡単にCSVファイルを読み込むことができます。次のコードは、CSVファイルをRのデータフレームに読み込む基本的な方法を示しています。
# CSVファイルの読み込み data <- read.csv("data/sample.csv") # データの先頭を確認 head(data)
このコードでは、sample.csv
というファイルを読み込み、data
という変数に保存しています。head()
関数を使用して、データの最初の数行を確認することができます。
2. Excelファイルの読み込み
Excelファイルを読み込むには、Rの外部パッケージであるreadxlをインストールして使用します。次の例は、Excelファイルのシートを指定して読み込む方法を示しています。
# readxlパッケージのインストールと読み込み install.packages("readxl") library(readxl) # Excelファイルの読み込み data_excel <- read_excel("data/sample.xlsx", sheet = "Sheet1") # データの先頭を確認 head(data_excel)
この例では、ExcelファイルのSheet1
を指定して読み込み、データをdata_excel
に保存しています。Excelファイルは、複数のシートを持つことができるため、必要に応じてsheet
引数でシートを指定します。
3. テキストファイルの読み込み
テキストファイルは、区切り文字を使用してデータを保存することが一般的です。たとえば、タブ区切りのテキストファイルを読み込むには、read.delim()関数を使用します。
# テキストファイルの読み込み data_txt <- read.delim("data/sample.txt") # データの先頭を確認 head(data_txt)
このコードでは、タブ区切りのテキストファイルを読み込み、data_txt
に保存しています。read.delim()
関数は、他の区切り文字(たとえばセミコロンなど)もサポートしています。
Rでのデータ保存
1. CSVファイルとして保存
データを加工した後、結果をCSVファイルとして保存することは非常に一般的です。Rでは、write.csv()関数を使用してデータフレームを簡単にCSVファイルに保存できます。
# CSVファイルとして保存 write.csv(data, "data/output.csv", row.names = FALSE)
このコードでは、data
をoutput.csv
として保存しています。row.names = FALSE
オプションを使用すると、行番号をファイルに含めないようにできます。
2. Excelファイルとして保存
Excelファイルにデータを保存するには、writexlパッケージを使用します。
# writexlパッケージのインストールと読み込み install.packages("writexl") library(writexl) # Excelファイルとして保存 write_xlsx(data_excel, "data/output.xlsx")
新しいライブラリをインストールした後に再起動します。
この例では、data_excel
をoutput.xlsx
として保存しています。writexl
パッケージを使用すると、Rで簡単にExcelファイルに書き出すことができます。
3. テキストファイルとして保存
# --- CSVファイルの読み込み --- # CSVファイルを読み込むために read.csv() 関数を使用します。 # データを変数 data に保存します。 data <- read.csv("data/sample.csv") # 読み込んだデータの先頭を確認します。head() 関数は最初の6行を表示します。 print("データの先頭:") head(data) # --- データの加工 --- # データの処理例として、欠損値 (NA) を含む行を削除します。 # na.omit() 関数を使って、欠損値のある行を除去します。 data_clean <- na.omit(data) # 加工後のデータの先頭を確認します。 print("欠損値が除去されたデータの先頭:") head(data_clean) # --- 加工したデータをCSVファイルとして保存 --- # write.csv() 関数を使って、加工後のデータを新しいCSVファイルに保存します。 write.csv(data_clean, "data/output_clean.csv", row.names = FALSE) print("ファイルが正常に保存されました。")
説明
CSVファイルの読み込み:
data <- read.csv("data/sample.csv")
read.csv()
関数を使って、sample.csv
というCSVファイルを読み込みます。- 読み込まれたデータは
data
という変数に保存されます。このデータはデータフレームの形式になります。
データの先頭を確認:
head(data)
head()
関数はデータフレームの最初の6行を表示します。これにより、データが正しく読み込まれているかどうかを確認できます。
データの加工(欠損値の除去):
data_clean <- na.omit(data)
- このコードは、欠損値(NA)を含む行を削除するために
na.omit()
関数を使用しています。 data_clean
に保存されたのは、欠損値を削除した後のクリーンなデータです。
加工後のデータを確認:
head(data_clean)
加工後のデータが正しく処理されているかを確認するために、再び head()
関数を使って最初の6行を表示します。
CSVファイルとして保存:
write.csv(data_clean, "data/output_clean.csv", row.names = FALSE)
write.csv()
関数を使って、加工後のデータを新しいCSVファイルとして保存します。row.names = FALSE
を指定することで、行番号がファイルに含まれないようにしています。
この例では、Rを使用してCSVファイルを読み込み、欠損値を除去し、その加工後のデータを再び新しいCSVファイルに保存する方法を説明しました。
まとめ
この記事では、Rを使用してCSV、Excel、テキストファイルを読み込み、加工後に保存する方法について詳しく解説しました。Rはデータの読み込みと保存に非常に柔軟で、さまざまな形式に対応しています。これらの操作をマスターすることで、データサイエンスのプロジェクトをスムーズに進めることができるでしょう。