[R] csv 파일을 불러와 변수에 담는 방법

R 이라는 통계 패키지를 이용하기 위한 가장 첫번째 방법은 데이터를 불러와 변수에 담는 것입니다. 그래야 그 데이터를 이용해 뭐라도 분석 해볼 수 있을 테니까요.

보통 이런 경우 데이터는 주로 csv 파일에 담겨 있습니다. 오늘은 csv 파일에 담긴 데이터를 R 변수에 담는 방법을 정리 해봅니다.

시작하기 전에

아래 작업을 시작하기 전에 아래의 포스트를 읽어 보면 더 많은 도움이 될 것입니다.

csv 데이터 불러오기

아주 당연한 이야기지만 csv 데이터를 불러와 변수에 담기 위해서는 몇가지 준비물이 필요합니다.

  1. 데이터를 담을 변수
  2. csv 형식의 데이터
  3. read.csv() 함수

이들을 활용해 변수에 csv 형식의 데이터를 담는 방법은 아래와 같습니다.

varCSV <- read.csv('c:/temp/data.csv', header=TRUE)

아래에서 하나씩 찬찬히 알아 보도록 하겠습니다.

csv 데이터 불러 오기

csv 형식의 데이터를 불러 오기 위해서는 read.csv() 함수를 이용해야 합니다. read.csv() 함수는 다양한 옵션을 넣어 사용할 수 있지만, 저 같은 초보 사용자들에게는 파일명과 header 옵션만 넣어줘도 충분합니다.

read.csv("파일 주소",header=TRUE)

만약 현재 작업 디렉토리(work directory)에 csv 형식의 데이터 파일이 함께 들어 있다면 간단하게 파일명만 적어주면 되지만, 작업 디렉토리와 다른 폴더에 있는 데이터 파일을 불러오기 위해서는 파일의 디렉토리를 포함한 풀 주소를 적어 주어야 합니다.

read.csv 함수를 통해 불러온 데이터는 데이터 프레임의 형식을 가집니다.

파일 주소에 대해

여기서 주의할 점! 파일의 주소에 있는 백슬래시(역슬래시, “\” 또는 원화 표시)를 모두 슬래시(/) 로 바꿔 줘야 합니다. 보통 탐색기 상단의 주소를 그냥 선택해서 복사하면 주소 중간에 역슬래시가 있는데, 이 상태로 그냥 read.csv 함수에 사용하면 오류 메시지를 만날 수 있으니, 반드시 모두 슬래시로 바꿔 주세요. 아래 처럼요.

c:\temp\data.csv # 변환 전
c:/temp/data.csv # 변환 후

옵션: header

보통의 데이터라면 해당 데이터가 무엇을 나타내는지 표시하기 위해 가장 첫줄에 해당 데이터의 이름을 넣어 줍니다. 아래와 같은 형식이죠.

no city population
1 A 121,399
2 B 34,776
3 C 912,955

여기서 가장 상단의 no, city, population 은 실제 데이터가 아닌 해당 데이터가 무엇을 나타내는지 표시하는 역할을 합니다. 그러니 실제 R 에서도 이 header 를 값이 아닌 header 로 인식 하도록 하기 위해 header=TRUE 라는 옵션을 넣어 주는 것입니다.

변수 만들고 값 넣기

자, 이제 실제 ㅗ본인이 사용할 변수를 만들어 위 rea.csv 함수를 이용해 불러온 데이터를 넣어 주면 되겠죠? 알다시피 변수를 만들고 값을 넣는 방법은 아래와 같습니다.

varCSV <- (변수에 넣을 값)

R 에서는 데이터의 형식에 구애 받지 않고 변수를 자유롭게 선언해서 사용할 수 있으므로 데이터 프레임 자체를 변수에 담아 버릴수도 있는 것이죠.


이상으로 R에서 csv 형식의 데이터를 불러와 변수에 담는 방식을 정리해 보았습니다. 처음에 가장 애를 먹었던게 백슬래시를 슬래시로 바꾸지 않아 오류 메시지를 본 것과 header 옵션의 사용 방법이었습니다.

잘 보고 사용하시기 바랍니다.