[R] csv 파일을 불러와 변수에 담는 방법
R 이라는 통계 패키지를 이용하기 위한 가장 첫번째 방법은 데이터를 불러와 변수에 담는 것입니다. 그래야 그 데이터를 이용해 뭐라도 분석 해볼 수 있을 테니까요.
보통 이런 경우 데이터는 주로 csv 파일에 담겨 있습니다. 오늘은 csv 파일에 담긴 데이터를 R 변수에 담는 방법을 정리 해봅니다.
시작하기 전에
아래 작업을 시작하기 전에 아래의 포스트를 읽어 보면 더 많은 도움이 될 것입니다.
csv 데이터 불러오기
아주 당연한 이야기지만 csv 데이터를 불러와 변수에 담기 위해서는 몇가지 준비물이 필요합니다.
- 데이터를 담을 변수
- csv 형식의 데이터
- read.csv() 함수
이들을 활용해 변수에 csv 형식의 데이터를 담는 방법은 아래와 같습니다.
varCSV <- read.csv('c:/temp/data.csv', header=TRUE)
아래에서 하나씩 찬찬히 알아 보도록 하겠습니다.
csv 데이터 불러 오기
csv 형식의 데이터를 불러 오기 위해서는 read.csv() 함수를 이용해야 합니다. read.csv() 함수는 다양한 옵션을 넣어 사용할 수 있지만, 저 같은 초보 사용자들에게는 파일명과 header 옵션만 넣어줘도 충분합니다.
read.csv("파일 주소",header=TRUE)
만약 현재 작업 디렉토리(work directory)에 csv 형식의 데이터 파일이 함께 들어 있다면 간단하게 파일명만 적어주면 되지만, 작업 디렉토리와 다른 폴더에 있는 데이터 파일을 불러오기 위해서는 파일의 디렉토리를 포함한 풀 주소를 적어 주어야 합니다.
read.csv 함수를 통해 불러온 데이터는 데이터 프레임의 형식을 가집니다.
파일 주소에 대해
여기서 주의할 점! 파일의 주소에 있는 백슬래시(역슬래시, “\” 또는 원화 표시)를 모두 슬래시(/) 로 바꿔 줘야 합니다. 보통 탐색기 상단의 주소를 그냥 선택해서 복사하면 주소 중간에 역슬래시가 있는데, 이 상태로 그냥 read.csv 함수에 사용하면 오류 메시지를 만날 수 있으니, 반드시 모두 슬래시로 바꿔 주세요. 아래 처럼요.
c:\temp\data.csv # 변환 전
c:/temp/data.csv # 변환 후
옵션: header
보통의 데이터라면 해당 데이터가 무엇을 나타내는지 표시하기 위해 가장 첫줄에 해당 데이터의 이름을 넣어 줍니다. 아래와 같은 형식이죠.
no | city | population |
---|---|---|
1 | A | 121,399 |
2 | B | 34,776 |
3 | C | 912,955 |
여기서 가장 상단의 no, city, population 은 실제 데이터가 아닌 해당 데이터가 무엇을 나타내는지 표시하는 역할을 합니다. 그러니 실제 R 에서도 이 header 를 값이 아닌 header 로 인식 하도록 하기 위해 header=TRUE 라는 옵션을 넣어 주는 것입니다.
변수 만들고 값 넣기
자, 이제 실제 ㅗ본인이 사용할 변수를 만들어 위 rea.csv 함수를 이용해 불러온 데이터를 넣어 주면 되겠죠? 알다시피 변수를 만들고 값을 넣는 방법은 아래와 같습니다.
varCSV <- (변수에 넣을 값)
R 에서는 데이터의 형식에 구애 받지 않고 변수를 자유롭게 선언해서 사용할 수 있으므로 데이터 프레임 자체를 변수에 담아 버릴수도 있는 것이죠.
이상으로 R에서 csv 형식의 데이터를 불러와 변수에 담는 방식을 정리해 보았습니다. 처음에 가장 애를 먹었던게 백슬래시를 슬래시로 바꾸지 않아 오류 메시지를 본 것과 header 옵션의 사용 방법이었습니다.
잘 보고 사용하시기 바랍니다.
댓글 남기기