2. R 프로그램으로 데이터 파일 불러오기
R 프로그램은 빅데이터 분석 프로그램입니다. 중요한 것은 분석하려는 데이터를 어떤 목적으로 수집 되었는가에 대한 부분도 있습니다. 공공데이터가 개방 되었다고 해서 관련 사이트에 들어가 봤습니다.
다운 받은 csv 파일을 검증이 필요합니다. 자료 자체가 깨져 있을 수 있습니다. 다운받은 "응급진료환자의 일주일 이내 진료 상병 추이 통계 2015.csv"파일을 엑셀로 열어 봅니다.
이상한 일본어가 들어가 있고, ***로 표시된 자료도 들어가 있습니다. 이런 경우 원본 데이터에 대한 수정이 필요합니다. 이런 부분들은 제거하고 진행해야 하는데, 빅데이터라서 때문에 가공하는데 양이 많긴 합니다. 직접 작성된 데이터가 아니기 때문에 1열, 2열이 무엇을 의미하는지 잘 모르겠습니다. 한국어도 마찬가지로 R프로그램에서 깨집니다. 가급적이면 원본데이터는 영어로 작성되는 것이 좋습니다.
2.1 csv 데이터 불러오기
자료는 깨졌지만 R 프로그램에서 데이터를 부르는 명령어를 익히기 위해, 우선 파일을 읽도록 하겠습니다.
read.csv(file.choose())
원하는 파일을 폴더에서 찾으면 됩니다.
다른 연산등에 이 데이터를 연결시키기 위해서는 데이터의 집합을 정의해 주는 것이 좋을 것 같습니다.
meddata <- read.csv(file.choose())
meddata라는 집합이 만들어 졌고, 여기에 원하는 파일을 연결시키면 됩니다.
앞서 사용했던 구조(structure)를 파악하기 위한 str 명령어를 사용해 보면, 뭔가 이상한 내용들이 나옵니다.
str(meddata)
데이터가 너무 길 경우에는 맨 윗쪽은 head, 맨 아래쪽은 tail이라는 명령을 사용하여 실행하면 됩니다.
head(meddata)
tail(meddata)
2.2 txt 파일 불러오기
텍스트 파일도 불러올 수 있습니다. 우선 엑셀에서 텍스트 파일을 만들었습니다.
마찬가지로 R프로그램에서 텍스트 파일을 읽으면 다음과 같습니다. 명령어는 read.table 입니다. a라는 집합을 정의합니다.
a = read.table(file.choose())
불러온 파일이 잘 읽혀 졌는지 확인하는 head와 tail명령도 실행해 봅니다.
head(a)
tail(a)
그외에 다른 명령어 들도 빅데이터 분석을 위해 실행이 가능합니다. 다만 여기서 짚고 넘어가야 할 것은 원본데이터의 중요성 입니다. 제대로 조사되지 않으면, 분석이 어려우며, 숫자와 영어외에 다른 언어는 쓰지 않는 것이 좋을 수도 있습니다.