최근 IT 업계의 몸값 상승 기류가 매우 뜨겁다. 국내 대형 IT 기업에서 경쟁적으로 개발자의 몸값을 상승 시키고 있다. 특히, 머신러닝(Machine Learning)과 인공지능(AI), 빅데이터 분석이 여전히 화력을 잃지 않고 있다. 채용 및 연봉 관련 사이트에서 살펴보면 데이터분석과 관련된 연봉은 상당히 높은 수준으로 치닫고 있다. 참고로 미국의 임금자료 통계를 살펴보면, 2019년 경영정보분석가(Business Intelligence Analysts)의 미국 내 평균 연봉은 $94,280 수준이다. 실리콘벨리가 있는 캘리포니아는 무려 $105,980으로 나타났다.
정말 '억' 소리 나는 연봉이다. 그래서일까? 최근 유튜브에서 데이터과학자와 관련된 컨텐츠를 쉽게 찾아볼 수 있다. 특히, 데이터과학자의 연봉, 주요 업무, 커리어 관리 등등이 주된 주제로 엄청나게 많은 양의 정보가 생산되고 있다. 뿐만인가? 전 세게 주요 대학에서는 비즈니스 애널리틱스(Business Analytics) 석사과정을 신설하고 학생 유치에 심혈을 기울이고 있으며, 빅데이터 분석, 정보분석, 머신러닝, 인공지능과 같은 키워드의 전공 과목이 늘어나고 있다. 구글에서 Business Analytics를 키워드로 검색해보면, 이름만 들어도 알 수 있는 대학부터 잘 알려지지 않은 교육기관 등 엄청난 교육과정을 확인할 수 있다.
"왜 데이터 분석이 뜨게 된 것일까? 지금의 이 열풍은 왜 시작된 것일까? 그리고 데이터 분석, 데이터 과학과 같은 키워드는 도대체 무엇일까?"
이 같은 질문을 해결하기 위해선 먼저 데이터란 무엇인지, 데이터 분석은 왜 등장했는지와 같은 기본적인 것들에 대해 알아야 한다.
데이터(Data)는 무엇인가?
학술적, 사전적으로 데이터에 대한 설명은 굉장히 진부하다.
자료, 재료, 논거라는 뜻의 'datum'의 복수형(두산백과).
이 글에서 학술적인 정보를 전달할 생각은 없고, 현재 "데이터과학자"라는 직함을 달고 다니는 한 연구자로써 그 동안의 경험을 기반으로 좀 쉽게 설명해 보고 싶다.
사실, 데이터는 갑자기 나타난 것이 아니다. 우리의 삶, 자연 현상, 사회적 활동 등 모든 것들에 데이터는 존재한다. 데이터는 인간에 의해 관측된(Observed) 또는 기록된(Recorded) 모든 것들을 의미한다. 다시 말하자면, 대학생이 강의 과제를 위해 설문조사를 설계하고 이를 동기들에게 돌려서 회수된 설문지도 데이터이고, 생태학자가 꿀벌의 생태계를 연구하기 위해 꿀벌의 생태를 기록한 것도 데이터이다. 백종원씨 같은 요리 연구가가 새로운 메뉴를 개발하기 위해 매 조리마다 투입한 설탕의 계량값을 기록하는 것도 데이터이고, 지금 내가 이 글을 쓰기위해 들이고 있는 시간과 노력도 데이터라고 할 수 있다. 우리는 모두 데이터를 만들어 내고 살고 있거나, 데이터를 관측하면서 살고 있다. 인간의 경험(Exparience)과 비슷한 의미로 쓰여도 사실 무방할 것 같다. 그런데 내가 생각하는 경험과 데이터의 차이는 다음과 같다.
1. "어떠한 형태로든 정확하게 복원 할 수 있도록 기록이 되어 있는가?"
데이터는 관측과 기록의 산물이다. 물론 실제 연구자들은 어떤 실험을 설게하고 데이터를 수집할 때 기록이라는 표현보다는 관측이라는 표현을 쓴다. 실제로 엑셀과 같은 스프레드 시트 형태의 한 줄 한 줄을 관측이라는 표현을 쓰는 이유는 기록이 전제되어 있기 때문이다. 아무튼 우리는 살면서 수많은 경험을 한다. 마트를 가서 장을 보면서 상품의 가격을 살피기도 하고, 어떤 상품을 구매 할지 선택을 하기도 하며, 장바구니가 총 얼마나 결제되었는지 영수증을 손에 쥐게 된다. 하지만, 이러한 경험들을 정확하게 기록을 하는 행위, 가게부를 정리하지 않으면, 내가 도대체 어디서 얼마를 쓰고 다니는지, 왜 내 월급이 통장 냄새만 맡고 달아나는지 알 수가 없게 된다. 만약, 나의 재정 상태를 알고 싶다면, 어떤 형태로든 내게 들어오는 돈과 내개서 나가는 돈의 흐름을 기록을 하고 살펴야 한다. 이 행위가 데이터를 만들어 내는 행위인 것이다.
사람의 경험과 기억력도 사실 중요한 데이터가 될 수 있다. 간혹 엄청나게 기억력이 좋은 사람들 중에 내가 쓴 돈, 읽은 책, 경험한 모든 것들을 완벽하게 복원 할 수 있을 정도로 기억하는 사람이 있기도 하다. 그리고 반복된 전문적 활동이 몸에 체득되어 항상 같은 결과를 반복할 수 있는 전문가도 존재한다.
예를 들어 30년 이상 제육볶음을 만든 요리사가 점심 장사 준비를 위해, 고기를 재울 때 설탕을 넣는 양을 기억한다고 해보자. 30년 동안 반복되면서 체득된 요리사의 경험은 언제나 그 만의 특별 양념을 정확하게 재현할 수 있을 것이다. 그렇다면 이 것도 데이터라고 할 수 있는 것 아닐까? 레시피 데이터. 물론 그럴 수 있다. 그런데 나는 이러한 것들은 경험과 학습의 산물이라고 생각하고, 데이터라고 인정하진 않는다. 왜냐하면, 정확히 기록이 되어 있지 않기 때문이다. 왜 이렇게 기록에 집착해야 하는 것일까?
그 이유는 데이터라는 녀석이 경험과 다른 두 번째 차이점 때문이다.
2. "데이터는 기록을 전제로 과학적(또는 논리적) 분석을 할 수 있어야 한다."
나는 모든 데이터가 기본적으로 분석을 위해 존재 한다고 생각한다. 앞서 예를 들었던 요리사의 제육볶음 레시피는 훌륭한 경험적 지식의 산물이다. 하지만, 개인의 기억과 경험에서 축적된 지식은 과학적 분석을 통한 논리적 정보를 생성이 어렵다. 조금 쉽게 설명해 보자.
요리사가 한창 식당을 운영하는데 어느날 부터인가 자꾸 "제육볶음이 좀 싱겁다."는 고객의 평가가 발생했다. 분명 똑같은 레시피에 똑같은 조리방법을 틀림없이 수행하고 있는 요리사인데 그 이유를 알 수가 없다. 아무튼 싱겁다는 평이 많아져서 레시피의 소금양을 조금 늘려봤더니 다시 고객들이 만족을 했다. 그런데 또 시간이 지났더니 이번에는 "좀 짜다."는 평이 생겼다. 어쩔 수 없이 다시 레시피에 변화를 줬다. 사람들의 입맛이 변하는 걸까? 이렇게 된 원인을 찾기 위해서 요리사는 거래처의 소금이 문제인가 확인해 보기도 하고, 단골 손님에게 원인을 물어보기도 하는 등 노력을 했다. 하지만 쉽게 원인을 찾을 수가 없었다. 그렇게 시간이 흐르다 보니 사람들이 싱겁다고 하는 시점이 여름이 되서 더울 때이고, 다시 좀 짜다는 평이 많아지는 시점이 겨울인 것을 몇 년 더 지나 알게 되었다. 30년 요리 경력 최고의 노우하우를 얻게 된 것 같다.
사람들은 더운 여름에 땀을 많이 흘리고 물을 많이 마시면서 약간 짠 맛을 찾는다.(관련정보) 그런데 이 요리사는 이런 정보를 오랜 장사를 통해 경험적으로 확인한 것이다. 훌륭한 지식이다. 그런데 만약 이 요리사가 매일 만드는 양념장의 투입된 모든 레시피를 정확히 계량해서 기록해 놓았다고 가정해보자. 사람들이 싱겁다라고 피드백을 주는 시점에 본인의 레시피 기록을 찾아볼 것이다. 다른 변화가 없는데 사람들이 싱겁다라고 하니 어쩔 수 없이 레시피의 소금양을 살짝 늘렸다. 다음 날부터 소금양에 대한 기록이 변화했을 것이다. 이러한 기록을 보면서 요리사는 기상청에서 매일매일의 하루 평균 기온을 함께 기록을 해보기 시작했다. 그리고 그것을 엑셀로 저장하고 다음과 같은 차트를 그려 보았다.
잘은 모르겠지만, 6월부터 평균기온이 오르다가 8월 즈음 되서 많이 올라가는 것 처럼 보이고, 9월부터 다시 서늘해 지니 투입된 소금의 양이 줄어드는 것처럼 보였다. 아무튼 사람들이 더운날씨가 계속되면 조금 더 짜게 먹고 싶어하는 것 같다는 것을 그간의 기록을 통해 확인할 수 있었다.
물론, 위의 데이터는 이해를 돕기 위해 그려본 가상의 데이터이고(날씨는 기상청 서울지역 평균기온 정보) 가상의 이야기이다. 하지만, 위와 같은 에시에서 우리는 데이터가 경험과 다른 점을 충분히 유추해 볼 수 있다.
즉, 데이터는 이를 활용해서 어떠한 과학적인 분석을 수행할 수 있는 자료이다. 요리사가 자신의 경험과 기억에만 의존해서 "내가 30년 동안 제육볶음 팔아봐서 아는데, 여름에 좀 더워지면, 소금을 조금 더 넣어야해!" 라고 말 할 수는 있다. 하지만, 데이터를 활용하면, 앞 선 예시처럼 시각화(Visualization)를 통해 보다 과학적이고 논리적인 근거를 제시할 수 있다. 물론, 데이터 분석가가 이 데이터를 본다면, "평균기온과 소금량의 상관관계가 유의미한가?"와 같은 추가적인 분석을 수행 해 볼 수도 있을 것이다.
결국 데이터는 인간의 사회나 자연 세계에서 일어나는 활동 및 현상들에 대한 '기록'이라고 볼 수 있고, 이러한 기록을 통해 어떤 분석을 시도할 수 있는 '재료'라고 정의해 볼 수 있다.
안녕하세요 스팀잇 세계에 오신것을 환영합니다.
저는 여러분이 스팀잇에 잘 적응 할 수 있도록 응원하고 있습니다.
이 포스팅을 한번 끝까지 읽어보시고 STEEMIT-초보자를위한 가이드
혹시나 궁금하신 내용이 있으면 언제든 저 혹은 @ayogom, @jungjunghoon, @powerego, @tworld, @dorian-lee, @bluengel, @bitai, @kinghyunn, @maikuraki, @hiyosbi, @nasoe, @angma, @raah 님께 댓글 주시면 친절하게 알려드리겠습니다.
카카오톡 방에서 궁금한 점도 한번 해결해 보세요. 많은 스팀잇 경험자 분들께서 언제나 궁금한 부분을 즉시 해결해 주실 것입니다. 카카오톡 대화방 바로가기 패스워드(1004)
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit