[스몰데이터 #2] 떡락장이 온다는 징조가 있을까? (2)

in small-data •  7 years ago  (edited)

안녕하세요, 행복한카피바라입니다.
스몰데이터의 두 번째 주제는 '떡락장이 온다는 징조가 있을까?'입니다.
smalldata_2.jpg
어제 아침과 낮 사이에 최저점을 찍길 바랬지만 저녁에 더 밑으로 기어들어가다니. 하필!! 술약속 때!! 차트 못 보는 시간에!! 아쉽습니다 증말. 물론 저 혼자 바라던 떡상은 어제와 같이 찔끔 올라온 걸 의미했던 게 아닙니다! ㅎㅎ

뉴스 기사 분석

뉴스 기사의 총 개수는 5863개입니다.
뉴스 기사 데이터 중 간략하게 한 예시를 들어볼게요.
2018년 1월 31일, 비트코인을 다루는 기사가 뉴스1에 올라왔습니다.

이 데이터에서 끌어 올 정보는 이전에도 언급했듯이 제목, 기사 입력 시간, 최종 수정 시간입니다.

제목기사 입력 시간최종 수정 시간
올 1월, 비트코인 사상 최악의 한 달 될 듯2018.01.31 오후 5:262018.01.31 오후 5:31

제목으로 긍정/중립/부정을 따질 건데요, 현재 감성 사전을 따로 구축하지 않았기 때문에 1000개를 이용하여 트레이닝 결과와 수작업 결과를 비교한 후, 나머지를 자동으로 분류하도록 만들겠습니다.
이후 각 날짜마다 기사들의 긍정/부정 개수들을 비교해보고, 가장 긍정적이었거나 부정적이었을 때의 날짜와 차트를 비교해보겠습니다.

그럼 이제 제목을 전처리해보도록 하겠습니다. 전처리에 사용된 패키지는 KoNLPy와 꼬꼬마 형태소 분석기입니다. 명사만을 추출한 결과는 다음과 같습니다.
['올', '1', '1월', '월', '비트', '비트코', '코', '사상', '최악', '달', '듯']
꼬꼬마 형태소 분석기에서는 아쉽게도 '비트코인'이란 단어를 명사로 인식하지 못하였습니다. 이외에도 코인 이름이나 거래소 이름들을 제대로 인식하지 않습니다. 다행히 꼬꼬마 형태소 분석기는 사용자 사전을 구축할 수 있게끔 합니다.
참고로 전처리할 때 주로 사용하는 방법으로는 n-gram이 있습니다. n은 숫자를 뜻하는데, 1이면 유니그램(unigram), 2이면 바이그램(bigram), 그리고 3이면 트라이그램(trigram)이라고 합니다. 보통 3까지 사용하며, 그 이상은 개체명 인식에 사용될 수 있습니다. 유니그램은 단어 하나, 바이그램은 단어 두 개를 묶어 하나의 단어로 둡니다. 예를 들어 '뻥이요 골드'라는 과자가 있을 때, 유니그램은 '뻥이요', '골드'로 각각 보겠지만 바이그램은 '뻥이요 골드'로 묶어 보는 것입니다.
한글 전처리를 할 때마다 아직 갈 길이 너무 멀구나라는 생각이 들면서도, 그만큼 뽕(?)뽑을 수 있겠구나라고 안도(???)하기도...ㅎㅎ
명사는 총 2376개가 나왔으며, 이때 한 글자와 숫자를 포함한 단어는 모두 제외하였습니다. 또한 '비트코인', '비트코', '비트' 등 한 단어를 지칭하는 여러 단어들을 통합하지 않았습니다. 이유는.... 걍 빨리 넘어가는 걸루..

단어 빈도수 TOP15

Zipf의 법칙에서는 가장 높은 빈도수를 가지는 단어들은 스킵해야 한다고 보았습니다. 그러나 데이터의 수가 적기 때문에, 제외하는 단어의 비중을 크게 높이지 않아도 된다고 판단하므로 상위 1%와 3%를 각각 똑 뗀 표를 보여드릴게용.
뉴스기사단어빈도수.PNG
(단위: 개)

  • 상위 1% 제외 차트: 동연쓰와 대제쓰가 엄청 핫했군요. 김동연님은 현 경제부총리 겸 기획재정부 장관이시며, 진대제님은 블록체인협회 초대 회장이십니다.
    또한 거래소 해킹도 많이 언급되었습니다. 위메프, 네이버 등과 같은 기업의 암호화폐 시장 문 두들기기도 언급되었네요.
  • 상위 3% 제외 차트: 꽤나 부정적인 단어들이 보이네요. 피해자, 투기, 중단, 범죄 등등. 언론이 앞장서서 암호화폐의 부정적인 면을 보여주고 있는 것일까요?

뉴스 기사 빈도수
이걸 다음 장에다 적을까 말까 고민하고 있었는데... 일단 여기다 작성하겠습니다.
날짜 흐름에 따라 뉴스 기사가 언제 많이 나타나고, 혹은 줄어드는지 확인해보았습니다.
뉴스기사빈도수.PNG
(단위: 개)
화살표로 가리키는 부분은 12월과 1월에 각각 톡톡 쏘는 부분입니다. 억지를 부린다면 12월의 뉴스 기사 빈도수 흐름이 1월로 들어서 유사한 흐름을 보이지만 뭔가 더 펌핑이 엄청나진 듯한 느낌?
뉴스기사관련차트.PNG
뉴스 기사가 급상승하는 날에는 차트가 떨어지고 있고, 두 번째로 다시 급상승하는 날에는 차트가 상승하고 있습니다.

다른 날짜도 같이 비교해보고 싶은데 지금 넘나 졸려서 분석은 여기까지 하고 글을 빨리 마치겠습니다. ㅠㅠ
제대로 글을 적었는지도 모르겠네여 ㅠㅠ 흑 죄송 ㅠㅠ

다음 장에서는 감성 분석을 중점으로 다룰 예정입니다!

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

좋은 분석 감사합니다
팔로우 보팅하고 갈께요
저희 맞팔해요!!

안녕하세요 @philipjeong님 감사합니다!ㅎㅎ

뭐 이유야 어찌되었건 좀 더 지나서 스팀 우상향하시길 바래봅니다!

이번 2월도 혼돈의 카오스가 되지 않을까 싶습니다만ㅠㅠ.. 이번달의 고점이 다음달의 저점이었으면 좋겠습니당 ㅎㅎ