- 스몰데이터란? [스몰데이터] 프롤로그
- 이전글 목록
안녕하세요, 행복한카피바라입니다.
스몰데이터의 세 번째 주제는 '블록체인 기술과 관련된 연구들을 알아보자!'입니다.
오늘!! 지난 2달간 찍은 사진들을...!! 사진소에 전달하였습니다 둑흔둑흔 설리설리
간 김에 필름도 몇 개 구입해두었습니다 홍홍 사진이 어떻게 나올지 증말증말 기대됩니다용~.~
수집된 총 데이터 수는 819건입니다. 이전 장에서 제목과 내용만 본다고 했던 걸로 기억하는데, 나라도 추가하여 보겠습니다.
나라별 게재 분석
어느 나라에서 연구가 주로 이루어지고 있을까요?
총 64개의 국가가 표시되어 있습니다. 나머지 130개의 국가는 [Undefined]라고 나타나네요.
미국이 170건으로 전체 나라 중 게재 1위이며, 그 다음으로는 중국, 영국순입니다.
한국은 14위에 랭크되어 있습니다.
키워드 분석
그럼 어떤 키워드들이 주를 이루고 있을까요?
키워드는 크게 두 가지 방법으로 나누어서 가져왔습니다.
저자 키워드
저자 키워드는 총 1548건이 등장하였습니다.
왼쪽 표는 상위 15개의 키워드들을 순위별로 정리한 것이고, 오른쪽 표는 상위 2%를 제외한 나머지 키워드들 중 15개를 뽑은 것입니다.
오른쪽 표 중 'dlt'는 'distributed ledger technology'의 약어입니다!
참고로 모두 소문자인 이유는 전처리할 때 중복 문자들을 고려하여 모두 소문자로 수정한 뒤 돌려서입니다용 ㅎㅎ
제목+초록 키워드
이번에는 저자 키워드가 아니라 제목+초록에서 뽑은 키워드들을 한번 볼게요.
저번 주제에서 잠깐 언급했던 n-gram을 사용해서 전처리하였는데요, 그중 bigram을 사용하였답니당.
그래서 단순히 'blockchain'이라는 단어가 나오는 것이 아닌, 'blockchain technology'를 한 단어로 보고 같이 나오게 하였습니다.
이때 전처리는 stemming + lemmatization + stopword removal하였습니다.
최소 16000개 이상의 단어들이 등장하였구요, 이번에는 상위 1% 제외 단어들과 상위 3% 제외 단어들을 볼게요.
참고로 단어들의 뒷부분이 잘려 있는 이유는 전처리하였기 때문에 나타난 현상입니다.
우선 상위 1% 제외 단어들을 본다면... 프로토콜 얘기도 나오구요, 보안, 관리 이런 내용들도 간간이 보입니다.
상위 3% 제외 단어들에서는 비즈니스 모델, 데이터, 소셜 네트워크 , 임상 이런 쪽도 나오는군요.
지금까지는 단순히 빈도수만 비교하였으니, 이번에는 TF-IDF 결과를 보여드릴게요!
TF-IDF란 어떤 한 단어가 특정 문서에서 얼마나 중요한 지를 보여주는 값인데요, 자세한 내용은 위키백과를 참고하는 걸로! ㅎㅎ (TF-IDF)
사실 단어들의 각 문서에 따른 TF-IDF를 모두 더해도 될지 엄청나게 고민을 했는데요, 딱히 상관없다는 똑똑한 분(ㅎㅎ언젠간 이 글을 볼 수도 있으니까ㅎㅎ안뇽안뇽)들의 말씀 덕에 아주 쿨하게 더해버렸습니다.
TF-IDF TOP20을 보면, 의외로 smart contract의 값이 2번째로 높습니다. IoT도 꽤 순위가 높고, 암호화폐는 당연히 높고, 보안쪽도 이야기가 나오고 있네요.
토픽 모델링 분석
토픽 모델링 중 가장 기본적인 분석 방법인 LDA(Latent Dirichlet Allocation)를 사용하여 데이터들을 분석해보았습니다,
LDA란 간단하게 말하자면 여러 문헌 속에서 숨겨져 있는 주제를 찾아내는 기법입니다.
제가 누군가를 가르칠 레벨이 되지 않기 때문에(ㅠㅠ) LDA에 대한 자세한 설명은 이 페이지를 참고해주세요! (Topic Modeling, LDA)
외람된 말이지만 전 이 분의 글들을 정말정말 좋아한답니당. ㅎㅎㅎㅎㅎ
파이썬에는 LDA를 다루는 패키지들이 꽤 있는데요, gensim과 sklearn 둘다에서 사용해본 결과 sklearn에서 좀더 결과가 괜찮게 나오므로 요 결과를 보여드리겠습니다.
LDA는 주제를 뽑아줄 뿐, 어떤 주제라고는 명시하지 않기 때문에 연구자가 직접 단어들을 종합적으로 본 뒤 주제를 판단해야 합니다. 이때, 주제 전문가가 있으면 매우 좋겠지만 지금 현 상황에서는 아주 슬쩍 짚고 넘어가는 것이기 때문에 결과를 본 후 각자가 생각해주시면 감사하겠습니다.
- 반복횟수: 100번, alpha값: 0.1
- 토픽 수: 5, 토픽 내 단어 수: 10
- perplexity: 704.934341261 / score: -78821.8599748
Topic 1 | Topic 2 | Topic 3 |
---|---|---|
third_parti | ledger_technolog | peer_peer |
thing_iot | privat_blockchain | iot_secur |
financi_servic | signatur_scheme | distribut_system |
peer_peer | p2p_network | block_chain |
base_blockchain | consensu_protocol | internet_thing |
busi_model | blockchain_protocol | use_blockchain |
blockchain_base | blockchain_system | base_blockchain |
internet_thing | proof_work | secur_privaci |
use_blockchain | blockchain_technolog | energi_internet |
blockchain_technolog | comput_power | blockchain_technolog |
Topic 1: share, IoT, p2p 등이 나오는 걸 보아 서로 상호소통하는 걸 주제로 삼는 듯합니다.
Topic 2: Ledger technology도 나오고, protocol도 나오고, 아마 기술에 대한 주제이지 않을까요?
Topic 3: '블록체인 기술' 자체와 보안에 대한 주제네용.
Topic 4 | Topic 5 |
---|---|
smart_citi | blockchain_technolog |
bitcoin_exchang | third_parti |
internet_thing | bitcoin_mine |
inform_system | digit_currenc |
network_secur | peer_peer |
use_blockchain | bitcoin_transact |
social_network | access_control |
special_focu | bitcoin_network |
discuss_includ | suppli_chain |
big_data | bitcoin_blockchain |
Topic 4: information, data 등 정보에 대한 내용이며, social network나 network security와 같이 네트워크도 다루고 있습니다.
Topic 5: 비트코인에 대한 주제네요! mining, transaction 등등을 키워드로 뽑았습니다.
자세히 보시면 봤던 단어들이 또 나오고, 다른 곳에서도 나오고 하는 광경을 볼 수 있는데요, 요런 이유는 이 친구들이 서로서로 다 연관되어 있고 중요하기 때문에 여러 번 등장하는 것입니다.
데이터의 수가 너무 적어 결과가 만족스럽게 나오지 않았습니다. 역시 빅데이터가 아닌 스몰데이터답다... 그만큼 블록체인 기술은 신기술이고 아직까지도 수많은 연구가 진행중이기 때문에 더더욱 발전 가능성이 있지 않나 싶습니다.
오늘은 여기까지만 다루는 걸로 하고, 다음 장에서는 동시출현 단어들과 word2vec으로 분석한 결과를 보여드리겠습니다!
그나저나 우리 비코가 또 밑을 찍고 있네요. 또 한번 물타기해줘야겠습니다 후 ^_^...
저도... 짱짱맨 태그 걸어보고 싶었어용.. 짱짱맨 안뇽안뇽.. 꺅
분석이 완료되는 대로 분석 및 결과 업로드 예정입니다!
유의미한 분석이라고 생각합니다! 이렇게 양질의 글에 보팅이 적어서 아쉬워요. 혹시 실례가 안된다면 다른 분들께 추천해도 될까요 :D
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
헉 저야말로 영광이에요 ㅎㅎ 감사합니다!!
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
^^ 즐거운 스티밋!!!
짱짱한 레포트^^ 한번 보세요 으쓱으쓱~
https://steemit.com/kr/@newiz/2256t9
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
정보 감사합니다! ㅎㅎ
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
정성스러운 글이 너무 조용해서 보팅 하러 왔습니다.^^ 스몰데이터라는거 특별한게 아니라 빅데이터라고 하기엔 샘플이 너무 적어서 그런건가요?
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
보팅 감사합니다! ㅎㅎ 넹 샘플이 적은 이유도 있고, 빅데이터라고 하면 뭔가 엄청난 결과가 나와야 할 것만 같은데 그러기엔 내용이 너무 소소해서 스몰데이터라고 작명하였습니다 ㅎㅎㅎ
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
ㅋㅋ 그렇군요. 회사에서 빅데이터 관련 프로젝트를 진행할것 같은데 빅데이터 강좌같은건 안하시나요?
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
저도 아직 공부하고 있는 입장이라...ㅎㅎㅎㅎ
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit