<데이터분석과정 수강기> #3 트위터크롤링

in kr-science •  7 years ago  (edited)

#2 에서 이어짐
안녕하세요, 데이터분석 뉴비 @islandvibes입니다. 데이터분석을 하려면 일단 데이터가 있어야 하지 않겠어요. 그리고 트잉여라면 당연히 트위터를 긁어보고 싶지 않겠습니까


두번째, 크롤링(트위터)입니다.

제가 쓸 패키지로는 모든 트위터를 긁어올 수는 없고 일주일쯤이었나.. 주는대로 잘라서 받아올 수 밖에 없었습니다.
(streamR패키지로 streaming API를 쓸 수 있는 방법도 있긴 했지만 어차피 제가 원하는 결과를 내기 위해서는 대략 긁어오면 되니 여기서는 아래의 패키지로 진행합니다.)

진행하기 전에 OAuth 설정이 필요합니다. 키값을 받아오기 위해서인데요, 계정이 있으셔야 되고
generating a token 을 따라하시면 됩니다. createnewapp을 누르시고 적절히 항목을 채워주시면 됩니다.



준비가 되셨으면 R로 돌아와서 쓸 라이브러리를 불러옵니다.
없으시면 install.packages()해주시면 됩니다.
library("twitteR")
library("ROAuth")
library("base64enc")

아까 받아둔 키를 넣고(각각 ""사이에 넣어줍니다.)
consumerKey <- ""
consumerSecret <-""
accessToken <-""
accessTokenSecret <-""

아래와같이 설정을 해줍니다. 뭐가 뜨면 1번 누르고 엔터
setup_twitter_oauth(consumerKey, consumerSecret, accessToken, accessTokenSecret)

그 다음엔 원하시는 걸 긁어오면 되요. 나의 마음을 긁어온다든지, RT를 긁어온다든지
제가 쓸 라이브러리 자세한 설명은 여기있으니 원하시는 걸 해보시면 되고 일단 저는 특정 키워드를 포함한 트윗을 긁어보았습니다.

#'원달러'표시가 안되서 이미지로 붙였습니다....
bigdata <- searchTwitter(searchString=keyword1, n=30000, lang="ko", since = '2018-02-09')

긁어온 것 중에 텍스트컬럼만 저장합니다.
tweets.df <- twListToDF(bigdata)
text <- tweets.df$text

이것저것 힘들었으니 한번 끊어갑시다. 다음시간의 목표는 워드클라우드입니다.
save(text, file="twitter.Rdata")

저장! 다음에 로드해서 이어서 쓰면 되요.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 1 year!

Click here to view your Board

Support SteemitBoard's project! Vote for its witness and get one more award!

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 2 years!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Vote for @Steemitboard as a witness to get one more award and increased upvotes!