My first post—— word cloud visualization

in cn •  7 years ago  (edited)

  abstract : The 19th of the party report word cloud visualization

Why make "word cloud"? The most common way to analyze textual content is to extract the words in the text and count the frequency. Frequency can reflect the importance of words in the text. Generally speaking, the more important words appear in the text more frequently. Word extraction, you can also make a word cloud, the frequency of the word attribute visualization, more intuitive and clear.

中国共产党第十九次全国代表大会(简称党的十九大)于2017年10月18日至10月24日在北京召开。 2017年10月18日上午9:00,中国共产党第十九次全国代表大会在人民大会堂开幕。习近平代表第十八届中央委员会向大会作了题为《决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利》的报告。 这次大会的主题是:不忘初心,牢记使命,高举中国特色社会主义伟大旗帜,决胜全面建成小康社会,夺取新时代中国特色社会主义伟大胜利,为实现中华民族伟大复兴的中国梦不懈奋斗。

十九大报告词云可视化

为什么要制作“词云”? 要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。

根据词频统计结果显示报告中,“党”和“人民”分别被提及203、198次、成为出镜率最高的词汇;紧随其后是被提197次的“发展”。此外,发展 中国 建设 社会主义 坚持 社会 国家等词汇都被提及100次以上,同样登上词云热词榜。

代码实现(R语言):

library(rJava) 
library(Rwordseg)
setwd("F:China")##设置目录,需要读者手工调整
comdata=read.csv("BG_csv.csv",stringsAsFactors = F)#
View(comdata)#查看前两条数据
segmentCN(comdata$正文) ##对第1个评论进行分词
####导入自定义词库
installDict("自定义词汇.scel", dictname ="finwords")
#删除数字和字母
com_dataTemp =gsub("[0-9#<> ~a-z]","",comdata$正文)
#分词
com_dataseg=segmentCN(comdata$正文)##对所有评论进行分词
#去停词
stopwords= read.csv("stop_words_zh_UTF-8.csv",stringsAsFactors=F)
#逐行删除停用词函数
removeStopWords = function(x,words)
{
 ret = character(0)#空变量,用于存储词汇
 index = 1 #循环起始点
 it_max = length(x) #测量一行词汇的数量
 while (index <= it_max) { #条件判断:如果不是停用词 if (length(words[words==x[index]]) <1) { #把该词记录下来 ret = c(ret,x[index]) } index = index +1 #下一个 } return(ret) #返回非停用词 } #逐行调用函数removeStopWords com_dataseg_clean =lapply(com_dataseg,removeStopWords,stopwords) 
myfile.freq = table(unlist(com_dataseg_clean))##计算各个词汇的出现频次 
myfile.freq = rev(sort(myfile.freq))##对词频排序 #构造词汇和词频的数据框 myfile.freq =data.frame(word=names(myfile.freq),freq=as.vector(myfile.freq),stringsAsFactors = F) # write.csv(myfile.freq,file="myfile_freq.csv") #导出词频最高的100个词 top100=head(myfile.freq,100) #载入词云包,建议用RStudio的最新版本 library(wordcloud2)##install.packages("wordcloud2") #wordcloud2绘图 #help("wordcloud2") # wordcloud2(top100,size=2,minRotation = -pi/2,maxRotation = -pi/2) china_png<-system.file("examples/china_1.png",package = "wordcloud2") wordcloud2(top100,figPath=china_png,size=0.6,minRotation = -pi/2,maxRotation = -pi/2,fontFamily = "微软雅黑",color = "random-light", backgroundColor = "black") #(完)

Top20关键词

这次大会的主题是:不忘初心,牢记使命,高举中国特色社会主义伟大旗帜,决胜全面建成小康社会,夺取新时代中国特色社会主义伟大胜利,为实现中华民族伟大复兴的中国梦不懈奋斗。

报告中的39次鼓掌

第1次鼓掌:反腐斗争形成压倒性态势。 

第2次鼓掌:清除了党内重大隐患,为党提供了坚强的政治保障。 

第3次鼓掌:对全国人民、香港、澳门、台湾同胞,海外侨胞表示感谢。 

第4次鼓掌:中国以全新的姿态屹立于世界东方。

 第5次鼓掌:为人类社会做出更大的贡献。

 第6次鼓掌:让中国特色社会主义展现强大生命力。 

第7次鼓掌:我们党创造了一个又一个彪炳史册的奇迹! 

第8次鼓掌:我们党创造了伟大目标。 

第9次鼓掌:清除一切侵害肌体的病毒,确保我党旺盛的生命力!

 第10次鼓掌:凝聚同心共筑中国梦的磅礴力量! 

第11次鼓掌:形成了新时代中国特色社会主义思想。

 第12次鼓掌:依靠人民创造历史伟业!

 第13次鼓掌:社会长治久安,人民安居乐业。 

第14次鼓掌:为全球安全做出重大贡献。 

第15次鼓掌:实现党在新时代的强军目标。

 第16次鼓掌:坚决反对分裂势力,坚持全国统一的目标。 

第17次鼓掌:坚持从严治党,保持党和人民的血肉联系。 

第18次鼓掌:更强大、更有说服力的力量。(鼓掌时间超过10秒了) 

第19次鼓掌:把我国建设成社会主义现代化国家。 

第20次鼓掌:全面治理生态污染,要经得起历史检验。 超越美国:再坚持15年,我们要走在世界创新型国家前列! 

第21次鼓掌:美丽中国目标基本实现。 

第22次鼓掌:中国将以更加昂扬的姿态屹立在世界民族之林。 

第23次鼓掌:社会主义征程新篇章。 

第24次:弘扬劳模、工匠精神。 

第25次鼓掌:爱农业、爱农村、爱农民! 

第26次:实现更高质量、更有效率、更可持续的增长。 

第27次鼓掌:巩固我国团结安定的局面。 

第28次鼓掌:各级党委要接受人民监督,当好人民公仆。(各级党委!!!) 

第29秒鼓掌:禁止任何人凌驾于宪法,禁止任何人以言代法、徇私枉法。 

第30次鼓掌:为人类政治进步做出充满中国智慧的贡献。(毛主席一直追求的理想[微笑]) 

第31次鼓掌:不断铸就中华文化新辉煌。 

第32次鼓掌:让中华文化展示永久魅力和时代风采。(居然,两次提及中华文化) 

第33次鼓掌:培育一批讴歌党的文艺作品;在历史进步中实现文化进步! 

第34次鼓掌:鼓励更多农村青年实现高中教育,更多人实现高等教育;大幅提高国民素质! 

第35次鼓掌:取缔非法收入;缩小收入不均衡差距。(之前是缩小贫富差距[呲牙]) 

第36次鼓掌:坚持房子是用来住的,不是用来炒的。(鼓掌超过15秒,最高潮) 

第37次鼓掌:精准扶贫。 第38次鼓掌:脱真贫,真脱贫。(我是真贫,快来帮我脱贫)[呲牙] 

第39次鼓掌:医养结合,加快养老产业发展。 


那么你最关心什么问题呢? 

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!