手把手:R语言文本挖掘和词云可视化实践

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

手把手:R语言文本挖掘和词云可视化实践

小旋风柴进 2017-05-02 21:19:00 浏览1987
展开阅读全文

互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个初步尝试。飞信群是我们在工作、生活中交流的重要平台,在将近一年的时间里共产生了几万条的聊天记录,展现了我们这个团队的方方面面。


本文将通过KNIME、R语言和tagxedo三个工具来实现文本挖掘和词云可视化技术,体验一下舆情分析的魅力。


一、数据导入

数据源:201410—20157月的飞信群全部聊天记录:

0?wx_fmt=png

图一 原数据示例


通过KNIME进行原始聊天记录文件的结构化转换,提取文件中发言人、发言时间和发言内容三个字段,并保存为csv文件。

0?wx_fmt=png

图二 KNIME的流程


R语言的语句:

log <- read.csv('feixin.csv', sep=","





















网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属团队号: 大数据文摘