ITTC数据挖掘平台介绍(三) 微博社团和传播分析

  1. 云栖社区>
  2. 博客>
  3. 正文

ITTC数据挖掘平台介绍(三) 微博社团和传播分析

长征6号 2017-02-28 12:39:00 浏览640
展开阅读全文

微博社团分析和传播分析是一种重要的微博研究手段,对社会关系和传播学研究都有重要的意义。

零. 最新进展

     距离上次的发文已经有几个月之久,一方面,软件通过抽象了微博接口,提供了对新浪,腾讯,网易微博的直接支持,算法只需对接口层进行开发,而不需考虑实际面向何种微博。另一方面,软件和Hadoop的互操作功能大大增强,通过WEBService实现互操作,同时实现了GPU的CUDA框架的互操作功能。目前正在开发基于MongoDB的图数据库接口层,顺便吐槽一下,Neo4j又慢又臭。

一. 微博用户社团分析

      用户社团关系分析是一种重要的社会群体研究手段,它展现了不同用户间的关系,并通过智能算法,对用户进行分组,并找出核心用户节点。软件内置了该功能。通过不同的评级算法,通过聚类和布点可视化呈现,在画布中绘制用户关系网络。

     目前,关系分析类型分为两类:

  •  按照用户真实关系分组,通过分析用户的好友数量,地理位置和一些其他信息,可展现真实社交网络的布局特点
  •  按照用户兴趣和标签分组:通过分析用户有代表性的微博,对其进行自然语言处理和文本特征提取后,确定该用户的主要兴趣点,并添加标签。

1.  按照用户关系分组

下面,我们以姚晨为例,按照用户真实关系分组的方案,对其600多位好友做社群关系分析,整个计算过程需要约一分钟,结果如图所示:

clip_image002

通常而言,名人很少添加陌生人节点,因此在社群图上体现出极少的孤立节点。两个大的社群(100多位用户),其中左边的放大图如下:

image

该社群主要以关注媒体的用户为主,例如罗永浩,南方都市报和新京报等。

再看一个小类:该类仅有六个用户,但清晰的表明了姚晨的一个爱好,书画鉴赏和一些好玩的东西,风之子,庄无邪等都是与书画艺术有一定关系的。

image

还有一些小类,例如下图所示,和上图类似,介绍从略。

image

2. 按照兴趣分组

按照兴趣分组时,将不考虑实际用户的关系,仅通过微博内容作自然语言处理分析得出结论。下面介绍一个典型案例:著名天使投资人,关注SNS数据挖掘创业的王煜全:

image

对该图进行放大,以其中的一个社群为例,如下图所示,可明显发现,这些用户都普遍关注科技和互联网创业等内容。将鼠标放在用户的节点上,可查看该用户的标签。

由于用户的话题千差万别,微博内容极其多变,对兴趣进行聚类绘图后,很难利用机器为不同社群的特性打标签,例如分析某社群都喜欢科技或娱乐等。这是一个难点,我们也在努力解决这个问题。

image

同时,画布支持对整个图形结构进行存储和读取,可以分别存储为压缩图形格式,和非压缩的JSON图形格式,方便随时加载。同时可对任意区间截图,利用画笔做标记(使用WPF的inkcanvas)等其他功能。

image

二 . 微博用户社团分析

     在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。本软件同样内置了该功能,可方便快速的展现微博传播特性,并通过动态布点,生动的展现微博传播网络的生成过程。

     我们以潘石屹的其中一条微博为例,展示分析过程。

     选取该用户的一条微博,如下图所示。该微博的内容是:“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国”。

clip_image014

     在菜单栏中选取微博传播网络功能:系统便会自动调用不同算法模块完成分析功能。

clip_image016

     一方面,系统将会自动生成微博分析报告,包括所有转发用户的性别,地理位置,身份级别的统计等。 同时,系统还会生成微博转发顺序的时间线,通过该功能可容易的看到在哪些时段转发过程出现高潮。如下图所示:

image

      时间控件可以进行放缩控制,经过放大后,可以清楚的看到,在2013年四月18日上午9点59分出现转发高峰,一分钟内转发32次,后期逐渐减慢。

clip_image020

该传播中,男性比女性比例明显偏大。而传播层级统计上,第四次转发数量异常的高,这种情况通常是由于有强转发节点帮助了信息的传播,这些信息可在后面的传播路径图中清楚的看到。在地理位置上,北京,上海和广州的转发数量最高,由于该信息不带地理倾向,因此和各地经济发展水平是一致的。

image

另一方面,系统可动态的展示整个网络的生成过程。全图如下图所示,不同颜色点代表不同层级的转发。淡橙色为第一层转发,橙色为第二层,依次是深绿色和浅绿色。

clip_image023

     最下的节点,是潘石屹本人的微博,在其上越有300多人进行了第一次转发,少量人做了二次转发和三次转发。张欣做了重要的二次转发,美丽中国是一个重要的三次转发节点(转发自张欣,但美丽中国传播能力明显不足),任志强在转发张欣的微博后,又称为一个重要的传播节点,在该人之上,又做了四次,五次和更多次转发。

     动态呈现功能,展示了整个网络的生成过程。各节点从其转发位置,动态的移动到所在位置,形成布点过程,这个过程可以通过进度条展示,并可控制速度和实现暂停功能。可随时将不同时间点的图结构保存到硬盘中,方便分析。

     下图展示了在当日10点18分的网络结构,张欣等重要节点还未做转发。

clip_image025

      将鼠标放在不同的节点上,可以看到该用户所述内容(美丽中国节点)

image

    同样,系统可将所有转发的用户进行关系计算,呈现不同用户所在的用户区间,方便进行传播分析。该部分已经在上一节介绍过,恕不重复。

 

三. 舆情分析(正在开发中)

     我们在实践过程中,掌握了大量的新闻媒体报刊,以及微博数据,通过对这些数据做搜索和文本处理,可实现舆情分析功能。

     舆情分析功能通过时间曲线展示新闻报刊和微博两种媒体,对不同话题的专注情况,并给出不同时间点的标签。当发生类似事件时,软件可通过智能分析对未来走向进行预测,目前软件内置了一个较为简单的“贪污模型”。 通过对多例事件的报刊和微博数据的交互和时间轴信息进行训练,当有类似事件出现,系统可对其事态发展做一定估计。

clip_image041

     上图是著名的贪腐事件,杨达才(微笑局长)。该人在8月25日曝光在事故现场微笑,并佩戴名表,在微博上迅速出现一个峰值。该人向公众解释是儿子的表之后,事件回落,在两天之后曝光量迅速减少。传统媒体(尤其是各地小报)都有所跟进,但由于该事件较小,并没有在传统媒体上形成较大影响。

    之后,在9月1日,网络曝光其拥有多块名表,于是形成了新的高峰,但高度明显不及第一次高峰。在这次高峰之后,传统媒体也迅速跟进,大量文章出现,长达四个礼拜之久。由于周日是报社休息,因此周天出现了明显低谷。

   第三次高潮是杨达才撤职,微博形成了新的高峰,位于九月底,各大媒体也迅速报道。

   该事件在10月份后基本平息。

   这个典型事件反映了微博和报刊数据的真实特点。一方面,微博具备强烈的快速特征,来得快去得快,一件事情的热度一般不超过三天。但传统报刊则明显比微博滞后,但体现了鲜明的政府意志,因此更能影响微博和事件走向,两者相互影响和制约,共同带动了事件的发展。

四 . 总结

     说些没用的, 这套平台使用.NET作为开发平台,而数据挖掘真正根正苗红的语言是JAVA和Python等,少见.NET。 最近很关心研究生实习招聘,我愣是没看到一个C#的字眼,连微软的招聘信息都没看到,真是情何以堪。 用.NET开发,有可视化的强大优势和互操作特性,丧失了跨平台和分布式特性。可惜现在,做数据挖掘的,若不说分布式,并行处理这些词,感觉就像从山里出来的一样,哈哈。

     附件是姚晨同学微博的关系网络,用的是JSON输出,分别包含Nodes和Paths两个部分,有经验的同学一看就懂,解析起来很方便。下载地址

     有任何问题,欢迎讨论。


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

标签: 数据挖掘

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/archive/2013/04/23/3037370.html,如需转载请自行联系原作者

网友评论

登录后评论
0/500
评论
长征6号
+ 关注