ITTC数据挖掘平台介绍(三) 微博社团和传播分析

简介:

微博社团分析和传播分析是一种重要的微博研究手段,对社会关系和传播学研究都有重要的意义。

零. 最新进展

     距离上次的发文已经有几个月之久,一方面,软件通过抽象了微博接口,提供了对新浪,腾讯,网易微博的直接支持,算法只需对接口层进行开发,而不需考虑实际面向何种微博。另一方面,软件和Hadoop的互操作功能大大增强,通过WEBService实现互操作,同时实现了GPU的CUDA框架的互操作功能。目前正在开发基于MongoDB的图数据库接口层,顺便吐槽一下,Neo4j又慢又臭。

一. 微博用户社团分析

      用户社团关系分析是一种重要的社会群体研究手段,它展现了不同用户间的关系,并通过智能算法,对用户进行分组,并找出核心用户节点。软件内置了该功能。通过不同的评级算法,通过聚类和布点可视化呈现,在画布中绘制用户关系网络。

     目前,关系分析类型分为两类:

  •  按照用户真实关系分组,通过分析用户的好友数量,地理位置和一些其他信息,可展现真实社交网络的布局特点
  •  按照用户兴趣和标签分组:通过分析用户有代表性的微博,对其进行自然语言处理和文本特征提取后,确定该用户的主要兴趣点,并添加标签。

1.  按照用户关系分组

下面,我们以姚晨为例,按照用户真实关系分组的方案,对其600多位好友做社群关系分析,整个计算过程需要约一分钟,结果如图所示:

clip_image002

通常而言,名人很少添加陌生人节点,因此在社群图上体现出极少的孤立节点。两个大的社群(100多位用户),其中左边的放大图如下:

image

该社群主要以关注媒体的用户为主,例如罗永浩,南方都市报和新京报等。

再看一个小类:该类仅有六个用户,但清晰的表明了姚晨的一个爱好,书画鉴赏和一些好玩的东西,风之子,庄无邪等都是与书画艺术有一定关系的。

image

还有一些小类,例如下图所示,和上图类似,介绍从略。

image

2. 按照兴趣分组

按照兴趣分组时,将不考虑实际用户的关系,仅通过微博内容作自然语言处理分析得出结论。下面介绍一个典型案例:著名天使投资人,关注SNS数据挖掘创业的王煜全:

image

对该图进行放大,以其中的一个社群为例,如下图所示,可明显发现,这些用户都普遍关注科技和互联网创业等内容。将鼠标放在用户的节点上,可查看该用户的标签。

由于用户的话题千差万别,微博内容极其多变,对兴趣进行聚类绘图后,很难利用机器为不同社群的特性打标签,例如分析某社群都喜欢科技或娱乐等。这是一个难点,我们也在努力解决这个问题。

image

同时,画布支持对整个图形结构进行存储和读取,可以分别存储为压缩图形格式,和非压缩的JSON图形格式,方便随时加载。同时可对任意区间截图,利用画笔做标记(使用WPF的inkcanvas)等其他功能。

image

二 . 微博用户社团分析

     在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。本软件同样内置了该功能,可方便快速的展现微博传播特性,并通过动态布点,生动的展现微博传播网络的生成过程。

     我们以潘石屹的其中一条微博为例,展示分析过程。

     选取该用户的一条微博,如下图所示。该微博的内容是:“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国”。

clip_image014

     在菜单栏中选取微博传播网络功能:系统便会自动调用不同算法模块完成分析功能。

clip_image016

     一方面,系统将会自动生成微博分析报告,包括所有转发用户的性别,地理位置,身份级别的统计等。 同时,系统还会生成微博转发顺序的时间线,通过该功能可容易的看到在哪些时段转发过程出现高潮。如下图所示:

image

      时间控件可以进行放缩控制,经过放大后,可以清楚的看到,在2013年四月18日上午9点59分出现转发高峰,一分钟内转发32次,后期逐渐减慢。

clip_image020

该传播中,男性比女性比例明显偏大。而传播层级统计上,第四次转发数量异常的高,这种情况通常是由于有强转发节点帮助了信息的传播,这些信息可在后面的传播路径图中清楚的看到。在地理位置上,北京,上海和广州的转发数量最高,由于该信息不带地理倾向,因此和各地经济发展水平是一致的。

image

另一方面,系统可动态的展示整个网络的生成过程。全图如下图所示,不同颜色点代表不同层级的转发。淡橙色为第一层转发,橙色为第二层,依次是深绿色和浅绿色。

clip_image023

     最下的节点,是潘石屹本人的微博,在其上越有300多人进行了第一次转发,少量人做了二次转发和三次转发。张欣做了重要的二次转发,美丽中国是一个重要的三次转发节点(转发自张欣,但美丽中国传播能力明显不足),任志强在转发张欣的微博后,又称为一个重要的传播节点,在该人之上,又做了四次,五次和更多次转发。

     动态呈现功能,展示了整个网络的生成过程。各节点从其转发位置,动态的移动到所在位置,形成布点过程,这个过程可以通过进度条展示,并可控制速度和实现暂停功能。可随时将不同时间点的图结构保存到硬盘中,方便分析。

     下图展示了在当日10点18分的网络结构,张欣等重要节点还未做转发。

clip_image025

      将鼠标放在不同的节点上,可以看到该用户所述内容(美丽中国节点)

image

    同样,系统可将所有转发的用户进行关系计算,呈现不同用户所在的用户区间,方便进行传播分析。该部分已经在上一节介绍过,恕不重复。

 

三. 舆情分析(正在开发中)

     我们在实践过程中,掌握了大量的新闻媒体报刊,以及微博数据,通过对这些数据做搜索和文本处理,可实现舆情分析功能。

     舆情分析功能通过时间曲线展示新闻报刊和微博两种媒体,对不同话题的专注情况,并给出不同时间点的标签。当发生类似事件时,软件可通过智能分析对未来走向进行预测,目前软件内置了一个较为简单的“贪污模型”。 通过对多例事件的报刊和微博数据的交互和时间轴信息进行训练,当有类似事件出现,系统可对其事态发展做一定估计。

clip_image041

     上图是著名的贪腐事件,杨达才(微笑局长)。该人在8月25日曝光在事故现场微笑,并佩戴名表,在微博上迅速出现一个峰值。该人向公众解释是儿子的表之后,事件回落,在两天之后曝光量迅速减少。传统媒体(尤其是各地小报)都有所跟进,但由于该事件较小,并没有在传统媒体上形成较大影响。

    之后,在9月1日,网络曝光其拥有多块名表,于是形成了新的高峰,但高度明显不及第一次高峰。在这次高峰之后,传统媒体也迅速跟进,大量文章出现,长达四个礼拜之久。由于周日是报社休息,因此周天出现了明显低谷。

   第三次高潮是杨达才撤职,微博形成了新的高峰,位于九月底,各大媒体也迅速报道。

   该事件在10月份后基本平息。

   这个典型事件反映了微博和报刊数据的真实特点。一方面,微博具备强烈的快速特征,来得快去得快,一件事情的热度一般不超过三天。但传统报刊则明显比微博滞后,但体现了鲜明的政府意志,因此更能影响微博和事件走向,两者相互影响和制约,共同带动了事件的发展。

四 . 总结

     说些没用的, 这套平台使用.NET作为开发平台,而数据挖掘真正根正苗红的语言是JAVA和Python等,少见.NET。 最近很关心研究生实习招聘,我愣是没看到一个C#的字眼,连微软的招聘信息都没看到,真是情何以堪。 用.NET开发,有可视化的强大优势和互操作特性,丧失了跨平台和分布式特性。可惜现在,做数据挖掘的,若不说分布式,并行处理这些词,感觉就像从山里出来的一样,哈哈。

     附件是姚晨同学微博的关系网络,用的是JSON输出,分别包含Nodes和Paths两个部分,有经验的同学一看就懂,解析起来很方便。下载地址

     有任何问题,欢迎讨论。


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

标签: 数据挖掘

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/archive/2013/04/23/3037370.html,如需转载请自行联系原作者
目录
相关文章
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
4月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
63 0
|
7月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
279 0
|
4月前
|
数据挖掘
【数据挖掘】多元线性回归对波士顿房价分析实战(超详细 附源码)
【数据挖掘】多元线性回归对波士顿房价分析实战(超详细 附源码)
162 0
|
4月前
|
机器学习/深度学习 数据挖掘 BI
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
62 0
|
9月前
|
Web App开发 JavaScript 前端开发
如何使用Selenium自动化Chrome浏览器进行Javascript内容的数据挖掘和分析?
数据挖掘和分析是当今互联网时代的重要技能,它可以帮助我们从海量的信息中提取有价值的知识,为我们的决策和行动提供支持。但是,有些网站的内容是通过Javascript动态生成的,这就给数据挖掘和分析带来了一定的难度。如何才能有效地获取和处理这些Javascript内容呢?本文将介绍一种简单而强大的方法,就是使用Selenium自动化Chrome浏览器进行Javascript内容的数据挖掘和分析。
如何使用Selenium自动化Chrome浏览器进行Javascript内容的数据挖掘和分析?
|
10月前
|
数据可视化 数据挖掘 Serverless
数据挖掘|R-相关性分析及检验
数据挖掘|R-相关性分析及检验
185 0
|
12月前
|
存储 数据采集 监控
【数据挖掘实战】——应用系统负载分析与容量预测(ARIMA模型)
项目地址:Datamining_project: 数据挖掘实战项目代码
489 0
|
12月前
|
数据采集 搜索推荐 算法
【数据挖掘实战】——航空公司客户价值分析(K-Means聚类案例)
项目地址:Datamining_project: 数据挖掘实战项目代码
1036 0
|
JSON 算法 JavaScript
数据挖掘与分析 - 用JS实现推荐系统的原理与开发
数据挖掘与分析 - 用JS实现推荐系统的原理与开发
275 0
数据挖掘与分析 - 用JS实现推荐系统的原理与开发