《中国人工智能学会通讯》——3.17 基于传播的谣言识别

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

《中国人工智能学会通讯》——3.17 基于传播的谣言识别

知与谁同 2017-09-04 16:45:00 浏览1086
展开阅读全文

3.17 基于传播的谣言识别

结合已有的研究工作,我们也发现谣言和非谣言的传播过程确实有明显的差异,如图 1 所示。根据这种研究现状,从谣言的传播结构、时序以及转发用户的角度进行了系统的实证研究。

image
谣言传播的结构特征

我们把每个消息的传播过程看成一棵传播树,即传播树的大小为消息的转发数,根节点为消息的发帖用户,传播树的其他节点是消息传播过程中参与转发的转发用户。我们对谣言和非谣言传播树的高度和宽度进行了实证分析。

⑴ 传播树的高度。传播树的高度是指在传播树中从根节点到叶子节点的最大路径长度。图 2 显示了谣言和非谣言的传播树高度的互补累积分布图。从图中可以看出,传播树深度的互补累积分布图符合指数分布,且谣言的指数为 0.33 小于非谣言的0.53,表明大部分谣言传播树的高度大于非谣言传播树的高度。谣言的所有传播树的平均高度为 4.96,仍然大于非谣言传播树的平均高度 3.65。当传播树的大小增加时,传播树的高度也会增加,表明当消息大范围传播时,谣言的渗透力大于非谣言的渗透力。
image

⑵ 传播树的宽度。传播树的宽度是指在传播树的所有层中具有最多节点数的层中包含的节点数。图 3 表示了传播树的宽度占传播树节点数的比率图。当传播树的宽度比率大于 50% 时,谣言的消息比率占 70.48%,而非谣言的消息比率占 90.76%,表明大部分谣言的传播树的宽度小于非谣言传播树的宽度。随着传播树的增大,传播树的宽度比率逐渐减小,表明传播树越小,转发越集中于发帖用户,相反则转发越广且渗透越深。
image

因此,把消息的传播过程看成传播树,在传播树的结构上,我们发现谣言的传播树往往高且窄,而非谣言的传播树矮又宽。

谣言传播的时序特征

对于时序特征,我们主要研究了谣言和非谣言消息多快被转发,即转发的时间间隔。

转发的时间间隔是指从消息的发帖到第一个转发的时间间隔。大部分消息转发的时间间隔在 5 分钟以内,谣言占到 72.11%,非谣言占到 83.82%;谣言有 2.26% 而非谣言只有 0.38% 的消息转发的时间间隔超过了 1 天。考虑到消息的影响范围,我们统计了转发数在 100 以内以及大于 100 的消息,发现影响较大的谣言消息更可能吸引人们的注意力并给人们一种强烈的行为驱动,使人们在较短的时间内快速转发,而大部分非谣言信息更可能在发帖的 1 分钟后发生转发。

谣言传播的转发用户特征

消息在传播过程中,当一个用户转发一条消息后,我们假设这个用户的所有粉丝都能看见这条消息,一个消息的所有转发数则是所有看到消息的用户并对消息做出响应用户数,把它定义为转发看到比,即一个消息的转发数和参与消息传播的所有用户的粉丝数和的比例。通过计算每个消息的转发看到比,我们发现当转发数相当时,谣言的转发看到比比非谣言的大。这表明谣言通常比非谣言能吸引更多的用户参与转发。

为了验证提出的这些特征的有效性,我们和已有的工作进行了对比,结果表明所提出的这些特征在谣言识别上取得了更好的效果,和以前提出的特征相结合进一步提升了谣言识别的准确率。当然上述三方面的特征只是传播特征的一部分,我们还在继续探索更显著的谣言传播特征和规律,以期达到更好的谣言识别效果。

网友评论

登录后评论
0/500
评论
知与谁同
+ 关注
所属团队号: CCAI