百亿级全网舆情分析系统存储设计

  1. 云栖社区>
  2. 阿里云存储服务>
  3. 博客>
  4. 正文

百亿级全网舆情分析系统存储设计

宇珩 2017-11-22 19:49:32 浏览8760
展开阅读全文

前言

在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。

这个全网舆情分析系统,可以实现百亿条网页数据的存储、实时新增网页的抓取和存储并能对新增网页做实时的元数据提取。有了提取结果,我们还需要进行进一步的挖掘分析,这些分析包括但不限于

  1. 舆情的影响力诊断,从传播量级和扩散趋势来做预测,确定是否最终形成舆情。
  2. 传播路径分析,分析舆情传播的关键路径。
  3. 用户画像,对舆情的参与者提供共性特征勾勒,如性别,年龄,地域和感兴趣话题。

网友评论

登录后评论
0/500
评论
宇珩
+ 关注
所属云栖号: 阿里云存储服务