【近战】基于微博用户关系与行为的用户建模分析-阿里云开发者社区

【近战】基于微博用户关系与行为的用户建模分析

2015-12-11 10251

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期，近100位深度实战培训资源（PPT+视频）让很多朋友大呼过瘾。接棒阿里技术沙龙，云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内，涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。

以下为【近战】第一篇，基于微博用户关系与行为的用户建模分析。

用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一，本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。

微博及大数据

微博作为中国最大的社交媒体平台，微博沉淀了海量的用户，内容，关系，和行为数据。

其中用户：注册人数10亿，月活人数1.98亿，日活人数：8900万。关系:关注关系近千亿，分组关系50亿+。内容：日增博文1亿+，日增原创4000万。行为：转发6000万， 评论3000万，赞1亿，收藏:1000万， 查看200亿。

图1

如图1，微博大数据要做什么？要帮助用户发现感兴趣的内容，加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户，挖掘用户内容消费的兴趣偏好。工作如何串联?用户能⼒力标签，用户兴趣标签，微博内容标签。

大数据标签体系

图2

图2所示为大数据标签体系的基本框架图。

用户能力标签——

用户能力标签的产品形态

图3

如图3微博找人直接推荐各行各业的能力用户

图4

如图4微博头条输出各领域原始语料的专家库

图5

图5为用户能力标签库的整体框架

用户能力标签库的策略算法如下：

（1）基于决策树的分组名分类算法：将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算，熟人关系分组名用于用户的自然属性挖掘。

（2）基于用户关注关系数据计算用户在关系方面的能力：利用兴趣分组名称构建出标签的相关词库，进而通过归一化公式计算出基础权重。

（3）基于用户发布内容数据计算用户在内容⽅方面的能⼒力：用户在某个领域发布博⽂文数量、纯度、互动量越⾼高，在这个领域内容⽣生产能⼒力越大。

（4）通过PageRank计算用户在垂直⾏行业的影响力：通过PageRank计算具有⼀一定内容⽣生产能⼒力和关系能力的用户群中每个用户的影响力。

（5）通过线性加权将用户的关系、内容和⾏行业影响力计算为在这个垂直领域的综合能力：用户能力标签归⼀一化到0~100的区间，达到横纵向可比较。

图6

主要问题如图6，标签的自动聚合和筛选时的噪音问题，微博短文本分类及语义主体识别问题。

图7

图7为标签自动聚合流程。

用户能力标签的效果很好，挖掘出120万能⼒力用户，覆盖月活粉丝1.6亿；微博用户中娱乐、互联⽹网、财经行业名人最多；微博用户中动漫、美食、旅行行业精英最多；微博聚集了近万名互联网技术牛人。

用户兴趣标签

用户兴趣标签的产品形态

图8

图8是基于兴趣推荐用户感兴趣的文章。

图9

图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。

图10

图10为用户兴趣标签库的整体框架。

用户兴趣标签的策略算法

（1）圈定各垂直领域的能力用户集合：根据用户能力标签分数分布以及各分数段的意义，圈定垂直领域的能力用户集合。

（2）根据用户对能⼒力用户的关注关系计算用户在关系⽅方面的兴趣：关系兴趣权重的计算规则：根据w1和w2最终确定关系兴趣的权重。

（3）根据用户对内容产⽣生的⾏行为计算用户在内容消费⽅方面的兴趣：微博⾏行为包括：原创，转发，评论，赞，收藏，查看微博等十几种行为，不同的行为对应不同的分值，最终通过归一化公式计算用户消费内容的兴趣权重。

（4）通过线性加权计算用户的综合兴趣调权：通过不断的迭代测试，用户在内容消费⽅方面的权重更高一些。

用户兴趣标签的主要问题：

用户的兴趣相对于能力⽽而言是时间敏感的，如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示，

图11

所有用户都对实时，旅游，明星感兴趣吗？活跃用户体现出的兴趣极为广泛。

用户行为权重的时间衰减：基于时间维度的行为热度衰减：在博⽂文消费方面，用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣，其表达的兴趣热度及重要性随着时间是逐步衰减的，我们

通过牛顿冷却定律来量化衰减的程度。如图12所示，

图12

用户兴趣标签的效果是：挖掘出1.6亿用户的精准兴趣，覆盖微博月活75%。微博用户中对娱乐、时事、互联⽹网感兴趣的⼈人最多。微博聚集了110万对互联网技术感兴趣的人。

用户标签的规划

规划用户身份，规划用户即时兴趣，规划用户质量等级。图13 为微博大数据用户体系。

图13

来源：阿里技术沙龙

分享：朱红垒，新浪微博大数据挖掘团队技术负责人

PDF可下载

同论坛其他议题分享地址

【近战】系列文章，跟踪tag标签即可得到。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

【近战】基于微博用户关系与行为的用户建模分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景