【近战】基于微博用户关系与行为的用户建模分析

简介:

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内,涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。


以下为【近战】第一篇,基于微博用户关系与行为的用户建模分析。


用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。

 

微博及大数据

  微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。

  其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿+。内容:日增博1亿+,日增原创4000万。行为:转发6000万,评论3000万,赞1亿,收藏:1000万,查看200亿。

                                               1

  如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能力标签,用户兴趣标签,微博内容标签。

大数据标签体系

  

                                           2

2所示为大数据标签体系的基本框架图。

用户能力标签——

用户能力标签的产品形态

                    

                                                           3

如图3微博找人直接推荐各行各业的能力用户

                           

                                                               4

如图4微博头条输出各领域原始语料的专家库

               5


5为用户能力标签库的整体框架


用户能力标签库的策略算法如下:

1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。

2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。

  3)基于用户发布内容数据计算用户在内容方面的能力:用户在某个领域发布博文数量、纯度、互动量越高,在这个领域内容生产能力越大

  4)通过PageRank计算用户在垂直行业的影响力:通过PageRank计算具有一定内容生产能力和关系能力的用户群中每个用户的影响力。

  (5)通过线性加权将用户的关系、内容和行业影响力计算为在这个垂直领域的综合能力:用户能力标签归一化到0~100的区间,达到横纵向可比较。

                                           6

主要问题如图6,标签的自动聚合和筛选时的噪音问题,微博短文本分类及语义主体识别问题。

                                                7

7为标签自动聚合流程。

用户能力标签的效果很好,挖掘出120万能力用户,覆盖月活粉丝1.6亿;微博用户中娱乐、互联网、财经行业名人最多 微博用户中动漫、美食、旅行行业精英最多;微博聚集了近万名互联网技术牛人。


用户兴趣标签

用户兴趣标签的产品形态

                                            8

8是基于兴趣推荐用户感兴趣的文章。

                                              9

图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。

                                           10

10为用户兴趣标签库的整体框架。

用户兴趣标签的策略算法

(1)          圈定各垂直领域的能力用户集合:根据用户能力标签分数分布以及各分数段的意义,圈定垂直领域的能力用户集合。

(2)          根据用户对能力用户的关注关系计算用户在关系方面的兴趣:关系兴趣权重的计算规则:根据w1w2最终确定关系兴趣的权重。

(3)          根据用户对内容产生的行为计算用户在内容消费方面的兴趣:微博行为包括:原创,转发,评论,赞,收藏,查看微博等十几种行为,不同的行为对应不同的分值,最终通过归一化公式计算用户消费内容的兴趣权重。

(4)          通过线性加权计算用户的综合兴趣调权:通过不断的迭代测试,用户在内容消费方面的权重更高一些。

用户兴趣标签的主要问题:

  用户的兴趣相对于能而言是时间敏感的, 如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示,

 

                                    11

所有用户都对实时,旅游,明星感兴趣吗?活跃用户体现出的兴趣极为广泛

用户行为权重的时间衰减:基于时间维度的行为热度衰减: 在博文消费方面,用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们

通过牛顿冷却定律来量化衰减的程度。如图12所示,

                                            12

用户兴趣标签的效果是:挖掘出1.6亿用户的精准兴趣,覆盖微博月活75%。微博用户中对娱乐、时事、互联网感兴趣的人最多。微博聚集了110万对互联网技术感兴趣的人。

用户标签的规划

  规划用户身份,规划用户即时兴趣,规划用户质量等级。图13 为微博大数据用户体系。

                                                13


来源阿里技术沙龙 

分享:朱红垒,新浪微博大数据挖掘团队技术负责人

PDF可下载

同论坛其他议题分享地址

【近战】系列文章,跟踪tag标签即可得到。 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
弹性计算 运维 搜索推荐
|
3天前
|
搜索推荐 算法 前端开发
基于用户特征的个性化网络小说推荐系统的设计与实现
基于用户特征的个性化网络小说推荐系统的设计与实现
|
8月前
|
机器学习/深度学习 运维 监控
什么是用户实体行为分析(UEBA)
数字新时代正在加速全面到来,网络环境变得更加多元、人员变得更复杂、接入方式多种多样,网络边界逐渐模糊甚至消失,同时伴随着企业数据的激增。数字化转型促进组织的业务发展的同时,也带来了重大的网络安全挑战。安全是人和人攻防对抗的游戏,一切的意图都需要通过行为表达,这是安全运营中最重要也最有价值的一块拼图,同时也是传统方式最欠缺的。针对传统方式的不足,安全行业逐步加强基于大数据驱动,机器学习、概率分析、模式识别等的以“行为”为核心的检测分析。 用户实体行为分析(UEBA)应运而生。
622 1
|
机器学习/深度学习 存储 算法
用图技术搞定附近好友、时空交集等 7 个典型社交网络应用
在你的社交网络中,谁和你关系亲密?谁又和你互动最多?谁和你有很多共同好友,彼此还不认识呢?本文,用了图技术来解决 7 个常见的社交推荐场景。
147 0
|
SQL 缓存 NoSQL
社交系统中用户好友关系数据库设计
社交系统中用户好友关系数据库设计
1094 0
|
自然语言处理 搜索推荐 算法
亿级用户的平台是如何使用词嵌入来建立推荐系统的
亿级用户的平台是如何使用词嵌入来建立推荐系统的
101 0
亿级用户的平台是如何使用词嵌入来建立推荐系统的
|
机器学习/深度学习 数据采集 运维
基于机器学习的用户实体行为分析技术在账号异常检测中的应用
伴随企业业务的不断扩增和电子化发展,企业自身数据和负载数据都开始暴增。然而,作为企业核心资产之一的内部数据,却面临着日益严峻的安全威胁。越来越多以周期长、频率低、隐蔽强为典型特征的非明显攻击绕过传统安全检测方法,对大量数据造成损毁。
|
搜索推荐 数据挖掘 Python
Python分析44130条用户观影数据,挖掘用户与电影之间的隐藏信息!
很多电影也上映,看电影前很多人都喜欢去 **『豆瓣』** 看影评,所以我爬取44130条 **『豆瓣』** 的用户观影数据,分析**用户之间**的关系,**电影之间**的联系,以及**用户和电影之间**的隐藏关系。
305 0
|
搜索推荐
3分钟,看懂用户偏好分析
一提到用户画像,很多人直观地会想到:通过用户画像分析出用户偏好。到底用户偏好该如何做分析,今天简单分享下,给大家一个懒人攻略。
777 0
3分钟,看懂用户偏好分析
|
存储 机器学习/深度学习 人工智能