1. 云栖社区>
  2. 博客列表>
  3. 正文

推荐的套路

golion 2017-03-14 09:40:50 浏览990 评论0

大数据 算法 阿里技术协会 数据流 分布式存储 推荐系统

摘要: 做推荐是有套路的。本文根据在国际短视频业务的经验,总结一些个人的思考。本文不涉及具体算法。1. 推荐的本质是什么?是内容和数据。内容就是你要提供给用户的东西,例如你的视频库,UGC、PGC什么的。用户最根本的目的还是消费优质内容。没有好的内容库,是推不出东西的。数据指的是用户的行为数据。没米是做不了饭的,没有数据任何算法都是走不通的。很多高大上的词,用户画像什么的,本质上都是对用户行为数据的抽象而

做推荐是有套路的。本文根据在国际短视频业务的经验,总结一些个人的思考。本文不涉及具体算法。


1. 推荐的本质是什么?

是内容和数据

内容就是你要提供给用户的东西,例如你的视频库,UGC、PGC什么的。用户最根本的目的还是消费优质内容。没有好的内容库,是推不出东西的。

数据指的是用户的行为数据。没米是做不了饭的,没有数据任何算法都是走不通的。很多高大上的词,用户画像什么的,本质上都是对用户行为数据的抽象而已。另外,给内容打标签、打质量系数分也可以用用户行为数据。

推荐的本质,就是根据用户行为数据,提供更满足用户的内容。


2. 一个怎样的产品才能做推荐?

在我看来,至少包括两个要素:

1)足够大量的内容和数据

内容不够多的话,做榜单就行了,做个毛线推荐。

数据不够大的话,再好的算法训练出来都一坨翔。

做推荐准入门槛很高,是个贵族游戏。

2)产品形态有推荐的原动力

什么意思呢?一言难尽。

产品经理喜欢拷问一些诸如“为什么要做推荐?做推荐对产品有啥用?是不是有些用户不喜欢推荐”之类的问题,在我看来这是蛋疼问题,推得好数据一定会更好,问题就是你的产品未必能推得好啊。

推荐应该是个研发主导的事情,首先要拷问的是这个产品的数据流是否能否支撑某种推荐模型,要拿什么、怎么训练、出些啥、可以干啥。如果数据流最多做做协同,那硬要做feed流一定会死很惨。

满足有推荐的原动力的产品,这里举几个例子:

1)用户帮你打标签,例如知乎、网易云音乐。形成这样的产品形态不容易。

2)搜索渗透高的产品很适合做推荐,搜索是挖掘推荐数据的大金矿。

3)外部数据(如爬虫)能起很大作用的产品,例如各种图文信息流产品。

一个产品纯靠推荐来运作是很难的,往往是搜索、分类、榜单、用户、外部数据等所有加起来给推荐提供训练数据。大中台战略,倒是让许多本来不好做推荐的产品也能给你推了。


3. 推荐的大套路

1)收集数据

收集数据永远是第一步。需要了解手中的数据是怎么来的,到底是用户干了啥产生的。并且最好建立感性的认知,这样对后续的ETL、算法选择、调参、模型解释等各个环节都有很大帮助。

2)建立指标

一定要先建指标,否则是没办法验证推荐效果的。常见的有CTR、PV、UV、人均等,结合自己产品形态来设计。

3)实现推荐流程

到这里才是算法选择和工程实现。一般来说,能做推荐的产品规模都不会太小,所以会遇到各种高并发、分布式存储与计算等工程问题。推荐算法只是推荐整个流程的一个小块,做推荐的往往需要算法、大数据、数据分析、产品思维等多种能力,非常苛刻

4)不断地优化

就是不停地ABTest、调参、更新策略、更新算法,一步一步提高指标。


4. 推荐的小套路

@海洪 传授的秘诀是四个字,热推多补

指的是榜单内容,多用于冷启动。

指根据短期、实时反馈的数据进行的即时推荐,效果最显著。

指多样性,不能老是推用户爱看的,这样会收敛。你永远需要补充一些用户没看过的来让用户发现新的大陆。

指补充,指的是根据长期数据、近线计算的用户画像推荐的内容,可以起到良好的补充作用。

以热推多补作为指导思想,建立推荐模型、推荐策略。
版权声明:本文内容由互联网用户自发贡献,本社区不拥有所有权,也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

用云栖社区APP,舒服~

【云栖快讯】数据库技术天团集体亮相,分享一线生产实践经验,告诉你踩过的坑、走过的路,都是老司机,靠谱!干货分享,不可错过!  详情请点击

网友评论

用于实时预测用户对物品偏好,支持企业定制推荐算法,支持A/B Test效果对比 更多>

快速、完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更... 更多>

面向阿里云ECS实例、HPC和Docker的文件存储服务。 更多>

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本... 更多>
2017杭州云栖大会火热抢票

2017杭州云栖大会火热抢票