1. 云栖社区>
  2. 博客列表>
  3. 正文

推荐的套路

golion 2017-03-14 09:40:50 浏览635 评论0

大数据 算法 阿里技术协会 数据流 分布式存储 推荐系统

摘要: 做推荐是有套路的。本文根据在国际短视频业务的经验,总结一些个人的思考。本文不涉及具体算法。1. 推荐的本质是什么?是内容和数据。内容就是你要提供给用户的东西,例如你的视频库,UGC、PGC什么的。用户最根本的目的还是消费优质内容。没有好的内容库,是推不出东西的。数据指的是用户的行为数据。没米是做不了饭的,没有数据任何算法都是走不通的。很多高大上的词,用户画像什么的,本质上都是对用户行为数据的抽象而

做推荐是有套路的。本文根据在国际短视频业务的经验,总结一些个人的思考。本文不涉及具体算法。


1. 推荐的本质是什么?

是内容和数据

内容就是你要提供给用户的东西,例如你的视频库,UGC、PGC什么的。用户最根本的目的还是消费优质内容。没有好的内容库,是推不出东西的。

数据指的是用户的行为数据。没米是做不了饭的,没有数据任何算法都是走不通的。很多高大上的词,用户画像什么的,本质上都是对用户行为数据的抽象而已。另外,给内容打标签、打质量系数分也可以用用户行为数据。

推荐的本质,就是根据用户行为数据,提供更满足用户的内容。


2. 一个怎样的产品才能做推荐?

在我看来,至少包括两个要素:

1)足够大量的内容和数据

内容不够多的话,做榜单就行了,做个毛线推荐。

数据不够大的话,再好的算法训练出来都一坨翔。

做推荐准入门槛很高,是个贵族游戏。

2)产品形态有推荐的原动力

什么意思呢?一言难尽。

产品经理喜欢拷问一些诸如“为什么要做推荐?做推荐对产品有啥用?是不是有些用户不喜欢推荐”之类的问题,在我看来这是蛋疼问题,推得好数据一定会更好,问题就是你的产品未必能推得好啊。

推荐应该是个研发主导的事情,首先要拷问的是这个产品的数据流是否能否支撑某种推荐模型,要拿什么、怎么训练、出些啥、可以干啥。如果数据流最多做做协同,那硬要做feed流一定会死很惨。

满足有推荐的原动力的产品,这里举几个例子:

1)用户帮你打标签,例如知乎、网易云音乐。形成这样的产品形态不容易。

2)搜索渗透高的产品很适合做推荐,搜索是挖掘推荐数据的大金矿。

3)外部数据(如爬虫)能起很大作用的产品,例如各种图文信息流产品。

一个产品纯靠推荐来运作是很难的,往往是搜索、分类、榜单、用户、外部数据等所有加起来给推荐提供训练数据。大中台战略,倒是让许多本来不好做推荐的产品也能给你推了。


3. 推荐的大套路

1)收集数据

收集数据永远是第一步。需要了解手中的数据是怎么来的,到底是用户干了啥产生的。并且最好建立感性的认知,这样对后续的ETL、算法选择、调参、模型解释等各个环节都有很大帮助。

2)建立指标

一定要先建指标,否则是没办法验证推荐效果的。常见的有CTR、PV、UV、人均等,结合自己产品形态来设计。

3)实现推荐流程

到这里才是算法选择和工程实现。一般来说,能做推荐的产品规模都不会太小,所以会遇到各种高并发、分布式存储与计算等工程问题。推荐算法只是推荐整个流程的一个小块,做推荐的往往需要算法、大数据、数据分析、产品思维等多种能力,非常苛刻

4)不断地优化

就是不停地ABTest、调参、更新策略、更新算法,一步一步提高指标。


4. 推荐的小套路

@海洪 传授的秘诀是四个字,热推多补

指的是榜单内容,多用于冷启动。

指根据短期、实时反馈的数据进行的即时推荐,效果最显著。

指多样性,不能老是推用户爱看的,这样会收敛。你永远需要补充一些用户没看过的来让用户发现新的大陆。

指补充,指的是根据长期数据、近线计算的用户画像推荐的内容,可以起到良好的补充作用。

以热推多补作为指导思想,建立推荐模型、推荐策略。

用云栖社区APP,舒服~

【云栖快讯】2017开年大作,云栖大会·深圳峰会 3月28日开幕!37场论坛,2天云生态大展,100+分享嘉宾,更有云产业“奥斯卡”现场揭晓。现场坐席有限,报名倒计时中!  详情请点击

网友评论

用于实时预测用户对物品偏好,支持企业定制推荐算法,支持A/B Test效果对比

一个基于高可用分布式集群技术构建的服务API开放平台,帮助企业打通内外新旧系统,实现跨技术平台、跨应用系统、跨企...

阿里云机器学习是基于阿里云分布式计算引擎的一款机器学习算法平台。用户通过拖拉拽的方式可视化的操作组件来进行试验,...

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
开年采购季,惊喜不间断!

开年采购季,惊喜不间断!