人群优选算法模型，如何挖掘品牌潜客？-阿里云开发者社区

点击上方↑↑蓝字关注，建立智能知识仓库

小叽导读：品牌数字化营销正在成为热点，在Uni-Marketing背景下，我们通过策略中心海豹项目，探索和实践了品牌目标人群优选算法，在实际投放中取得了非常好的人群转化效果，并得出一些有价值的算法和业务结论。本文主要对品牌目标人群优选算法及相关实践结论进行介绍。

作者：云鸣、林君、泊智、一初

1. 背景简介

全域营销（Uni-Marketing）战略是依托大阿里生态，以消费者运营为核心，在新零售体系下实现全链路、全媒体、全数据、全渠道的品牌大数据营销。Uni-Marketing产品矩阵包括品牌数据银行、全域策略（策略中心）、全域传播（Uni-Desk）、全域运营（品牌号、智慧门店、天猫营销产品）等。传统品牌营销的痛点在于效果无法量化和追踪，而阿里的产品和数据闭环可以很好的解决这个问题。

策略中心年货节投放海豹项目，通过大数据+算法的手段，对A品牌的目标人群进行分析，建立人群优选算法模型，挖掘品牌目标潜客。品牌A的年货节实际投放效果，算法优选人群相比基于业务经验使用规则圈选的人群，在“O->IPL”人群关系加深率指标上好47%，显示了人群优选算法的有效性。

2. 名词解释

品牌消费者关系：Opportunity（机会）、Awareness（认知）、Interest（兴趣）、Purchase（购买）、Loyalty（忠诚）。

人群关系加深率：衡量品牌营销效果的直接指标。“O->I”人群关系加深率，即机会人群到兴趣人群的转化率。

品牌数据银行：从“融合、分析、激活”三个纬度实现品牌消费者数据资产的管理和增值，即品牌消费者数据资产的高效梳理、消费者全链路的透视分析、最后到多元营销场景的应用，包括阿里的电商、娱乐和营销服务矩阵。

品牌策略中心：以解决“机会在哪里”和“如何增长”为目标，赋能品牌开发生意策略，实现策略的可应用、可验证、可优化。功能包括市场概览与细分、竞争与得失分析、消费者细分与多维洞察、人群放大与优选等，可用于新品上市、品类拉新、品类成长、品牌升级等场景。

项目目标

基于策略中心的品牌人群定向，与程序化广告的不同之处在于，要根据品牌方的营销需求（包括目标、渠道、时间和预算）产出特定规模的目标人群，进而再针对性地营销投放。

此次实践即以年货节拉新为目标，找到指定规模的潜在机会人群或者认知人群，通过营销投放将其转化为品牌兴趣人群和已购人群，从而提升品牌消费者资产。

业界方案

业界相关方案主要与程序化广告中人群定向相关，方法基本都是Look-alike人群扩散，具体有以下几种：

1）标签扩散：根据已有目标用户画像，给用户打各种标签，再利用标签找到机会人群。

2）基于标签的协同过滤：在标签扩散的基础上，采用基于用户的协同过滤算法，找到与种子人群相似的机会人群。

3）基于社交关系的扩散：以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设，利用社交网络关系进行人群扩散。

4）基于聚类的扩散：根据用户画像或标签，采用层次聚类算法（如BIRCH或CURE算法）对人群进行聚类，再从中找出与种子人群相似的机会人群。

5）目标人群分类方法：以种子人群为正样本，候选对象为负样本，训练分类模型，然后用模型对所有候选对象进行筛选。涉及PU Learning的问题。

技术方案介绍

根据项目目标，我们制定了“种子人群聚类细分+聚类人群扩散”和“多方向人群扩散+人群分类优选”的两种方案。由于聚类分群属于无监督学习且分群效果不容易评估，因此选择后者优先实施。

方案整体流程如下图所示：

5.1 多方向人群扩散

在人群扩散方向上，我们探索了6类方向，并在每个方向下挖掘有效特征，通过白盒条件筛选和黑盒模型预测的方式进行人群扩散。

5.1.1 兴趣偏好方向

采用特征值TGI和TA浓度2个指标，挖掘了4个特征中与品牌相关的特征值，并根据特征值的全网覆盖量设定TGI和TA浓度阈值，进行白盒扩散。TGI指标衡量了特征值在品牌人群中的显著性，TA浓度则衡量了特征值在品牌人群中的覆盖率，因此二者共同考虑才能筛选出有效的人群扩散特征值。

5.1.2 相关品类方向

1) 主营类目分析：根据品牌在线商品数和销售额计算筛选主营类目，并得出主营类目权重。

2) 相关品牌分析：根据brand-user关系矩阵，采用Jaccard相似度计算相关品牌及相关分。相似度计算公式如下：

3）相关类目分析：根据线上user-cate购买行为，通过Association Rule Mining挖掘相关类目，使用confidence指标筛选类目并作为相关分，然后经过类目关系的二度扩散得到最终相关类目结果。类目扩散公式如下，其中表示类目k：

5.1.3 竞品人群方向

1)竞品分析：当前品牌主营类目中，市场份额top10的其他品牌。

2)人群流转分析：分析发现品牌新增人群中，有较大比例来自竞品，说明选择该方向进行扩散是可靠的。

3) 竞品人群转化模型：以来自竞品的人群为目标，挖掘用户在竞品的AIPL状态、退款、退货、评分、评价等特征，训练竞品人群转化模型。通过模型对竞品人群进行转换预测，实现人群扩散。

5.1.4 搜索人群方向

1) 搜索关键词：从引导到品牌成交的搜索词中，综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有优势，实现品牌拉相关的搜索词发现。公式如下，其中E表示关键词引导成交的类目信息熵，表示关键词引导成交额，表示关键词引导到品牌的成交额：

2）搜索人群扩散：近15天内搜索了kwords并点击了品牌主营类目的用户。

5.1.5 流失人群方向

对于之前属于品牌人群而现已流失了的用户，也进行扩散召回，包括近半年从IPL状态流失的用户和近1个月从A状态流失的用户。

5.1.6 同好人群方向

基于用户的向量表示，可以直接计算用户与用户直接的相似度，从而得到种子用户最相似的topN个用户。用户表示的方法有多种，例如：

a) 用户偏好的类目向量、品牌向量组合。

b) 将user-item表示为二部图，基于graph embedding方法生成用户向量。

5.1.7 人群扩散汇总

最终6个方向的品牌扩散人群汇总去重，作为人群优选模型的输入。

5.2 目标人群优选模型

没有历史投放数据，是此次项目面临的一个挑战。我们通过训练模型来区分目标人群和非目标人群。

5.2.1 评估指标

训练集的正负样本，分别从品牌已购人群和其他品牌的人群中采样得到。从中训练的分类模型，可以较好的区分品牌目标人群和全网其它人群（大都和目标人群相距较远），但对区分和品牌目标人群相距不远的扩散人群则并非同样有效。

因此，直接使用传统的分类指标，只能评估模型在训练集上的效果，不能准确评估其在扩散人群上的分类效果，需要设计新的评估指标。

PredictTA TopNPrecision指标由此而来，表示优选的TopN人群中品牌目标人群的占比，该指标越大说明模型预测效果越好。我们通过对比该指标在不同模型上使用不同topN值的值，验证了它的一致性；并设计NewTA topN Recall指标，即优选人群在之后一段时间品牌新增目标人群的占比，验证了它的正确性。

上图中，紫色框表示品牌目标人群即种子人群，蓝色框表示模型优选出的TopN人群，它与种子人群有小部分交集，交集占蓝色框的比例即为PredictTATopN Precision。绿色框表示一周内品牌实际新增人群，与蓝色框的交集为预测准确的人群，交集占绿色框的比例即为NewTA topN Recall。

对于有效的算法模型，PredictTATopN Precision指标随着TopN的减小而增大。两个不同的算法模型，PredictTA TopN Precision指标在不同TopN取值上的表现是一致的，说明该指标的稳定性。以A品牌为例，其一致性验证结果如下图所示：

5.2.2 模型训练

以品牌目标人群为正样本，从全网其它品牌的人群中随机选负样本，经过数据预处理、归一化、序列化编码后，训练并优化人群优选模型。

1）样本选择

正样本选择：对于线上市场份额大的品牌而言，直接用品牌已购人群即可。但对新品牌或者线上市场份额小的品牌，已购人群可能很小，这时就需要对正样本进行扩充，比如加入兴趣人群、加入与品牌定位相似的其它品牌的人群。

负样本选择：默认从全网其它品牌的人群中随机采样，但发现全网人群中特征缺失的情况比较多，负样本集离扩散人群比较远，因此实验了从全网其它品牌的已购人群中采样，PredictTA TopN Precision（N=300万）指标绝对值有0.8%的提升。

2）特征工程

数值型特征离散化。年购物天数、近30天订单数等特征进行等距离散，提高模型稳定性和效果。

枚举型特征值筛选。汽车型号、收货省份等特征长尾分布非常明显，筛选出与目标品牌相关的特征值。

多值特征处理。偏好品牌、偏好类目这样的特征，一个用户可以同时有多个特征值。以品牌A品牌为例，我们在b步筛选的基础上，对比了只保留偏好值最大的特征、只保留品牌最相关的特征、保留品牌相关的多个特征3种不同的处理方法，效果如下：

特征编码。主要采用one-hot编码方式。

稀疏特征embedding。对于类目id，品牌id这种高维高稀疏性的特征，直接将其作为分类模型的特征会影响最终的模型效果，为此，我们借鉴word embedding的思路，将用户过去一段时间内对类目（或品牌）的行为序列作为doc，将类目（或品牌）本身作为word，基于全网活跃用户的行为序列（doc集合）训练类目（或品牌）的embedding表示。具体而言，我们将类目（或品牌）编码为100维的低维稠密向量，并将其作为预测特征用于模型训练。

特征选择。首先使用全部特征进行模型训练，然后根据特征重要性程度筛除部分尾部特征，重新训练模型，通过比较模型的PredictTA TopN Precision指标确定此次特征选择是否更好。

3）训练模型

LR模型。使用逻辑回归作为baseline的算法，除了模型简单容易理解外，还有个好处是可以得出特征和特征值的重要性。

RF模型。对随机森林模型的实验效果并不理想，在相同的样本和特征上Precision和AUC指标均比LR低，且特征重要性结果只能到特征粒度不能到特征值粒度，因此不再使用。

PS-SMART。基于PS架构的GBDT算法模型，决策树弱分类器加上GBM算法，具有较强的非线性拟合能力，在应用中相比其它两种算法模型效果更好。因此选择PS-SMART作为最终的算法模型，并对损失函数、树的个数深度、正则系数进行调优。

模型与特征相关对比结果如下表：

5.2.3 模型预测

使用训练好的人群优选模型，对5.1节中产出的扩散人群进行预测打分，筛除预测分数小于0.5的人群，再根据拉新的目标过滤品牌现有IPL人群。

5.3 年货人群模型

此次品牌投放需求临近春节，与年货的相关性很大。虽然可以用最新的样本数据训练日常的目标人群优选模型，但人群扩散方向和相关特征并非针对年货场景而挖掘的，因此不能有效捕捉出于屯年货动机的消费需求，需要针对年货场景单独建立一个人群模型进行预测。

但由于年货场景与日期时间高度相关，需要用到去年春节期间品牌相关的人群数据，与日常模型差异较大，不方便合并，需要单独建模。

5.3.1 品牌相关年货类目

1) 年货类目挖掘：统计春节期间包含“年货”的搜索词所引导点击的类目数据，再由运营同学根据业务经验筛选出部分与年货相关性较强的类目，从而得到二级类目粒度的年货类目数据。

2) 品牌相关年货类目：根据春节期间融合不同行为的“用户-类目”矩阵，通过I2I算法计算年货类目的相关性，进而得到品牌主营类目相关的年货类目及其相关分。

5.3.2 年货人群特征

1) 人群属性特征：同日常人群优选模型一样，包括用户人口基础属性、人口预测属性等。

2) 人群偏好特征：同日常人群优选模型一样，包括与目标品牌相关的偏好品牌、生活标签、偏好类目、及偏好品牌等特征。

3) 品牌主营类目行为特征、品牌相关年货类目行为特征。包括有行为的相关年货类目id、类目相关性等特征。

5.3.3 年货人群模型

1) 样本选择：根据投放时间的农历日期，选取去年当日前1个月有行为的用户做样本。其中以去年当日到元宵节期间转化到品牌PL状态的用户为正样本，随机采用同等数量的其他用户为负样本，训练年货人群模型。

2) 模型训练：基于日常人群优选模型的经验，同样采用PS-SMART算法进行模型训练、优化、及特征重要性分析。

3) 模型预测：圈选投放日期前1个月对品牌主营类目及相关年货类目有行为的用户，使用年货人群模型进行预测，去除预测分数小于0.5的用户，根据拉新目标去除品牌现有IPL人群。

5.4 目标人群模型融合

根据日常人群优选模型和年货人群模型的PredictTA TopN Precision指标，确定目标人群中2个模型优选结果的占比，最终筛选出指定数量的投放人群，导入数据银行，供服务商同步到DMP进行品牌广告投放。

5.5 投放效果追踪

品牌A投放案例，算法优选年货人群（A人群包），服务商通过策略中心找出品牌A购买人群同时购买的年货类目，选取买了对应类目的人群（A人群包），分别在钻展投放。其中算法优选人群在“O->IPL”人群关系加深率指标上相比高47%，拉新转化效果显著。算法优选人群内部，年货模型转化率最低，混合模型转化率最高，说明在春节期间品牌A的目标人群与日常目标人群特征比较相近，有年货囤零食需求的日常目标人群在春节期间转化率最好。

6. 挑战与应对

6.1 项目时间周期短

因此我们优先保证模型目标与业务目标的一致，时间上做到最新，对投放渠道则没有研究和优化。

6.2 无历史反馈数据

品牌人群优选模型，由于没有品牌投放历史，不能从用户的历史投放反馈中来学习品牌人群特征。尤其是不能获取大量直接的负样本，只能以随机人群来代替，在样本选择上还有很大的提升空间。

6.3 无历史属性特征

年货人群模型和时间紧密相关，但由于存储周期的原因，只能获取用户去年的行为特征，而无法获取去年的属性和偏好特征，只能用近期的属性和偏好特征来代替，在特征实效性上也有较大提升空间。

6.4 重要的稀疏特征

模型使用的特征中有较多的稀疏特征，这些特征的特征值呈长尾分布，全部使用会引入很多噪声影响模型效果，只选高频特征又会丢失较多信息，为此我们采用特征值的TGI和TA浓度两个指标综合筛选，达到保留相关特征值、减少噪音和信息丢失的目的。

6.5 有效的评估指标

也是由于无历史反馈数据，导致用于优选的扩散人群与训练模型的人群分布有较大差异，单纯的AUC、Precision等指标不能准确衡量优选模型在扩散人群上的效果，为此我们设计并验证了PredictTA TopN Precision评估指标，有效指导了模型的优化。

7. 总结与展望

针对品牌目标人群定向，此次实践的人群扩散+优选的算法流程、人群优选/年货人群模型、及提出的PredictTA TopN Precision评估指标是非常有效的。后续优化方向，包括前面挑战中提到的基于用户反馈数据的样本优化，需要大量的投放反馈数据；用户历史属性和偏好特征优化，需要存储更多的历史特征数据；稀疏特征的优化，可通过深度学习方法将稀释特征映射到稠密特征空间实现；用户在生活方式/消费心理方面的embedding特征，对于人群优选非常有用，多任务学习是不错的实现方式。

人群优选算法模型，如何挖掘品牌潜客？

1. 背景简介

2. 名词解释

5.2 目标人群优选模型

5.3 年货人群模型

5.4 目标人群模型融合

5.5 投放效果追踪

6. 挑战与应对

6.1 项目时间周期短

6.2 无历史反馈数据

6.3 无历史属性特征

6.4 重要的稀疏特征

6.5 有效的评估指标

7. 总结与展望

阿里机器智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景