推荐召回场景-FM Embedding实现方案

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 智能推荐分为排序和召回两大模块,在召回模块中通常会采用将 用户User和待推荐的 内容Item 分别以向量表示,然后通过User和Item的向量乘积大小作为User对Item的感兴趣程度的判断。本案例介绍如何基于真实的推荐场景数据,通过使用PAI平台提供的FM算法和Embedding提取算法产生User和Item的描述向量。

背景

被实验案例的数据和完整实验流程已经内置于PAI-Studio建模平台https://data.aliyun.com/product/learn

进入PAI-Studio,首页模板最下方位置点击从模板创建“推荐场景-FM向量召回”开箱即用

智能推荐分为排序和召回两大模块,在召回模块中通常会采用将 用户User和待推荐的 内容Item 分别以向量表示,然后通过User和Item的向量乘积大小作为User对Item的感兴趣程度的判断。本案例介绍如何基于真实的推荐场景数据,通过使用PAI平台提供的FM算法和Embedding提取算法产生User和Item的描述向量。

详细流程

完整业务流程图:

1.数据说明

原始数据如图:

数据字段描述:

  • userid:user的id信息
  • age:user的年龄
  • gender:user的年龄
  • itemid:item的id信息
  • price:item的价格
  • size:item的大小
  • label:目标列,是否购买,1为买,0为未买

2.One-hot编码

One-hot编码可以将字符型数据转成数值型表示,在FM-Embedding方案中首先利用“onehot编码-1”针对全量数据进行编码,生成编码模型再输入到“onehot编码-2”和“onehot编码-3”中,“onehot编码-2”需要选择User对应的特征信息进行编码,“onehot编码-3”选择Item对应的特征信息进行编码。

“onehot编码-2”的输入是userid、gender、age,附加列选择userid。

“onehot编码-3”的输入是itemid、price、size,附加列是itemid。

3.FM训练

正则化和维度这两个参数有3个参数,分别对应常数项、一次项和二次项。其中维度的第3个参数“10”代表生成的Embedding的维度。

4.Embedding提取

  • Embedding向量id列名:输入左桩FM训练中的模型“feature_id”
  • Embedding向量列名:输入左桩FM训练中的模型的“feature_weights”
  • 权重向量列名:输入右桩对应的稀疏化数据列
  • 输出结果列名:输出的Embedding字段名

最终输出结果:

总结

使用PAI提供的整套FM-Embedding方案可以在推荐业务场景中快速挖掘出User和Item对应的特征向量,在实际召回模块只要做User和Item的特征向量积就可以得到打分结果。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
1月前
|
存储 自然语言处理 物联网
2024年大模型最快的应用落地技术-Embedding向量优化
大模型技术的发展,对向量检索模型起到了促进的作用,未来可能会把向量检索模型合并成大模型的一个子任务。
|
8月前
|
存储 机器学习/深度学习 算法
语义检索系统排序模块:基于ERNIE-Gram的Pair-wise和基于RocketQA的CrossEncoder训练单塔模型
语义检索系统排序模块:基于ERNIE-Gram的Pair-wise和基于RocketQA的CrossEncoder训练单塔模型
语义检索系统排序模块:基于ERNIE-Gram的Pair-wise和基于RocketQA的CrossEncoder训练单塔模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用
深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用
|
9月前
|
人工智能 自然语言处理 算法
基于知识图谱的电影知识问答系统:训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询
基于知识图谱的电影知识问答系统:训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询
基于知识图谱的电影知识问答系统:训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询
|
机器学习/深度学习 SQL 存储
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
|
存储 人工智能 搜索推荐
【推荐系统】利用FM模型进行分类回归任务
【推荐系统】利用FM模型进行分类回归任务
277 0
|
人工智能 搜索推荐 TensorFlow
【推荐系统】TensorFlow实现FM特征分解机
【推荐系统】TensorFlow实现FM特征分解机
127 0
|
机器学习/深度学习 搜索推荐 算法
【推荐系统】POLY2、FM、FFM模型的进化之路
【推荐系统】POLY2、FM、FFM模型的进化之路
162 0
【推荐系统】POLY2、FM、FFM模型的进化之路
|
机器学习/深度学习 搜索推荐
推荐模型复现(二):精排模型DeepFM、DIN
DNN的参数过大:当特征One Hot特征转换为Dense Vector时,网络参数过大。 FNN和PNN的交叉特性少:使用预训练好的FM模块,连接到DNN上形成FNN模型,后又在Embedding layer和hidden layer1之间增加一个product层,使用product layer替换FM预训练层,形成PNN模型
317 0
推荐模型复现(二):精排模型DeepFM、DIN

热门文章

最新文章