显因子模型简介-阿里云开发者社区

显因子模型简介

2016-04-18 1385

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 　　SiGIR 2014在推荐系统方面收录了三篇很有价值的论文，提出了新的算法框架。在此介绍第一种算法框架（来自论文：Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis，基于短语级情感分析的可解释型推荐模型——显因子模型）。

　　SiGIR 2014在推荐系统方面收录了三篇很有价值的论文，提出了新的算法框架。在此介绍第一种算法框架（来自论文：Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis，基于短语级情感分析的可解释型推荐模型——显因子模型）。如与本文有不同理解，不吝赐教。

一、概述

EFM ( Explicit Factor Models，显因子模型），是针对LFM (Latent Factor Models，隐因子模型) 的不足而设计的。

　　LFM的特点如下：

a. 通过分类抽象出隐因子空间。在分类过程中，我们不需要关心分类的角度，结果都是基于用户打分自动聚类的。分类的粒度通过设置LFM的最终分类数来控制。

b. 对于每个物品，并不是明确地划分到某一类，而是计算其属于该类的程度。

c. 对于每个用户，计算他对每个类的兴趣度。

　　不足在于：

<1>单一的打分不能反映用户对物品各项特征的偏好，没有利用到用户评论。

<2>因为类别是抽象出来的，没有明确的含义，所以向用户推荐物品时，无法解释推荐理由。

　　EFM的特点如下：

a. 通过对用户评论进行phrase-level（短语级）的情感分析，显式地抽取物品的特征和用户的意见。

b. 对于每个物品，计算它对每个特征的包含程度。

c. 对于每个用户，计算他对每个特征的喜好程度。

d. 根据用户评论和打分两方面的数据（设置这两者的权重），计算得到用户-物品的喜好程度矩阵。

e. 向用户推荐购买物品的同时，也建议用户不要购买某些物品。

　　优点在于：

<1>充分利用用户评论，提高算法的精准度。

<2>因为物品的特征已经被显式的抽取出来，所以向用户推荐商品时，可以直观地解释推荐理由。从而帮助用户更快决定是否购买；特别是建议用户不要购买某些物品，有助于提高用户对系统的信任度。

二、EFM算法框架

　　1. 构建情感词典

EFM构建词典的过程用下面的例子说明：（有阴影的格子表示用户对该物品进行了评论。）

首先，从用户评论的 语料库抽取物品的特征（或者说，物品的某一方面）：screen、earphone。然后，抽取用户对这些特征的意见：perfect、good。如果这些表示意见的 词汇本身是积极的情感，则用1表示；反之则用-1表示。所以在这个例子中，情感短语表示为（screen, perfect, 1）, （earphone, good, 1），这一条条短语就组成了情感词典。

根据情感词典，对用户评论进行情感分析， 判断用户的情感是肯定的还是否定的。例如：perfect是肯定的，而good是否定的，因为前面加了否定词not。所以，这个例子中，用户的评论就可以表示成 特征/情感对：（screen, 1）, （earphone, -1）。

把用户的评论表示为 特征/情感对，是构建情感词典的目的。

2. 构建矩阵

EFM需要构建三个矩阵。

第一个是 用户打分矩阵A，表示第 i 个用户对第 j 个物品打的分数。由于用户不一定对所有物品都打过分数，所以没打分则记为零。

第二个是 用户-特征关注矩阵X，表示第 i 个用户对第 j 个特征的喜好程度：