使用LFM（Latent factor model）隐语义模型进行Top-N推荐

2023-11-06

最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。

隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应用效果。比如，在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不同类别/主题，这些主题/类别可以理解为用户的兴趣。

对于一个用户来说，他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说，用户A会关注数学，历史，计算机方面的书，用户B喜欢机器学习，编程语言，离散数学方面的书，用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候，肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们要对所有item（图书）进行分类。那如何分呢？大家注意到没有，分类标准这个东西是因人而异的，每个用户的想法都不一样。拿B用户来说，他喜欢的三个类别其实都可以算作是计算机方面的书籍，也就是说B的分类粒度要比A小；拿离散数学来讲，他既可以算作数学，也可当做计算机方面的类别，也就是说有些item不能简单的将其划归到确定的单一类别；拿C用户来说，他倾向的是书的作者，只看某几个特定作者的书，那么跟A，B相比它的分类角度就完全不同了。

显然我们不能靠由单个人（编辑）或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。

此外我们还需要注意的两个问题：

我们在可见的用户书单中归结出3个类别，不等于该用户就只喜欢这3类，对其他类别的书就一点兴趣也没有。也就是说，我们需要了解用户对于所有类别的兴趣度。
对于一个给定的类来说，我们需要确定这个类中每本书属于该类别的权重。权重有助于我们确定该推荐哪些书给用户。

下面我们就来看看LFM是如何解决上面的问题的？对于一个给定的用户行为数据集（数据集包含的是所有的user, 所有的item，以及每个user有过行为的item列表），使用LFM对其建模后，我们可以得到如下图所示的模型：（假设数据集中有3个user, 4个item, LFM建模的分类数为4）

R矩阵是user-item矩阵，矩阵值Rij表示的是user i 对item j的兴趣度，这正是我们要求的值。对于一个user来说，当计算出他对所有item的兴趣度后，就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题，作为user和item之间连接的桥梁，将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵，矩阵值Pij表示的是user i对class j的兴趣度；Q矩阵式class-item矩阵，矩阵值Qij表示的是item j在class i中的权重，权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度
我们发现使用LFM后，

我们不需要关心分类的角度，结果都是基于用户行为统计自动聚类的，全凭数据自己说了算。
不需要关心分类粒度的问题，通过设置LFM的最终分类数就可控制粒度，分类数越大，粒度约细。
对于一个item，并不是明确的划分到某一类，而是计算其属于每一类的概率，是一种标准的软分类。
对于一个user，我们可以得到他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。
对于每一个class，我们可以得到类中每个item的权重，越能代表这个类的item，权重越高。

那么，接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前，我们需要准备一下数据集并对兴趣度的取值做一说明。

数据集应该包含所有的user和他们有过行为的（也就是喜欢）的item。所有的这些item构成了一个item全集。对于每个user来说，我们把他有过行为的item称为正样本，规定兴趣度RUI=1，此外我们还需要从item全集中随机抽样，选取与正样本数量相当的样本作为负样本，规定兴趣度为RUI=0。因此，兴趣的取值范围为[0,1]。

采样之后原有的数据集得到扩充，得到一个新的user-item集K={(U,I)}，其中如果(U,I)是正样本，则RUI=1，否则RUI=0。损失函数如下所示：
上式中的

是用来防止过拟合的正则化项，λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法：

通过求参数PUK和QKI的偏导确定最快的下降方向；

迭代计算不断优化参数（迭代次数事先人为设置），直到参数收敛。

其中，α是学习速率，α越大，迭代下降的越快。α和λ一样，也需要根据实际的应用场景反复实验得到。本书中，作者在MovieLens数据集上进行实验，他取分类数F=100，α=0.02，λ=0.01。
【注意】：书中在上面四个式子中都缺少了

综上所述，执行LFM需要：

根据数据集初始化P和Q矩阵（这是我暂时没有弄懂的地方，这个初始化过程到底是怎么样进行的，还恳请各位童鞋予以赐教。）
确定4个参数：分类数F，迭代次数N，学习速率α，正则化参数λ。

LFM的伪代码可以表示如下：

[python] view plain copy

def LFM(user_items, F, N, alpha, lambda):
#初始化P,Q矩阵
[P, Q] = InitModel(user_items, F)
#开始迭代
For step in range(0, N):
#从数据集中依次取出user以及该user喜欢的iterms集
for user, items in user_item.iterms():
#随机抽样，为user抽取与items数量相当的负样本，并将正负样本合并，用于优化计算
samples = RandSelectNegativeSamples(items)
#依次获取item和user对该item的兴趣度
for item, rui in samples.items():
#根据当前参数计算误差
eui = eui - Predict(user, item)
#优化参数
for f in range(0, F):
P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])
Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])
#每次迭代完后，都要降低学习速率。一开始的时候由于离最优值相差甚远，因此快速下降；
#当优化到一定程度后，就需要放慢学习速率，慢慢的接近最优值。
alpha *= 0.9

本人对书中的伪代码追加了注释，有不对的地方还请指正。

当估算出P和Q矩阵后，我们就可以使用(*)式计算用户U对各个item的兴趣度值，并将兴趣度值最高的N个iterm（即TOP N）推荐给用户。

总结来说，LFM具有成熟的理论基础，它是一个纯种的学习算法，通过最优化理论来优化指定的参数，建立最优的模型。

原文地址：http://blog.csdn.net/harryhuang1990/article/details/9924377

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

推荐系统

使用LFM（Latent factor model）隐语义模型进行Top-N推荐的相关文章

Apriori算法是什么？适用于什么情境？

Apriori适用于什么场景 Apriori算法是常用的用于挖掘出数据关联规则的算法它用来找出数据值中频繁出现的数据集合找出这些集合的模式有助于我们做一些决策例如什么商品集合顾客会在同一次购物中购买最著名的例子莫过于啤酒与尿布的故事
搜狐新闻算法原理

转载搜狐新闻推荐算法原理导读在当前这个移动互联网时代各种信息内容爆炸面对海量数据用户希望在有限的时间和空间内找到自己感兴趣的内容这就是推荐需要解决的问题接下来主要讲解新闻推荐的算法原理 01 新闻推荐算法架构新闻算法的核
Twitter开源时间线推荐架构整理（Twitter‘s Recommendation Algorithm）

马斯克最近开源了部分 Twitter的代码主要有两个仓库 main repo https github com twitter the algorithm ml repo https github com twitter the algo
CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

之前的文章讲解了DIEN模型 CTR深度学习模型之 DIEN Deep Interest Evolution Network 的理解与示例而这篇文章要讲的是DSIN模型它与DIEN一样都从用户历史行为中抽取兴趣表示但不同的是DSIN把
【推荐系统-＞统计学】辛普森悖论(Simpson‘s paradox)

辛普森悖论辛普森悖论 Simpson s paradox 也有其他名称是概率和统计中的一种现象即一种趋势出现在几组数据中但当这些组组合在一起时趋势就会消失或逆转这个结果在社会科学和医学科学统计中经常遇到并且当频率数据被过度地给
使用Spark ALS模型 + Faiss向量检索实现用户扩量实例

1 通过ALS模型实现用户商品Embedding的效果获得其向量表示准备训练数据 M U I R 即用户集U 商品集I 及评分数据R 1 商品集I的选择可以根据业务目标确定商品候选集比如TopK热度召回或者流行度不高但在业务用
【技术经验分享】计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习

创新点 1 支付宝沙箱支付 2 支付邮箱通知 JavaMail 3 短信验证码修改密码 4 知识图谱 5 四种推荐算法协同过滤基于用户物品 SVD混合神经网络 MLP深度学习模型 6 线性回归算法预测房价 7 Python爬虫采集链家数
推荐系统指标——Hit Ratio(HR)

我现在读过的文献里有两种定义第一种 Deep Collaborative Filtering with Multi Aspect Information in Heterogeneous Networks 中提到的原文中提到 where
项目实战----基于协同过滤的电影推荐系统

文章目录一数据整理二观察用户电影矩阵三协同过滤推荐 3 1 基于电影的协同过滤 3 2 基于用户的协同过滤推荐网页版点击这里一数据整理数据及介绍 MovieLens是推荐系统常用的数据集 MovieLens数据集中
# Python推荐系统学习笔记（3）------基于协同过滤的个性化推荐算法实战---隐语义模型

Python推荐系统学习笔记 3 基于协同过滤的个性化推荐算法实战隐语义模型一概念性理解传统的推荐方法 UserCF 首先需要找到和他们看了同样书的其他用户然后给他们推荐那些用户喜欢的其他书 ItemCF 需要给他们推荐和他们已经
推荐系统：Wide & Deep模型解析

1 Wide Deep模型介绍经典推荐深度模型 Wide Deep 对应的论文 Wide Deep Learning for Recommender Systems 链接 arxiv Wide Deep的模型架构如下图所示可以看到Wid
RS推荐系统-LSH最近邻查找+MiniHash

什么是最近邻查找在推荐系统中主要分为召回跟排序两个阶段召回阶段基于用户画像及场景数据从海量的视频库百万级别中将相关度最高的资源检索出来作为候选集召回阶段可以通过粗糙的方式召回候选item 排序阶段基于更加精细的特征对候
推荐系统用户画像标签聚类个性化搜索

最近在做短视频推荐和别的部门配合着做我们部门做用户画像这一部分回头看看我们部门以前做的用户画像只能称之为所谓的用户画像如果一个人不懂用户画像还好指挥来指挥去真的让人无言不知道其他公司的有没有这样的人儿那哈哈扯远了言归正传
基于用户的协同过滤算法（userCF）

1 定义 userCF 当一个用户A需要个性化推荐时可以先找到和他有相似兴趣的其他用户然后把那些用户喜欢的而用户A没有听说过的物品推荐给A 这种方法称为基于用户的协同过滤算法基于用户的协同过滤算法主要包括两个步骤 2 第一步找到和
开源的推荐系统简介TOP 10

最近这两年推荐系统特别火本文搜集整理了一些比较好的开源推荐系统即有轻量级的适用于做研究的SVDFeature LibMF LibFM等也有重量级的适用于工业系统的 Mahout Oryx EasyRecd等供大家参考 PS 这里的
推荐系统实践(八)----评分预测

目前为止都是在讨论 T o p N TopN TopN 推荐即给定一个用户如何给他生成一个长度为 N N
python推荐系统学习笔记（5）——基于图的模型推荐算法

python推荐系统学习笔记 5 基于图的模型推荐算法 2 1 用户行为数据的二分图表示为可以把基于邻域的模型看作基于图的模型的简单形式用户物品二分图模型对于数据集中每一个二元组 u i 图中都有一套对应的边e vu vi 其中vu属
【转载】探索推荐引擎内部的秘密

原网址 https www ibm com developerworks cn web 1103 zhaoct recommstudy1 index html icomments 这是2011年ibm发布的文章较为通俗易懂适合想入门推荐
推荐系统（四）——因果效应uplift model系列模型S-Learner，T-Learner，X-Learner

在之前的文章中我们介绍了使用因果推断中的去除混杂和反事实的相关理论来纠正推荐系统中的偏差问题在这篇文章中主要和大家分享uplift model相关知识和方法例子小夏的商铺在上次请了明星代言后销量有所上升但是他不清楚是不是每个人都对
推荐系统(3)——最经典的推荐算法(协同过滤算法原理部分)

一最经典的推荐算法协同过滤推荐算法 Collaborative Filtering 算法思想物以类聚人以群分基本的协同过滤推荐算法基于以下假设跟你喜好相似的人喜欢的东西你也很有可能喜欢基于用户的协同过滤推荐 User base

随机推荐

VMware-报错：无法将Ethernet0连接到虚拟网络VMnet8

by 小世界 http redcisco blog 163 com 版本 vmware10 0 0 物理机 win8 虚拟机 rhel6 3 问题无法将 Ethernet0 连接到虚拟网络 VMnet8 有关更多信息请参见 vmware
react-native-image-picker 4.0 集成

github react native image picker 4 x相对于 2 x 3 x已删除 showImagePicker 4 x相对于 2 x 3 x已删除 showImagePicker 4 x相对于 2 x 3 x已删除 s
【Linux下Docker安装JupterLab】

Linux下Docker安装JupterLab 拉取docker镜像 docker pull jupyter base notebook latest https jupyter docker stacks readthedocs io e
cicd 02--构建通用的CD流程

cicd 02 构建通用的CD流程 1 介绍 2 CD 构建过程 2 1 参数配置说明 2 2 pipeline 脚本 2 3 测试流程 3 注意事项 4 说明 1 介绍笔者在 cicd 01 构建通用的CI流程中介绍了一个通用的doc
简单分析 C 语言的 qsort() 源码

简单分析 C 语言的 qsort 源码 stdlib h 是使用 C 语言需要引入的库在系统文件下可以搜索到这个文件夹在里面可以看到有一个 qsort 文件用编译器或者记事本打开就能看到里面的源码了单从文件名看 qsort 采用的是快
unity ScriptableObject

ScriptableObject代替单例和单例一样在内存是独一份的是可以被不同的东西读取需要一些工具链配合结构是这样的 startEvent事件 gt EventListener事件监听 gt 事件数据Event 这样可以跨sce
Charles设置代理后，手机无法上网

要抓手机app的包手机配置好代理后能连接到Charles 但是手机无法上网原因 Charles开启了White list 解决方式关闭White List Tools gt White List 实现charles抓取手机访问 ht
解决“您一次只能安装一种 Adobe 产品”问题

由于dreamweaver不慎升级导致不能用故准备卸载了重新安装可是卸载之后一直装不上总是提示您一次只能安装一种 Adobe 产品用优化大师等软件卸载清除注册表信息都不行搜索后发现一款很好的软件 Windows Installe
Python变量类型的强制转换

当我们需要对数据的类型转换时只需要将数据类型作为函数名即可下面给出的函数可以执行数据类型之间的转换函数返回一个新的对象表示转换的值函数格式使用示例描述 int x base int 8 可以转换的包括String类型和其他数字
《C++API设计》阅读笔记1

1 API简介 API Application Programing Interface 提供了对某个问题的抽象以及客户与解决改问题的软件组件之间进行交互的方式组件本身通常以软件类库形式分发它们可以在多个应用程序中使用概括说 API
ROS机器人构建和深度学习应用

机器人操作系统是机器人研究和公司建模模拟和原型机器人使用最广泛的软件框架之一将您的 ROS 知识应用于实际机器人技术比人们意识到的要困难得多但是这个标题将立即为您提供创建自己的机器人技术所需的一切包含超过 14 个 ROS 机器人项
python中input（）函数详解

1 input 函数赋值后数据在python内部的类型 if name main a input print type a b input print type b c a b print c print type c 输入及输出从结果可
解决Anaconda环境未激活的warning

在cmd内键入python之后会报Warning 显示Anaconda环境未激活使用如下命令激活 conda activate base 这里base指环境名默认为base 查看环境名可以用如下命令 conda info envs
Oracle常见问题定位方法

Oracle在安装时无法正常显示出安装界面现象在vnc的界面中安装时提示 Can t connect to X11 window server using 1 0 as the value of the DISPLAY variabl
使用注解开发springmvc

第三步 pom xml文件引入相关依赖主要有Spring框架核心库 Spring MVC servlet JSTL等第四步配置web xml 映射路径不要为会404 第六步创建Controller RequestMapping
某宝滑块ua特征研究

从137版本开始某宝新加了x 82类型滑块和之前无感或者滑动验证js 类似不过浏览器特征检测反调试干扰都增加了不少变得更有难度下面稍微讲下研究过程首先处理大量三目运算符这个没啥好办法博主用ast处理的类似下面这种单步调试
贪心算法求解TSP问题（python）

这里使用贪心算法求解TSP问题的python版本 dist 为距离矩阵 start index 为起始位置 def tsp quick dist list start index int sum distance seq result n
用C++做一颗会跳动的爱心

先来看看效果程序描述程序先以较慢的速度画一个大爱心之后跳动的心其实从视觉上看就是一大一小两个心相互切换但是要调整一下大小爱心变化时的时间间隔代码主要是通过设置两个函数利用cls来清屏重复打印大心和小心并设置颜色为红色详细代
php公众号获取code,微信公众号获取code

methods getCode 非静默授权第一次有弹框 this code var local window location href 获取页面url var appid wx65adcf075369 this code this ge
使用LFM（Latent factor model）隐语义模型进行Top-N推荐

最近在拜读项亮博士的推荐系统实践系统的学习一下推荐系统的相关知识今天学习了其中的隐语义模型在Top N推荐中的应用在此做一个总结隐语义模型LFM和LSI LDA Topic Model其实都属于隐含语义分析技术是一类概念他们在

使用LFM（Latent factor model）隐语义模型进行Top-N推荐

使用LFM（Latent factor model）隐语义模型进行Top-N推荐 的相关文章

随机推荐

热门标签

使用LFM（Latent factor model）隐语义模型进行Top-N推荐的相关文章