推荐系统遇上深度学习(十一)--神经协同过滤NCF原理及实战

2023-10-31

原创：文文小小挖掘机 2018-06-02

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

论文地址：https://www.comp.nus.edu.sg/~xiangnan/papers/ncf.pdf

论文的翻译地址为：https://www.cnblogs.com/HolyShine/p/6728999.html

通过分析论文，写出一些简单的心得，如果不正确，请各位指正：

1）一般的协同过滤是指构建用户-项目矩阵，然后使用MF模型，进行模型的分解，将两者交互的信息作为用户或者项目的向量，然后来计算用户或者项目的相似度，相似的用户相互进行推荐；

但是这种方法存在一些问题：

即1.2中的缺陷，单纯的相似度运算，会引发相似度的可信度出问题，因此引入了隐含变量的说法，即将每个用户和项目分设出k维的隐含向量，然后通过隐含向量的内积运算得到用户对某个项目的评论值；

隐含向量的参数是通过神经网络的形式进行确定，由此产生了NCF模型，即为MF模型的扩展（MF模型是NCF模型的特例）。

1、Neural Collaborative Filtering

1.1 背景

本文讨论的主要是隐性反馈协同过滤解决方案，先来明确两个概念：显性反馈和隐性反馈：

显性反馈行为包括用户明确表示对物品喜好的行为
隐性反馈行为指的是那些不能明确反应用户喜好

举例来说：

很多应用场景，并没有显性反馈的存在。因为大部分用户是沉默的用户，并不会明确给系统反馈“我对这个物品的偏好值是多少”。因此，推荐系统可以根据大量的隐性反馈来推断用户的偏好值。

根据已得到的隐性反馈数据，我们将用户-条目交互矩阵Y定义为：

但是，Yui为1仅代表二者有交互记录，并不代表用户u真的喜欢项目i，同理，u和i没有交互记录也不能代表u不喜欢i。这对隐性反馈的学习提出了挑战，因为它提供了关于用户偏好的噪声信号。虽然观察到的条目至少反映了用户对项目的兴趣，但是未查看的条目可能只是丢失数据，并且这其中存在自然稀疏的负反馈。

在隐性反馈上的推荐问题可以表达为估算矩阵 Y中未观察到的条目的分数问题（这个分数被用来评估项目的排名）。形式上它可以被抽象为学习函数：

为了处理缺失数据，有两种常见的做法：要么将所有未观察到的条目视作负反馈，要么从没有观察到条目中抽样作为负反馈实例。

1.2 矩阵分解及其缺陷

传统的求解方法是矩阵分解(MF,Matrix Factorization)，为每个user和item找到一个隐向量，问题变为：

这里的 K表示隐式空间（latent space）的维度。正如我们所看到的，MF模型是用户和项目的潜在因素的双向互动，它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此，MF可视为隐向量（latent factor）的线性模型。

论文中给出了一个例子来说明这种算法的局限性：

1(a)是user-item交互矩阵，1(b)是用户的隐式空间，论文中强调了两点来理解这张图片：
1）MF将user和item分布到同样的隐式空间中，那么两个用户之间的相似性也可以用二者在隐式空间中的向量夹角来确定。
2）使用Jaccard系数来作为真实的用户相似性。
通过MF计算的相似性与Jaccard系数计算的相似性也可以用来评判MF的性能。我们先来看看Jaccard系数

上面的示例显示了MF因为使用一个简单的和固定的内积，来估计在低维潜在空间中用户-项目的复杂交互，从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响（e.g. 数据的过拟合问题），特别是在稀疏的集合上。论文通过使用DNNs从数据中学习交互函数，突破了这个限制。

1.3 NCF

本文先提出了一种通用框架：

针对这个通用框架，论文提出了三种不同的实现，三种实现可以用一张图来说明：

GMF：
上图中仅使用GMF layer，就得到了第一种实现方式GMF，GMF被称为广义矩阵分解，输出层的计算公式为：

MLP
上图中仅使用右侧的MLP Layers，就得到了第二种学习方式，通过多层神经网络来学习user和item的隐向量。这样，输出层的计算公式为：

NeuMF
结合GMF和MLP，得到的就是第三种实现方式，上图是该方式的完整实现，输出层的计算公式为：

1.4 模型实验

论文通过三个角度进行了试验：

RQ1 我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法？
RQ2 我们提出的优化框架（消极样本抽样的logloss）怎样为推荐任务服务？
RQ3 更深的隐藏单元是不是有助于对用户项目交互数据的学习？

使用的数据集：MovieLens 和 Pinterest 两个数据集

评估方案：为了评价项目推荐的性能，论文采用了leave-one-out方法评估，即：对于每个用户，我们将其最近的一次交互作为测试集（数据集一般都有时间戳），并利用余下的培训作为训练集。由于在评估过程中为每个用户排列所有项目花费的时间太多，所以遵循一般的策略，随机抽取100个不与用户进行交互的项目，将测试项目排列在这100个项目中。排名列表的性能由命中率（HR）和归一化折扣累积增益（NDCG）来衡量。同时，论文将这两个指标的排名列表截断为10。如此一来，HR直观地衡量测试项目是否存在于前10名列表中，而NDCG通过将较高分数指定为顶级排名来计算命中的位置。本文计算每个测试用户的这两个指标，并求取了平均分。

Baselines，论文将NCF方法与下列方法进行了比较：ItemPop，ItemKNN，BPR，eALS。

以下是三个结果的贴图，关于试验结果的解读，由于篇幅的原因，大家可以查看原论文。

RQ1试验结果

简单的结论，即NCF效果好于BaseLine模型，如果不好的话论文也不用写了，哈哈。

RQ2试验结果

Figure 6 表示将模型看作一个二分类任务并使用logloss作为损失函数时的训练效果。
Figure7 表示采样率对模型性能的影响（横轴是采样率，即负样本与正样本的比例）。

RQ3试验结果

上面的表格设置了两个变量，分别是Embedding的长度K和神经网络的层数，使用类似网格搜索的方式展示了在两个数据集上的结果。增加Embedding的长度和神经网络的层数是可以提升训练效果的。

2、NCF实战

本文的github地址为：https://github.com/princewen/tensorflow_practice/tree/master/recommendation/Basic-NCF-Demo

本文仅介绍模型相关细节，数据处理部分就不介绍啦。

项目结构如下：

数据输入
本文使用了一种新的数据处理方式，不过我们的输入就是三个：userid，itemid以及label，对训练集来说，label是0-1值，对测试集来说，是具体的itemid

def get_data(self):
    sample = self.iterator.get_next()
    self.user = sample['user']
    self.item = sample['item']
    self.label = tf.cast(sample['label'],tf.float32)

定义初始化方式、损失函数、优化器

def inference(self):
    """ Initialize important settings """
    self.regularizer = tf.contrib.layers.l2_regularizer(self.regularizer_rate)
 
    if self.initializer == 'Normal':
        self.initializer = tf.truncated_normal_initializer(stddev=0.01)
    elif self.initializer == 'Xavier_Normal':
        self.initializer = tf.contrib.layers.xavier_initializer()
    else:
        self.initializer = tf.glorot_uniform_initializer()
 
    if self.activation_func == 'ReLU':
        self.activation_func = tf.nn.relu
    elif self.activation_func == 'Leaky_ReLU':
        self.activation_func = tf.nn.leaky_relu
    elif self.activation_func == 'ELU':
        self.activation_func = tf.nn.elu
 
    if self.loss_func == 'cross_entropy':
        # self.loss_func = lambda labels, logits: -tf.reduce_sum(
        #       (labels * tf.log(logits) + (
        #       tf.ones_like(labels, dtype=tf.float32) - labels) *
        #       tf.log(tf.ones_like(logits, dtype=tf.float32) - logits)), 1)
        self.loss_func = tf.nn.sigmoid_cross_entropy_with_logits
 
    if self.optim == 'SGD':
        self.optim = tf.train.GradientDescentOptimizer(self.lr,
                                                       name='SGD')
    elif self.optim == 'RMSProp':
        self.optim = tf.train.RMSPropOptimizer(self.lr, decay=0.9,
                                               momentum=0.0, name='RMSProp')
    elif self.optim == 'Adam':
        self.optim = tf.train.AdamOptimizer(self.lr, name='Adam')

得到embedding值
分别得到GMF和MLP的embedding向量，当然也可以使用embedding_lookup方法：

with tf.name_scope('input'):
    self.user_onehot = tf.one_hot(self.user,self.user_size,name='user_onehot')
    self.item_onehot = tf.one_hot(self.item,self.item_size,name='item_onehot')
 
with tf.name_scope('embed'):
    self.user_embed_GMF = tf.layers.dense(inputs = self.user_onehot,
                                          units = self.embed_size,
                                          activation = self.activation_func,
                                          kernel_initializer=self.initializer,
                                          kernel_regularizer=self.regularizer,
                                          name='user_embed_GMF')
 
    self.item_embed_GMF = tf.layers.dense(inputs=self.item_onehot,
                                          units=self.embed_size,
                                          activation=self.activation_func,
                                          kernel_initializer=self.initializer,
                                          kernel_regularizer=self.regularizer,
                                          name='item_embed_GMF')
 
    self.user_embed_MLP = tf.layers.dense(inputs=self.user_onehot,
                                          units=self.embed_size,
                                          activation=self.activation_func,
                                          kernel_initializer=self.initializer,
                                          kernel_regularizer=self.regularizer,
                                          name='user_embed_MLP')
    self.item_embed_MLP = tf.layers.dense(inputs=self.item_onehot,
                                          units=self.embed_size,
                                          activation=self.activation_func,
                                          kernel_initializer=self.initializer,
                                          kernel_regularizer=self.regularizer,
                                          name='item_embed_MLP')

GMF
GMF部分就是求两个embedding的内积：

with tf.name_scope("GMF"):
    self.GMF = tf.multiply(self.user_embed_GMF,self.item_embed_GMF,name='GMF')

MLP

with tf.name_scope("MLP"):
    self.interaction = tf.concat([self.user_embed_MLP, self.item_embed_MLP],
                                 axis=-1, name='interaction')
 
    self.layer1_MLP = tf.layers.dense(inputs=self.interaction,
                                      units=self.embed_size * 2,
                                      activation=self.activation_func,
                                      kernel_initializer=self.initializer,
                                      kernel_regularizer=self.regularizer,
                                      name='layer1_MLP')
    self.layer1_MLP = tf.layers.dropout(self.layer1_MLP, rate=self.dropout)
 
    self.layer2_MLP = tf.layers.dense(inputs=self.layer1_MLP,
                                      units=self.embed_size,
                                      activation=self.activation_func,
                                      kernel_initializer=self.initializer,
                                      kernel_regularizer=self.regularizer,
                                      name='layer2_MLP')
    self.layer2_MLP = tf.layers.dropout(self.layer2_MLP, rate=self.dropout)
 
    self.layer3_MLP = tf.layers.dense(inputs=self.layer2_MLP,
                                      units=self.embed_size // 2,
                                      activation=self.activation_func,
                                      kernel_initializer=self.initializer,
                                      kernel_regularizer=self.regularizer,
                                      name='layer3_MLP')
    self.layer3_MLP = tf.layers.dropout(self.layer3_MLP, rate=self.dropout)

得到预测值

with tf.name_scope('concatenation'):
    self.concatenation = tf.concat([self.GMF,self.layer3_MLP],axis=-1,name='concatenation')
 
 
    self.logits = tf.layers.dense(inputs= self.concatenation,
                                  units = 1,
                                  activation=None,
                                  kernel_initializer=self.initializer,
                                  kernel_regularizer=self.regularizer,
                                  name='predict')
 
    self.logits_dense = tf.reshape(self.logits,[-1])

测试集构建
这里只介绍几行关键的测试集构建代码，整个流程希望大家可以看一下完整的代码。
需要明确的一点是，对于测试集，我们的评价不只是对错，还要关注排名，所以测试集的label不是0-1，而是具体的itemid
首先，对每个user取最后一行作为测试集的正样本：

split_train_test = []
 
for i in range(len(user_set)):
    for _ in range(user_length[i] - 1):
        split_train_test.append('train')
    split_train_test.append('test')
 
full_data['split'] = split_train_test
 
train_data = full_data[full_data['split'] == 'train'].reset_index(drop=True)
test_data = full_data[full_data['split'] == 'test'].reset_index(drop=True)

添加一些负采样的样本，这里顺序是，1正样本-n负样本-1正样本-n负样本....，每个用户有n+1条数据，便于计算HR和NDCG：

feature_user.append(user)
feature_item.append(item)
labels_add.append(label)
 
for k in neg_samples:
    feature_user.append(user)
    feature_item.append(k)
    labels_add.append(k)

不打乱测试集的顺序，设置batch的大小为1+n:

dataset = tf.data.Dataset.from_tensor_slices(data)
dataset = dataset.batch(test_neg + 1)

计算HR和NDCG

def hr(gt_item, pred_items):
    if gt_item in pred_items:
        return 1
    return 0
 
 
def ndcg(gt_item, pred_items):
    if gt_item in pred_items:
        index = np.where(pred_items == gt_item)[0][0]
        return np.reciprocal(np.log2(index + 2))
    return 0

更详细的代码可以参考github，最好能够手敲一遍来理解其原理哟！

参考文章

https://www.comp.nus.edu.sg/~xiangnan/papers/ncf.pdf
https://www.cnblogs.com/HolyShine/p/6728999.html

MF：https://blog.csdn.net/shulixu/article/details/75349138

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

推荐系统

随机推荐

AngularJS最理想开发工具WebStorm

AngularJS体验式编程系列文章将介绍如何用angularjs构建一个强大的web前端系统 angularjs是由Google团队开发的一款非常优秀web前端框架在当前如此多的web框架下 angularjs能脱颖而出从架构设计上
vue中element-ui不能修改el-input框，或者是不能修改某些值

1 删除scoped 简单快捷但是大家都知道scoped是为了让代码有自己的作用范围有时候是是不好的 2 重写覆盖注意的是要写自己的类名否则也会造成全部的覆盖
Ubuntu18.04安装g2o遇到的坑-TARGETS given no ARCHIVE DESTINATION for static library target

今天跑深蓝学院多传感融合第四章作业时发现没有安装g2o库按照深蓝学院给的说明安装此版本的g2o 发现报了以下错误 CMake Error at core CMakeLists txt 49 install install TARGET
计算机中数值编码的表示

整数在计算机中的表示在计算机中因为只有0和1两种形式为了表示数的正负号就要将数的符号以 0 和 1 编码通常把一个数的最高位定义为符号位用 0 表示正 1 表示负称为数符这种把数本身数值部分及符号一起数字化的数称为机
使用IDEA 刷新项目清除缓存

等我们点击完之后会重新启动IDEA
计算机变成飞行模式无法上网,win10电脑中开启了飞行模式不能上网如何解决

win10电脑中开启了飞行模式不能上网如何解决今天给大家介绍一下win10电脑中开启了飞行模式不能上网的具体解决方法 1 首先打开电脑进入桌面点击左下角的开始图标 2 如图在打开的菜单中点击左侧的齿轮图标进入设置 3 在打开的设
Java 8 将Map转换为List

将一个Java示例转换Map为List 汇总 Map
深聊MySQL，从入门到入坟之：定位慢SQL的方法还可以这样，小菜鸡都能看懂。

如何定位慢SQL 1 引言 2 定位慢SQL 2 1 日志定位 2 1 1 开启阈值 2 1 2 操作步骤 2 2 show processlist 来定位 2 2 1 简介 2 2 2 使用 3 总结 1 引言小鱼小屌丝你在干啥呢
springboot整合swagger传递的参数为list数组时应该怎么设置？

springboot集成swagger时遇到一个错误从错误提示上看到ids的传递有问题代码修改后解决问题 ApiOperation value 批量删除用户信息 notes 根据url的id集合集来批量删除对象 ApiImplicit
有赞怎么查看html代码,有赞 GO 项目单测、集成、增量覆盖率统计与分析

一引言我是一名中间件 QA 我对应的研发团队是有赞 PaaS 目前我们团队有很多产品是使用 go 语言开发因此我对 go 语言项目的单测覆盖率集成以及增量测试覆盖率统计与分析做了探索二单测覆盖率以及静态代码分析 2 1 单测覆盖
解决Node.js mysql客户端不支持认证协议引发的“ER_NOT_SUPPORTED_AUTH_MODE”问题

解决Node js mysql客户端不支持认证协议引发的 ER NOT SUPPORTED AUTH MODE 问题报错信息当我试图使用mysql模块来连接MySQL 8时出现了如下错误信息 Unhandled rejection S
linux的brk函数源码分析读书笔记

最近分析内存申请一系列关系应用程序自己的内存池 malloc tcmalloc jemalloc对内存的管理现在分析linux操作系统对内存申请的管理即brk函数系统调用sys brk包括两个主要函数 do munmap 用于内存的
找不到硬盘分区怎么办

找不到硬盘分区怎么办硬盘分区丢失一般都是因为损坏问题导致的其中可以分为两个大类第一种是硬损坏包括磁头组件损坏控制电路损坏综合性损坏和扇区物理性损坏一般人称之为物理坏道等第二种是软损坏包括磁道伺服信息出错系统信息区出错和
TOMCAT开放远程调试端口

设置远程调试配置方法一 windows系统在catalina bat里 SET CATALINA OPTS server Xdebug Xnoagent Djava compiler NONE Xrunjdwp transport dt
2019年第十届蓝桥杯省赛A组（C/C++组）迷宫（BFS）

试题 D 迷宫问题描述下图给出了一个迷宫的平面图其中标记为 1 的为障碍标记为 0 的为可以通行的地方 010000 000100 001001 110000 迷宫的入口为左上角出口为右下角在迷宫中只能从一个位置走到这个它
Could not load dynamic library ‘cublas64_10.dll‘； dlerror: cublas64_10.dll not found或者缺少DLL问题

项目场景 tensorflow对GPU的支持尤其是对英伟达GPU的支持不只是下个tensorflow gpu就完事了还需要一系列显卡相关的软件的版本匹配比如最常见的就是那个cuda的版本匹配问题当然匹配后也不可避免的有很多奇怪的问
SpringBoot多线程事务回滚

1 最近有一个大数据量插入的操作入库的业务场景需要先做一些其他修改操作然后在执行插入操作由于插入数据可能会很多用到多线程去拆分数据并行处理来提高响应时间如果有一个线程执行失败则全部回滚 2 在spring中可以使用 Transa
Task07 Transformer 解决文本分类任务、超参搜索

文章目录 1 微调预训练模型进行文本分类 1 1 加载数据小小总结 1 2 数据预处理 1 3 微调预训练模型 1 4 超参数搜索总结 1 微调预训练模型进行文本分类 GLUE榜单包含了9个句子级别的分类任务分别是 1 鉴别一个句子是
【网络】记一次重启网卡之后网络故障原因排查

一事件背景远程通过ssh连接服务器后执行命令 nmcli con modify ens33 ipv4 dns 8 8 8 8 为ens33网卡添加dns 然后执行命令 nmcli c up ens33 命令重新激活网卡此时远程网络连
推荐系统遇上深度学习(十一)--神经协同过滤NCF原理及实战

原创文文小小挖掘机 2018 06 02 笔者是一个痴迷于挖掘数据中的价值的学习人希望在平日的工作学习中挖掘数据的价值找寻数据的秘密笔者认为数据的价值不仅仅只体现在企业中个人也可以体会到数据的魅力用技术力量探索行为密码让