阿里推荐算法：BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transform

2023-11-07

这篇是阿里猜你喜欢的一篇transformer paper,含金量很高。
注意：
1.bert用在推荐系统中，将用户的历史序列看做是词序列。
2.测试时，将序列的最后一个item进行masked
Abstract：
根据用户历史的行为信息，对用户动态的偏好衍变进行建模，是对推荐系统产生的巨大挑战。现有算法使用序列神经网络，只能从左向右，利用单向信息进行建模。尽管这些放大得到了很好的效果，但是他们设定的严格顺序是不实际的。因此，本文提出针对推荐系统的transformer的双向编码器表示。由于利用深度双向信息会造成信息的泄露，为了解决这个问题，本文使用Cloze task训练模型，利用上下文信息预测masked item。相比于预测next item，Cloze task可以产生多个训练样本。实验证明，本文提出的方法在多个数据集上效果明显

Introduction
精确地捕捉用户的兴趣，是推荐系统的核心问题。在实际生活中，用户的兴趣是根据历史偏好进行动态变化的。为了捕捉用户的偏好的动态变化，提出了许多根据用户历史交互信息的序列推荐算法，最早使用马尔科夫对用户序列进行建模，其中一些方法的强假设破坏了推荐系统的准确性。近期，一些序列神经网络在序列推荐问题中取得了不俗的效果。最基本的思想就是将用户的历史序列自左向右编码成一个embedding，然后基于这个embedding进行推荐。

本文认为自左向右的序列推荐算法限制了用户历史信息的发挥。无论是RNN还是MCs，都具有一定的顺序性。而这种顺序性的假设，对于实际生活中的用户行为并不适用。例如下图，三个口红的点击顺序对于用户的推荐并没有什么差别。因此，本文认为双向模型对于序列推荐问题更有效。

在这里插入图片描述
由于用户的行为序列很像是文本序列，而Bert是目前最好的自然语言处理模型。但是Bert不能直接用到序列推荐问题。如图，同时利用双向信息会造成信息的泄露，为了解决这个问题，采用了Cloze task，将输入序列进行随机的mask，然后利用上下文信息，预测mask item。利用cloze task任务还可以产生大量的训练样本。因为训练过程和最终的任务（预测序列的下一项）不匹配，所以在预测过程，我们将mask 加入到输入序列的最后，然后利用mask的embeeding进行推荐。

创新点：

1:提出了一种基于双向self-attention的cloze take用户行为序列建模方法。据我们所知，这是第一个将双向self-attention的cloze take用户行为序列建模引入推荐系统的算法。
2:我们将我们的模型与最先进的方法进行了比较，并通过对四个基准数据集的定量分析，证明了本文算法的有效性。
3:我们进行了一项消融分析，分析了模型中关键部件的影响

BERT4REC

一:问题定义：定义U={u1,…,un}为用户序列，V={v1,…,vn}，Su={u1u,…,un u }为用户u和商品的交互数据。目标就是预测用户下一次点击的商品，即

在这里插入图片描述

二:模型结构：如图b，是L层的Transformer，每一层利用前一层所有的信息。相比于图d的基于RNN的推荐模型，self-attention可以捕获任意位置的信息。相比于基于cnn的推荐模型，可以捕获整个field的信息。相比于图2c和图2d的模型（都是l2r的单向模型），本文提出的双向模型可以解决现有模型的问题

在这里插入图片描述

1:Transformer层
如图a，Transformer层有两层组成a Multi-Head Self-Attention sub-layer 和a Position-wise Feed-Forward network

1）.a Multi-Head Self-Attention sub-layer：在各种任务中，注意机制已经成为序列建模的一个组成部分，允许建模表示对之间的依赖关系，而不考虑它们在序列中的距离。以前的工作表明，在不同的位置联合处理来自不同表示子空间的信息是有益的[6,29,52]。因此，我们在这项工作中采用了Multi-Head Self-Attention代替单一的attention。特别地，Multi-Head Self-Attention就是将H通过不同的线性映射函数映射到h的子空间，然后将其concatenated后再一次映射
在这里插入图片描述

在这里插入图片描述

2）a Position-wise Feed-Forward Network：由于只有线性映射，为了使得模型具有非线性的性质，所以采用了a Position-wise Feed-Forward Network。使用了Gaussian Error Linear Unit，Φ(x)是高斯分布的累积分布函数，W (1) ∈ Rd×4d , W (2) ∈ R4d×d , b(1) ∈ R4d和b(2) ∈ Rd对所有位置共享，但是层与层之间不一样。
在这里插入图片描述

3）:Stacking Transformer Layer：可以学到更多item之间的交互信息，但是模型复杂了之后就不能训练深度模型，因此两个sub-layer在normal之后加入了residual connection，并且在每一个sub-layer输出后加入了dropout，LN是normal layer，其中μ和σ分别是均值和标准差，⊙是点乘，γ是scale因子，ϵ是一个很小的因子，为了防止分母为0：
在这里插入图片描述

2:模型总体：
在这里插入图片描述

3:Embedding层：**由于没有使用cnn和rnn，所以self-attention没有关注input序列的顺序性，因此加上位置向量，本文的位置向量是学到的，不是transformer中的正弦。**位置向量矩阵可以给定任意位置的向量，但是要明确最大的长度，因此需要对input序列进行截断：

在这里插入图片描述

4：Output层：用最后一层的向量进行预测。接入softmax，判断这个位置的item是什么。这里使用两层带有RELU激活函数的前馈网络，其中E是item的我们倍额定，和input层一致。wP是映射举着，bp和bo是bias
在这里插入图片描述

三：训练过程：单向模型的训练都是通过预测输入序列下一个位置。双向模型预测时可能会造成信息泄露，所以采用cloze taske，也就是将输入序列中的p%的词进行masked，然后根据上下文信息预测masked的词
在这里插入图片描述

将masked最终向量输入到softmax，损失函数定义如下：
在这里插入图片描述

如上所述，我们在训练过程和最终的序列推荐任务之间是不匹配的。因为

cloze taske的目的是预测当前的masked，而序列推荐的目的是预测未来。为了解决这个问题，我们将masked附加到用户行为序列的末尾，然后根据该maske的最终隐藏表示来预测下一项。为了更好地匹配序列推荐任务(即，预测最后一项)，我们还生成了在训练过程中只屏蔽输入序列中最后一项的样本。实验证明效果不错。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

推荐系统

阿里推荐算法：BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transform 的相关文章

基于深度学习的推荐系统（一）

本文主要介绍推荐系统基本概念以及基本的协同过滤算法原理推荐系统快速有效地从复杂的数据中获取有价值的信息成为大数据大战的关键难题推荐系统根据用户需求与兴趣通过推荐算法从海量数据中挖掘出用户感兴趣的项目如信息服务物品将结果以个性
基于用户的协同过滤算法

计算用户相似度和用户对未知物品的可能评分基于用户的协同过滤算法主要包括两个步骤 1 找到和目标用户兴趣相似的用户集合 2 找到这个集合中的用户喜欢的且目标用户没有听说过的物品推荐给目标用户例如现在有A B C D四个用户分别对a b
Pytorch中的torch.nn.Linear()方法的详解

torch nn Linear 作为深度学习中最简单的线性变换方法其主要作用是对输入数据应用线性转换先来看一下官方的解释及介绍 class Linear Module r Applies a linear transformation
注意力机制与兴趣演化在推荐系统当中的应用

什么是注意力机制注意力机制来源于人类天生的选择性注意的习惯最典型的例子是用户在浏览网页时会有选择性地注意页面的特定区域而忽视其他区域比如下图是 Google 对大量用户进行眼球追踪实验后得出的页面注意力热度图我们可以看
推荐算法：基于内容的推荐_1：内容推荐算法

基于内容的推荐推荐给用户他们过去喜欢的类似产品基于CF的推荐识别出具有相同爱好的用户给他们推产品基于内容的推荐算法基于内容推荐的步骤对数据内容分析得到物品的结构化描述分析用户过去的评分或评论过的物品的作为用户的训练样本
个人总结：推荐算法篇（附协同过滤等）综述

现代推荐系统对于在线部分来说一般要经历几个阶段首先通过召回环节将给用户推荐的物品降到千以下规模因为在具备一定规模的公司里是百万到千万级别甚至上亿所以对于每一个用户如果对于千万级别物品都使用先进的模型挨个进行排序打分明显速
Jina AI x 矩池云

近 5 年以来图片视频语音等非结构化数据的数量出现了爆发式增长随着深度学习技术的不断升级深度表征学习迁移学习对比学习等技术日益成熟非结构化数据的搜索也逐渐形成可能在此背景下专注于神经搜索技术的商业开源软件公司 Jina
深度学习系列：阿里DIN模型的原理和代码实现

一前言今天介绍阿里巴巴的DIN网络不得不说阿里妈妈的大佬是真的多经常都会更新非常多的创造性的东西比如DIN中使用的自适应正则化技术以及Dice激活函数以及注意力机制的使用并且值得注意的是DIN网络中使用的注意力机制还挺多的哈
计算机毕业设计之Python大数据招聘爬虫可视化招聘推荐系统职位薪资预测算法大数据招聘数据分析大数据毕业设计职位可视化(机器学习：预测+推荐+爬虫+可视化)

创新点预测算法招聘推荐薪资预测数据爬虫可视化技术 requests flask mysql 适合方向招聘类计算机毕业设计大数据毕业设计数据分析类毕业设计含有丰富的算法一定是适合你的哦说明爬虫模块是最新的实时维护
关联分析算法（一）——Apriori（先验算法）

算法思路简介 Apriori根据原始的销售表第一步列出所有元素所有元素独立组成一个集合计算每个集合的支持度然后根据最小支持度的阈值剔除掉小的支持度的集合第二步每个集合都增加一个与原有集合中没有的元素构成多个新的集合计算每个
YouTube 的视频推荐算法

转载 https www zhihu com question 20829671 answer 205421638 第一阶段基于User Video图游历算法 2008年 1 在这个阶段 YouTube认为应该给用户推荐曾经观看过视频的同
【Tensorflow 2.12 电影推荐系统之排序模型】

Tensorflow 2 12 电影推荐系统之排序模型学习笔记导入相关模块准备数据加载数据数据预处理获取词汇表构建模型定义评分排序模型定义损失函数以及模型评估指标定义完整的评分排序模型训练和评估创建排序模型实例缓存
基于用户的协同过滤推荐算法原理和实现

在推荐系统众多方法中基于用户的协同过滤推荐算法是最早诞生的原理也较为简单该算法1992年提出并用于邮件过滤系统两年后1994年被 GroupLens 用于新闻过滤一直到2000年该算法都是推荐系统领域最著名的算法本文简单介绍基
基于GBDT+LR模型的深度学习推荐算法

GBDT LR算法最早是由Facebook在2014年提出的一个推荐算法该算法分两部分构成第一部分是GBDT 另一部分是LR 下面先介绍GBDT算法然后介绍如何将GBDT和LR算法融合 1 1 GBDT算法 GBDT的全称是 Grad
毕业设计-SpringBoot-基于推荐算法的商城管理系统

环境开发工具 idea 数据库 MySQL5 7 jdk1 8 架构 SpringBoot 前端HTML 主要功能前台商城系统包含首页门户商品分类新品上线首页轮播商品推荐商品搜索商品展示购物车订单结算订单流程个人订单
【推荐系统】{1} —— 基于用户的协同过滤算法

协同过滤英语 Collaborative Filtering 简称CF 简单来说是利用某兴趣相投拥有共同经验之群体的喜好来推荐用户感兴趣的信息个人透过合作的机制给予信息相当程度的回应如评分并记录下来以达到过滤的目的进而帮助别人筛选
推荐系统实践(八)----评分预测

目前为止都是在讨论 T o p N TopN TopN 推荐即给定一个用户如何给他生成一个长度为 N N
【技术经验分享】计算机毕业设计Hadoop+Spark知识图谱股票基金推荐与预测系统股票基金可视化股票基金推荐系统股票基金可视化系统股票基金数据分析股票基金爬虫大数据

开发技术前端开发 vue js element ui echarts websocket 后端开发 springboot mybatis 数据库 mysql关系系数据库 neo4j图数据库大数据分析 hadoop spark flink
推荐算法实战项目：用户协同过滤(UserCF)原理以及案例实战(附完整 Python 代码)

协同过滤 collaborative filtering 是一种在推荐系统中广泛使用的技术该技术通过分析用户或者事物之间的相似性来预测用户可能感兴趣的内容并将此内容推荐给用户这里的相似性可以是人口特征的相似性也可以是历史浏览内容的相
lr推荐模型特征重要性分析

在分析lr模型特征重要性之前需要先明白lr模型是怎么回事儿 lr模型公式是sigmoid w1 x1 w2 x2 wn xn 其中w1 w2 wn就是模型参数 x1 x2 xn是输入的特征值对于lr模型来说特征可以分为两个粒度一个是

随机推荐

QT容器类（三）之 QMap、QHash

一介绍 QMap QMap中的key value对是升序排列的插入和删除操作中都可以使用运算符其下标为key 为避免创建不必要的空值推荐用vlaue 而不是从QMap中取值 QMap
在编译ASIO 时，出现编译警告Please define _WIN32_WINNT 解决办法

最近在学习ASIO库时出现编译警告 Please define WIN32 WINNT or WIN32 WINDOWS appropriately For example n add D WIN32 WINNT 0x0501 to th
Chromium revision is not downloaded. Run "npm install"

在使用依赖puppeteer的组件com时使用npm install 安装组件报错 Chromium revision is not downloaded Run npm install 解决思路 1 先安装 puppeteer 2 删
前后端分离项目实现登录（登录）

现在大部分的项目都是前后端分离项目在前后端分离项目中的身份验证我们经常采用JWT认证关于JWT认证的详细内容请移步上一篇博客最近做的项目恰好用到了JWT的身份验证今天拿出来说一下 login vue
CentOS停止维护那就用Alibaba Cloud Linux替代吧

Alibaba Cloud Linux是阿里云推出的Linux镜像系统 CentOS停止维护可以选择Alibaba Cloud Linux替代 Alibaba Cloud Linux全面兼容RHEL CentOS生态 CentOS RHEL
Echarts实现3d图表
“定点打击”——XPath 使用细则（Just For Selenium WebDriver）（md重制版）

定点打击 XPath 使用细则 Just For Selenium WebDriver md重制版该系列文章系个人读书笔记及总结性内容任何组织和个人不得转载进行商业活动 Selenium WebDriver中有关元素定位的学习需要XP
ts类型声明文件的正确使用姿势

ts类型声明文件的正确使用姿势 ts声明文件类型 DefinitelyTyped社区已定义 npm install types jquery save dev 与npm一同发布解释 package json 中有 types 字段或者有
动态链表

define CRT SECURE NO WARINGS include
数据库相关

目录第一章数据库概述 1 1 数据库的好处 1 2 数据库的常见概念 1 3 数据库的存储特点 1 4 数据库的常见分类 1 5 SQL语言的分类第二章 MySQL概述 2 1 MySQL的背景 2 2 MySQL的优点 2 3 My
闲谈IPv6-IPv6地址的scope到底是什么？

一台主机启动后每一块网卡都会自动生成一个fe80打头的链路本地地址这个地址在Linux上你删都删不掉不信你试试在Windows是可以删掉的但是只要你重置网卡它就会自动生成这个所谓的链路本地地址到底有何怪异我的主机安装两块网
复购客户sql

复购客户用户分析是电商数据分析中重要的模块在对用户特征深度理解和用户需求充分挖掘基础上进行全生命周期的运营管理拉新 gt 活跃 gt 留存 gt 价值提升 gt 忠诚请尝试回答以下3个问题现在数据库中有一张用户交易表order
大模型部署避坑指南之: undefined symbol: cublasLtGetStatusString，version libcublasLt.so.11

问题描述 OSError opt conda envs python35 paddle120 env lib python3 7 site packages nvidia cublas lib libcublas so 11 symbol
当我遇到线上内存溢出问题是如何查看的

首先我们自己写一个demo 来模拟内存溢出新建User类 private int id private String name byte a new byte 1024 1000 public User public User int i
python oj刷题网站_程序员常用的刷题网站

1 Lintcode Lintcode com LintCode网站是国内较大的在线编程测评网站此网站提供各大IT公司的算法面试题类型行分门别类由简单到中等再到难便于不同水平的程序员进行刷题练习同时网站支持多种语言 Java
LeetCode905. 按奇偶排序数组

给你一个整数数组 nums 将 nums 中的的所有偶数元素移动到数组的前面后跟所有奇数元素返回满足此条件的任一数组作为答案示例 1 输入 nums 3 1 2 4 输出 2 4 3 1 解释 4 2 3 1 2 4 1 3 和
PostgreSQL之pgsql命令行常用命令

文章目录 1 登录 1 1 psql报错 1 2 psql 错误致命错误用户 postgres Password 认证失败 2 常用操作 1 登录 1 1 psql报错详情分析 C Users Administrator gt pg
typecho反序列化漏洞复现

typecho框架存在反序列化漏洞利用此漏洞可执行任意代码环境搭建第一步第二步第三步第三步第四步第五步第六步第七步第八步第九步漏洞分析 typecho build install php 文件中使用unseria
Eclipse 安装集成 FindBugs BUG分析插件

一下载eclipse软件 https www eclipse org downloads 下载Zip压缩包解压缩即可二下载findbugs plugin压缩包官网下载或者是从其他资源获取 http findbugs sourcef
阿里推荐算法：BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transform

这篇是阿里猜你喜欢的一篇transformer paper 含金量很高注意 1 bert用在推荐系统中将用户的历史序列看做是词序列 2 测试时将序列的最后一个item进行masked Abstract 根据用户历史的行为信息对用户动

阿里推荐算法：BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transform

BERT4REC

阿里推荐算法：BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transform 的相关文章

随机推荐

热门标签