阿里最新研究:当ChatGPT 遇上推荐系统,遭遇滑铁卢

2023-05-16

文 | 小戏

在 GPT-4 屠榜了 NLP,SAM 零样本分割一切让 CV 消失后,不知道大家会不会有好奇 AI 三大现实应用的另一边岁月静好的推荐系统有没有感受到来自遥远大模型带来的巨大压力。

alt

尽管 ChatGPT 的训练过程似乎没有对推荐系统太多的兼容,但是就现在 ChatGPT + 一切的大势来看,ChatGPT 把手伸到推荐系统也是或早或晚的事。

不过先说一个好消息,在阿里团队针对 ChatGPT 应用于推荐系统的细致测评后,终于,推荐算法工程师的工作看起来是保住了ChatGPT 在许多任务上的表现都差强人意,ChatGPT 强大的泛化能力似乎在推荐系统中暂时失效了

但是,总还带着一个但是,研究也发现,当不使用传统的评价方法,而采用真人评估时,ChatGPT 似乎更能真正理解提供的信息并生成更清晰、更合理的结果,并且这还是在完全没有使用 ChatGPT 在专门的推荐数据集上训练得到的结果。

这似乎暗示了虽然现在 ChatGPT 还不能向对 NLP 那样颠覆现有的研究范式,但是这类大规模语言模型在推荐系统中似乎未来可期……那么就一起来看看今天的这篇工作吧!

论文题目:
Inducing anxiety in large language models increases exploration and bias
论文链接:
https://arxiv.org/abs/2304.10149

各个大模型的研究测试传送门

阿里通义千问传送门: https://tongyi.aliyun.com/chat

百度文心一言传送门: https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接测试): https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可): https://gpt4test.com

从协同过滤到 ChatGPT

简单回想一下推荐系统近年来的发展,从最开始的协同过滤,到后来将深度学习技术引入推荐系统,衍生出基于内容的推荐、基于知识的推荐等等。但是,这些方法共同具有的显著制约在于它们都是特定于任务的,因此需要特定的数据进行训练。而过去 NLP 所说的范式转移,恰恰是构建了不同的预训练模型,显著增强了这些模型的泛化能力。

alt

因此,最近一段时间,也有不少关于推荐系统的预训练语言模型出现,譬如 P5 以及 M6-Rec 。伴随着这几个月 ChatGPT 风头正起,ChatGPT 在句子重述、情感分析及机器翻译等任务上都颇具竞争力,那一个随着而来的问题就是 ChatGPT 是否能在经典的推荐任务中保持良好的性能呢?这篇文章就此展开。

整个将 ChatGPT 用于推荐的工作流如下图所示,针对不同的推荐任务,论文设计了一系列不同的 Prompt,将 ChatGPT 作为一个黑盒式的推荐器,通过一步为保证输出稳定性的输出精炼步骤,得到最终推荐结果。区别于传统的推荐系统,在使用 ChatGPT 的整个过程中,都没有对 ChatGPT 进行微调,而直接考验其的泛化能力。

alt

Prompt 设计

针对不同任务的 Prompt 主要由三部分构成,分别是任务描述(Task Description),行为注入(Behavior Injection)以及格式指示(Format Indicator)。其中任务描述用来将推荐任务表述为自然语言处理任务,行为注入被设计用来捕捉用户的偏好与需求,格式指示则用于规范输出格式,使得推荐结果更易理解和评估。特别的,由于 ChatGPT 生成模型的特质,其回复生成过程被人为的引入了随机性,这一点在推荐系统中将会导致推荐的输出结果不可靠,从而使得评估推荐系统的表现出现困难。因此,论文设计了输出精炼(Output Refinement)模块,对输出进行格式检查,如果输出通过了格式检查,则代表其格式可以用于后续评估工作,而如果没有通过,则基于规则进行格式修正,直到满足格式要求为至。

alt

具体而言,针对五种经典的推荐系统任务,其 zero-shot 与 few-shot Prompt 设计如下:

正确率导向型任务

alt
  • 评分预测:评分预测旨在预测用户对特定项目的评分,如上图所示,黑字部分代表任务的描述,评分预测被翻译为“How will user rate this product_title?”,灰字表示当前的输入,即要求用户评分的项目,红字表示针对输出的格式要求,在评分预测任务中,要求有“1 being lowest and 5 being highest”和“Just give me back the exact number a result”;
  • 序列推荐:序列推荐任务要求系统根据用户过去的序贯行为预测其之后的行为,如上图所示,论文为该任务设计了三种 Prompt 格式,分别是基于交互历史直接预测用户的下一个行为,从候选列表中选出可能的下一个行为以及判断指定行为成为用户下一个行为的可能性;
  • 直接推荐:直接推荐指通过利用用户评分或评论信息直接显示反馈推荐的任务,论文将这一任务的 Prompt 设计为从潜在的候选项中选择出最适合的一项;

生成导向型任务

alt
  • 解释生成:解释生成是为用户提供解释以澄清为什么会推荐此项的推荐系统任务,具体地,如上图所示,论文要求 ChatGPT 生成一个文本解释,以阐明解释生成过程,对每个类别,可以包含如提示词或星级评分等的辅助信息;
  • 评论总结:旨在使用推荐系统自动生成用户评论摘要。通过输入用户的评论信息,Prompt 提示推荐系统总结评论的主要含义。

测评!ChatGPT 到底是不是一个好的推荐器?

为了测评 ChatGPT 的推荐能力,论证在亚马逊的真实数据集 Beauty 上进行了广泛的实验,旨在回答如下三个问题:

  1. 与现有的推荐模型相比,ChatGPT 表现究竟如何?
  2. Few-shot 对 ChatGPT 有何影响?
  3. 真实人类如何评价 ChatGPT 的推荐?

具体而言,论文将商品标题作为元信息,收集用户点击或互动过的 n 件物品(n=10)和 k 条历史记录(k=3),隐式学习用户的兴趣。对于序列推荐任务的三种任务描述,第一种通过论文按顺序输入用户的历史交互物品,并让 ChatGPT 直接预测进行实现,第二种在评估中设置正样本数为 1,负样本数为 99,从而形成一个长度为 100 的候选列表,用于 ChatGPT 进行选择的任务。第三种则使用 Bert 计算标题向量与所有向量的相似度,选择相似度最高的物品作为候选。而对于生成型任务,论文对每个任务采样了一些不同方法的结果,由人工手动进行评分和排名。

评分预测

alt

评分预测主要使用 RMSE(Root Mean Square Error,RMSE) 和 MSE(Mean Absolute Error,MAE) 进行评估,如上表所示,对比 MF 和 MLP 方法,可以看出,使用 few-shot 的 ChatGPT 评分优于两种传统方法,体现了这类大规模语言模型在这种预测任务中的良好性能

序列推荐

alt

序列推荐任务主要使用 HR@k(top-k Hit Ratio,HR@k)以及 NDCG@k(top-k Normalized Discounted Cumulative Gain,NDCG@k)进行评估。对比传统模型(传统深度学习推荐模型及预训练推荐系统模型),可以明显发现在 zero-shot 下 ChatGPT 表现几乎全线低于所有基准模型,而当使用了 few-shot 时,尽管看得出来性能有所提示,在 NDCG@5 中超过了 GRU4Rec,但是依旧明显弱于其他所有传统模型。对于这一结果,论文猜测可能是由于 ChatGPT 输入字符的限制,导致推荐物品主要以标题作为表示,这使得物品之间的关系无法被有效表示,这对推荐任务来说可能是至关重要的。同时,ChatGPT 也有可能生成不存在于数据集中的项目标题,但是论文作者表示,尽管他们已经使用相似性匹配将预测标题映射到了数据集中现有的标题中,但是这种映射并没有带来显著的增益。

直接推荐

alt

直接推荐使用了与序列推荐相似的评价标准,从结果可以看到,当使用 zero-shot 时,推荐性能依然显著低于传统方法,这可能源于给 ChatGPT 的信息不足,导致无法捕捉用户的兴趣。当然,虽然使用了 few-shot 方法对模型性能带来了提升,但是依然没有打败传统方法

而更有意思的一点是,论文发现 ChatGPT 的推荐似乎非常依赖了构建的候选池中项目的顺序。在极端情况下,当正确值被放在候选池中的第一个位置时,ChatGPT 的评估指标比打乱时高于十倍。这一点似乎表明 ChatGPT 进行推荐时更多的参考的答案 A,B,C,D 的位置,并且带有偏差的得出了越靠前的选项越重要,换言之 ChatGPT 似乎通过大量刷题,没有学到试卷里的要考察的真正知识,而是学到了选 A,B 的概率要大于选 C,D 的概率这一信息,这个错误的知识会为 ChatGPT 在许多任务的应用中带来巨大的麻烦,也为 ChatGPT 的智能性提出了挑战

解释生成

alt

对于生成类任务,论文使用了双语替换评测(Bilingual Evaluation Understudy,BLEU-n)以及 n-gram 召回导向评价(Recall-Oriented Understudy for Gisting Evaluation,ROUGE-n)来评估解释生成和评论总结任务。从指标的角度来看,以 P5 为代表的预训练推荐系统似乎表现更加出色,但是作者在考察来了 ChatGPT 生成的句子后,如下图所示,可以看到 ChatGPT 的生成能力十分出色,因此作者开始思考是否是传统的评价指标带来了这种评价偏差

alt

论文认为,由于 P5 的学习方式更加专注于文本结构与语法规则,因此似乎表现更加出色。而 ChatGPT 由于其对话生成的特性,更加考虑了语言交互和多样性,因此可能并不受这些传统的指标的青睐。而如果引入真实人类进行评价,如下图所示,我们可以看到,尽管四位人工注释者的结果有一定程度的主观性,但得分分布相对一致,普遍认为 ChatGPT 生成的解释更清晰更合理,甚至优于基准解释。与此同时,P5 的表现最差,其生成结果往往得出并不流畅的句子

alt

评论摘要

类似于解释生成,论文首先对比在 BLEU 和 ROUGE 指标下不同模型的生成结果。

alt

显然,在传统指标中,依然是 P5 占优,通过考察 P5 的生成结果,发现 P5 的摘要经常性的会遗漏关键词,尽管符合句法逻辑,但是这类摘要却忽略了评论中最有意义的信息。而 ChatGPT 则通过深入地理解和总结生成了更有效的摘要

alt

通过进行人类评估也可以发现,所有注释者一致认为 ChatGPT 表现最佳,远超基准和 P5。

alt

总结

这篇论文通过构建 ChatGPT 用于推荐任务的工作流,横向对比评估了 ChatGPT 在不同推荐任务中的性能,可以看到在评分类、生产类的任务中,ChatGPT 都取得了领先,这大概率源于 ChatGPT 自身学习时具有的独特能力。

但是 ChatGPT 在真正“推荐”上,由于其输入字符等的局限性,导致表现普遍差于现有的方法,甚至使用 ChatGPT 的推荐,还暗含了许多没有被注意到的内部偏差,这些都对 ChatGPT 在推荐中的应用埋下隐患**。

但是,现在的 ChatGPT 还是一个完全没有经过微调,也没有在特定数据集上进行学习过的模型,而其蕴含的对顺序偏好的误差,一方面表明 ChatGPT 似乎不那么聪明,但另一方面又能代表 ChatGPT 强大的归纳统计能力。这篇论文很清晰的点出了 ChatGPT 用于推荐的局限性,但是也可以开启人们对于这类强大模型用于推荐的讨论。

ChatGPT 的强大能力是令人感到欣喜的,尽管这一阵子写了不少 ChatGPT 取代这取代那的文章,但是与其说是取代,倒不如说是 ChatGPT 的出现开始倒逼我们不断去思考去重新定义我们所处的行业、所做的工作、所用的技术。倒也不用担忧未来 GPT-78910 对我们生活林林总总的影响,至少目前,归根结底,ChatGPT 还只是一个背答案的大小孩而已。

本文由 mdnice 多平台发布

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

阿里最新研究:当ChatGPT 遇上推荐系统,遭遇滑铁卢 的相关文章

随机推荐

  • positional encoding位置编码详解:绝对位置与相对位置编码对比

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • Pytorch与Tensorflow,哪个更适合你?

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • 抖音算法推荐机制详解(科普向)

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • 小样本学习只是一场学术界自嗨吗

    文 ALme 64 知乎 这两年看见很多人 xff0c 包括我实习的mentor在内 xff0c 都在批评few shot learning xff0c 觉得是学术界在自high xff0c 思考良久 xff0c 感觉有必要给这个领域正个名
  • ChatGPT镜像来了,体验核心能力

    1月份开始 xff0c chatgpt开始火上天了 但其实很多人都不知道它真正的能力和魅力在哪里 甚至有人不停的问他是男的女的 xff0c 多大岁数 xff0c 叫啥名字 xff0c 然后问了几个无聊的闲聊问题后 xff0c 觉得这个AI好
  • 超详细面经分享!@最近考虑换工作的伙伴们

    文 xff5c ELon Z 源 xff5c AI机器学习与知识图谱 编 xff5c 极市平台 本文作者在秋招期间面试了10 43 家互联网公司 xff0c 总结了不同公司的考察点以及面试准备的全过程中的经验 帮助大家对各公司有个大致的认知
  • 详解webpack构建优化

    当项目越来越复杂时 xff0c 会面临着构建速度慢和构建出来的文件体积大的问题 webapck构建优化对于大项目是必须要考虑的一件事 xff0c 下面我们就从速度和体积两方面来探讨构建优化的策略 分析工具 在优化之前 xff0c 我们需要了
  • GPT4国内镜像站

    GPT 4介绍 GPT 4是OpenAI发布的最先进的大型语言模型 xff0c 是ChatGPT模型的超级进化版本 与ChatGPT相比 xff0c GPT 4的推理能力 复杂问题的理解能力 写代码能力得到了极大的强化 xff0c 是当前人
  • 阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

    各个大模型的研究测试传送门 阿里通义千问传送门 xff1a https tongyi aliyun com chat 百度文心一言传送门 xff1a https yiyan baidu com ChatGPT传送门 xff08 免墙 xff
  • 清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

    夕小瑶科技说 原创 作者 天于刀刀 Python 当前大型语言模型的火爆程度我们不用再进行赘述了 xff0c 伴随着百度文心一言打响国内商业大模型第一枪 xff0c 华为盘古 xff0c 阿里通义千问 xff0c 智谱ChatGLM 科大讯
  • 值得关注!正在引领行业变革的15家AI明星创业公司

    夕小瑶科技说 原创 作者 小戏 iven 星星之火 xff0c 可以燎原 在大模型横空出世的这个疯狂的春天 xff0c 一场关于 AI 产品的革命也正在席卷全球 这边是大公司一个接一个模型搞军备竞赛 xff0c 那边是各路豪强纷纷下场创业招
  • UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5

    夕小瑶科技说 分享 来源 新智元 编辑 好困 万万没想到 xff0c 现在大语言模型们也要像王者荣耀 LoL Dota这些游戏里的玩家一样打排位赛了 xff01 据说 xff0c 那些闭源模型们很快也会被拉出来溜溜 最近 xff0c 来自L
  • 编译器大佬Chris Lattner全新编程语言「Mojo」:兼容Python核心功能,提速35000倍

    夕小瑶科技说 分享 来源 机器之心 编辑 蛋酱 陈萍 它可与 Python 无缝衔接 xff0c 但克服了很多 Python 的缺点 Jeremy Howard 试用后表示 xff1a Mojo 可能是几十年来最大的编程进步 对于全球各地开
  • 微软Bing突然爆炸级更新!BingChat全面开放,下一代搜索要来啦!

    夕小瑶科技说 分享 来源 量子位 作者 杨净 明敏 所有人都能上手微软Bing了 xff01 今天 xff0c 微软突然官宣全面开放BingChat xff1a 无需任何等待 只需注册一个账户 xff0c 首页即可体验 更关键的是 xff0
  • 中文大模型安全性哪家强?清华团队新发布

    当前大型语言模型的火爆程度我们不用再进行赘述了 xff0c 伴随着百度文心一言打响国内商业大模型第一枪 xff0c 华为盘古 xff0c 阿里通义千问 xff0c 智谱ChatGLM 科大讯飞星火等国内公司纷纷开始布局 另一方面由于众所周知
  • 最新研究,GPT-4暴露了缺点!无法完全理解语言歧义!

    夕小瑶科技说 原创 作者 智商掉了一地 Python 自然语言推理 xff08 Natural Language Inference xff0c NLI xff09 是自然语言处理中一项重要任务 xff0c 其目标是根据给定的前提和假设 x
  • 离谱!最新研究:61%中国人写的英语论文,会被ChatGPT检测器判为AI生成的

    夕小瑶科技说 分享 来源 新智元 ChatGPT火了以后 xff0c 用法是真多 有人拿来寻求人生建议 xff0c 有人干脆当搜索引擎用 xff0c 还有人拿来写论文 论文 可不兴写啊 美国部分大学已经明令禁止学生使用ChatGPT写作业
  • 需求不明的情况下,一定要确认好需求

    突发事件 boss提出一个功能 xff0c 需当天完成 xff0c 因需求组比较忙 xff0c 故没有文档 xff0c 项目PM直接告知开发完成 xff0c 开发经过半天多的奋战 xff0c 在3点左右发包 xff0c 测试组因比较赶 xf
  • 集成学习的基本步骤

    集成学习的基本步骤 集成学习一般可分为以下3个步骤 xff08 1 xff09 找到误差互相独立的基分类器 xff08 2 xff09 训练基分类器 xff08 3 xff09 合并基分类器的结果 合并基分类器的方法有voting和stac
  • 阿里最新研究:当ChatGPT 遇上推荐系统,遭遇滑铁卢

    文 小戏 在 GPT 4 屠榜了 NLP xff0c SAM 零样本分割一切让 CV 消失后 xff0c 不知道大家会不会有好奇 AI 三大现实应用的另一边岁月静好的推荐系统有没有感受到来自遥远大模型带来的巨大压力 尽管 ChatGPT 的