了解chat-GPT必须要读的论文汇总

2023-11-01

前言:

今年在nlp领域,最靓的仔要数chat-gpt了,未来也可能颠覆搜索行业,甚至其他行业也会慢慢的被颠覆被取代,作为技术人员,为了保证饭碗,必须跟进相关技术的发展。目前梳理了一下chat-gpt技术的脉络,通过该脉络可以比较系统的了解chat-GPT背后的技术。论文的链接在最后的参考文献中,读者可以自行下载。

技术论文梳理


https://pica.zhimg.com/80/v2-df8374878a8
00c51ac2c953206bd95ea_720w.png?source=d16d100b
编辑

论文发展介绍

可以说nlp的发展,从2017年的transformer(Attentino is all you need)文章问世就已经进入了新的纪元。transformer使用了编码器和解码器,后来人在此论文上,分别对编码器和解码器展开研究,逐渐走上了两个不同的发展方向。典型的代表作分别为bert和gpt。
编码器的发展使用的完词填空的思路,也就是说一句话将中间的词覆盖住,使用前后两边的词去预测被覆盖的词,比如: 我的爱好是打篮球。覆盖【爱好】使用我的xx是打篮球,去预测【爱好】。而解码器是翻译模式,比如:我的爱好是打篮球,通过输入【我的爱好是】,预测【打篮球】,这种方式更符合人从左往后阅读的习惯,也更符合聊天的模式(先问问题,然后预测回答)。 在实际的应用中,编码器代表bert在很多的实际应用中都有很不错的效果(即便是在其之后发表的gpt2,效果也比bert差),因为其更专注于细分领域的问题,在细分领域使用对应的数据进行微调模型,得到较好的效果。而GPT从从左往后预测的方式,其难度比bert大很多,面对的的领域更加广阔,挑战性大的多,所以在前几年一直被以bert为代表的解码器研究方向所压制。但chat-gpt问世之后,人们发现了gpt模式蕴含着巨大的商业价值,甚至可以颠覆人们的工作、生活方式。可能在不久的将来,在方方面面都能看到gpt模式的身影。因此也就有必要梳理一下chat-GPT的原理,通过比较有代表的论文解读chat-GPT的细节。

1.transformer

chat-GPT大体的框架是GPT,是transformer中的decode部分改造的。论文标题:Attention Is All You Need

论文摘要:占主导地位的序列转导模型是基于复杂的递归或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构Transformer,完全基于注意力机制,完全不需要重复和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要更少的训练时间。我们的模型在WMT2014英语到德语翻译任务中实现了28.4 BLEU,比现有的最佳结果提高了2个BLEU以上。在WMT2014英法翻译任务中,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型最先进的BLEU分数41.8,这只是文献中最佳模型训练成本的一小部分。我们通过将Transformer成功地应用于具有大量和有限训练数据的英语解析,表明它可以很好地推广到其他任务。

2. GPT1

GPT不是论文作者取名的,而是该论文追随者后来取名的:GPT1论文的标题为:Improving Language Understanding by Generative Pre-Training。论文追随者使用Generative Pre-Training(生成式预训练)作为该论文的简称。

论文摘要:自然语言理解包括一系列不同的任务,如文本隐含、问题回答、语义相似性评估和文档分类。尽管大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过判别训练的模型很难充分执行。我们证明,通过在不同的未标记文本语料库上生成语言模型的预训练,然后对每个特定任务进行有区别的微调,可以在这些任务上实现巨大的收益。与以前的方法相比,我们在微调过程中使用了任务感知输入转换,以实现有效的传输,同时需要对模型架构进行最小的更改。我们在一系列自然语言理解基准上展示了我们的方法的有效性。我们的一般任务上模型优于使用专门为每个任务构建的体系结构的有区别训练的模型,在所研究的12个任务中,有9个任务显著提高了现有技术水平。例如,我们在常识推理(Stories Cloze Test)、问答(RACE)和文本暗示(MultiNLI)方面分别获得了8.9%、5.7%和1.5%的绝对改善。

3. GPT2

GPT2论文是在bert出来之后发表的,整体效果差于bert,但是这个论文的最大卖点为zero-shot,在不对具体任务进行微调的情况下,也能取得不错的效果。标题为:Language Models are Unsupervised Multitask Learners

论文摘要:自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常在特定任务的数据集上进行监督学习。我们证明,当在一个名为WebText的数百万网页的新数据集上进行训练时,语言模型在没有任何外部监督的情况下开始学习这些任务。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上达到55F1,在不使用127000+训练示例的情况下,匹配或超过了四分之三的基线系统的性能。语言模型的能力对于零样本任务转移的成功至关重要,增加它可以以对数方式跨任务提高性能。我们最大的模型GPT-2是一个1.5B参数的Transformer,它在8个测试语言建模数据集中有7个在零样本设置下获得了最先进的结果,但仍低于WebText。模型中的样本反映了这些改进,并包含连贯的文本段落。这些发现为构建语言处理系统提供了一条很有前途的道路,该系统可以从自然发生的演示中学习执行任务。

4. GPT3

    GPT3论文将GPT1的12层增加到了96层,宽度也有增加,真正见证大力出奇迹,标题为:gpt3-Language Models are Few-Shot Learners

论文摘要:最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它仍然需要数千或数万个实例的特定任务微调数据集。相比之下,人类通常只能通过几个例子或简单的指令来执行一项新的语言任务,而当前的NLP系统在很大程度上仍然很难做到这一点。在这里,我们表明,扩大语言模型的规模大大提高了任务不可知的、少镜头的性能,有时甚至与以前最先进的微调方法相比具有竞争力。具体来说,我们训练GPT-3,这是一个具有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型都多10倍,并测试其在少数镜头设置中的性能。对于所有任务,GPT-3在没有任何梯度更新或微调的情况下应用,任务和少量镜头演示完全通过与模型的文本交互来指定。GPT-3在许多NLP数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要动态推理或领域自适应的任务,如解单词、在句子中使用新词或执行三位数算术。同时,我们还确定了GPT-3的少量镜头学习仍然困难的一些数据集,以及GPT-3面临与在大型网络语料库上训练相关的方法论问题的一些数据集中。最后,我们发现GPT-3可以生成新闻文章的样本,人类评估人员很难将其与人类撰写的文章区分开来。我们讨论了这一发现和GPT-3的更广泛的社会影响。

5. instruct GPT(2022)

chat-GPT没有给出论文,但是在描述中提到:
在这里插入图片描述
也就是说,chat-PGT是instruct GPT发展而来的,整体的框架的思路是一致的,所以通过这篇问题可以大致了解chat-GPT的大致情况,具体细节就要等论文了。instruct GPT在GPT3的基础上,增加了增强学习的训练方式。具体流程如下:
在这里插入图片描述
主要的亮点包括设计了奖励模型RM(reward model)和使用增强学习PPO更新GPT模型,使效果更上一层楼。标题为:Training language models to follow instructions with human feedback。

论文摘要:将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可以生成输出是不真实的、有毒的,或者根本对用户没有帮助。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种方法,通过对人类反馈进行微调,使语言模型与用户在各种任务中的意图保持一致。从一组通过OpenAI API提交的贴标机书面提示和提示开始,我们收集了所需模型行为的贴标机演示数据集,我们使用该数据集使用监督学习对GPT-3进行微调。然后,我们收集了一个模型输出排名的数据集,我们使用该数据集使用来自人类反馈的强化学习来进一步微调这个监督模型。我们将生成的模型称为InstructGPT。在对我们的即时分布进行的人工评估中,1.3B参数InstructGPT模型的输出优先于175B GPT-3的输出,尽管参数减少了100倍。此外,InstructionGPT模型显示了真实性的提高和有毒输出生成的减少,同时在公共NLP数据集上具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误,但我们的研究结果表明,利用人类反馈进行微调是使语言模型与人类意图相一致的一个很有前途的方向。

6. codex

codex是openai使用GPT自动生成代码上的研究,采用github上的代码训练模型,通过docstring生成代码的尝试,标题为:Evaluating Large Language Models Trained on Code

论文摘要:我们介绍了Codex,这是一种GPT语言模型,对GitHub的公开代码进行了微调,并研究了它的Python代码编写功能。Codex的一个独特的生产版本为GitHub Copilot提供了动力。在HumanEval上,我们发布了一个新的评估集,用于衡量从文档字符串合成程序的功能正确性,我们的模型解决了28.8%的问题,而GPT-3解决了0%,GPT-J解决了11.4%。此外,我们发现从模型中重复采样是一种非常有效的策略,可以为困难的提示提供有效的解决方案。使用这种方法,我们解决了70.2%的问题,每个问题有100个样本。对我们模型的仔细研究揭示了它的局限性,包括描述长操作链的文档字符串以及将操作绑定到变量的困难。最后,我们讨论了部署强大的代码生成技术的潜在更广泛影响,包括安全性、和生态经济学。

在上述的脑图中还列举了强化学习相关,解释模型为什么具有临场学习的能力( In-Context Learning),以及prompt等相关论文,感兴趣的读者可以一起阅读。

参考文献:

Attention Is All You Need
Improving Language Understanding by Generative Pre-Training
Language Models are Unsupervised Multitask Learners
Language Models are Few-Shot Learners
Training language models to follow instructions with human feedback
Evaluating Large Language Models Trained on Code
Augmenting Reinforcement Learning with Human Feedback
Interactively Shaping Agents via Human Reinforcement
Proximal Policy Optimization Algorithms
WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS
Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
prompt-Pre-train, Prompt, and Predict- A Systematic Survey of Prompting Methods in Natural Language Processing

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

了解chat-GPT必须要读的论文汇总 的相关文章

随机推荐

  • 计算机网络题库---选择题刷题训练(100多道精品)

    第一章 概述 1 下列四项内容中 不属于Internet 因特网 基本功能是 D A 电子邮件 B 文件传输 C 远程登录 D 实时监测控制 2 Internet是建立在 C 协议集上的国际互联网络 A IPX B NetBEUI C TC
  • RT-Thread:RW007-通讯速度

    目录 1 测量方法 2 硬件准备 3 软件准备 4 使用env配置工程 5 代码修改 下载测试下行速度 6 代码修改 下载测试上行速度 7 总结 1 测量方法 影响通讯速度原因 1 单片机运行速度 2 单片机和RW007通讯的速度 3 RW
  • 常用矩阵定义概念

    1 托普勒斯矩阵 Toeplitz matrix 一维情况下 行响亮不断的向右一定一格形成的循环矩阵 2 双块循环矩阵 doubly block circulant matrix 这是卷积核展开之后 加速与图像卷积过程 因为是两行两行一起循
  • Python爬虫编程实践--task01

    主要内容 HTTP基础 HTML基础 requests get的使用 API的使用 HTTP HTTP是一个客户端 用户 和服务器端 网站 之间进行请求和应答的标准 通过使用网页浏览器 网络爬虫或者其他工具 客户端可以向服务器上的指定端口
  • jersey实现web service接口+客户端调用

    jersey实现web service接口 客户端调用 jersey百度百科 Jersey是一个RESTFUL请求服务JAVA框架 与常规的JAVA编程使用的struts框架类似 它主要用于处理业务逻辑层 与Struts类似 它同样可以和h
  • 手机app登录显示服务器异常,手机app 连接云服务器异常

    手机app 连接云服务器异常 内容精选 换一换 通过内网连接云手机实例时 需要在租户VPC中创建一台弹性云服务器 作为连接云手机的跳板机器 若创建云手机服务器时未使用自定义网络 还需在云手机租户的VPC和服务器所在VPC之间建立对等连接 如
  • RSA算法的详细设计(C++)及不同优化策略的比较

    本篇文章总结了我对RSA算法的理解和设计 并在后文对优化运行效率的方法做了对比分析 一 RSA算法简介 密码学是研究如何隐密地传递信息的学科 它被认为是数学和计算机科学的分支 和信息论也密切相关 在很久之前的传统密码学中 使用的都是对称加密
  • DXLAM、ubuntu16、tf1.13、anaconda环境配置

    DXSLAM环境的点点滴滴 配置该代码环境有两种方法 方法一 利用docker 方法二 直接配置 配置流程 1 配置ORBSLAM2环境 1 1ORB SLAM2配置 1 2测试单目并处理RGBD的数据集 2 配置tf环境 2 1 配置an
  • Sqoop MySQL 8 迁移Hadoop 3 提示:master:9000/sqoop/base-house already exists

    今天尝试使用Sqoop 将MySQL 8 指定库表数据 迁移至Hadoop 3 提示如下错误 2023 03 01 14 52 20 547 ERROR tool ImportTool Import failed org apache ha
  • 李航-机器学习-感知机(perceptron)-原始形式

    机器学习 感知机 perceptron 感知机模型 感知机模型 感知机学习策略 感知机算法实现 代码实现 运行程序可得 运行程序 感知机模型 感知机是一种线性的 二类分类模型 可以将空间划分为正类和负类 是一种判别模型 输入为具体的实例 输
  • 数字图像处理——实验一 离散傅里叶变换(代码)

    clc clear close all a imread Lena512C bmp f rgb2gray a 原图为三维图像 转为二维图像 figure 1 subplot 2 2 1 imshow f title 原图像 H fft2 f
  • python 绘制箱型图(boxplot)时如何去掉出现的连续散点

    问题如上所示 绘制箱型图时发现在箱型图的上下边界出现许多散点 如何去除呢 只需要在绘制时添加一个命令即可 ax boxplot data h 0 就是这一步就可以去除连续的散点 showmeans True vert True vertic
  • java jdk8 使用stream实现两个list集合合并成一个list集合(对象属性的合并)

    java使用stream实现list中对象属性的合并 根据两个List中的某个相同字段合并成一条List 包含两个List中的字段 目录 一 前言 二 示例 示例1 java8 合并两个 list map 示例2 java8 合并两个 li
  • ES6 Set 转换成 Array

    用 操作符 可以实现将 Set 转成 Array let a new Set 1 2 3 4 5 let arr a console log arr 运行结果 1 2 3 4 5
  • python怎么编写模拟交易_python简单区块链模拟详解

    最近学习了一点python 那就试着做一做简单的编程练习 首先是这个编程的指导图 如下 对的 类似一个简单区块链的模拟 代码如下 class DaDaBlockCoin index 索引 timestamp 时间戳 data 交易记录 se
  • [QT_000]学习Qt的最好途径(个人记录)

    00 先通过相关书籍 网上视频了解基础 可以通过某位大神的系列博客总结去学习 这样相对全面一些 达到最好能了解到整个Qt的全貌 不求甚解 01 当了解完基础以后 把Qt自带的案例例子运行一遍 搞懂案例 这是非常有用的一步 现实中好多小功能都
  • 数字水印技术的原理及应用研究

    一 问题分析 随着计算机和网络技术的普及 数字产品的保密性及版权保护等问题逐渐凸显出来 这使得数字水印技术成为热点问题 一些别有企图的个人和团体在没有得到原作者的同意的情况下复制和传播有版权的数据文件或作品 所以 数字媒体的信息安全 知识产
  • 【ARIMA-SSA-LSTM】合差分自回归移动平均方法-麻雀优化-长短期记忆神经网络研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 1 1 ARIMA模型 1 2 鲸鱼优化算法 1 3 LSTM 模型 2 运行结果 3 参考文献 4 Py
  • 计算机网络 五、 五层协议体系结构-----网络层(上)

    网络层 network layer 主要包括以下两个任务 1 负责为分组交换网上的不同主机提供通信服务 在发送数据时 网络层把运输层产生的报文段或用户数据报封装成分组或包进行传送 在TCP IP体系中 由于网络层使用IP协议 因此分组也叫做
  • 了解chat-GPT必须要读的论文汇总

    前言 今年在nlp领域 最靓的仔要数chat gpt了 未来也可能颠覆搜索行业 甚至其他行业也会慢慢的被颠覆被取代 作为技术人员 为了保证饭碗 必须跟进相关技术的发展 目前梳理了一下chat gpt技术的脉络 通过该脉络可以比较系统的了解c