NLP七十年！斯坦福教授Manning长文梳理

2023-10-31

作者 | LRS

来源 | 新智元

从手工规则、神经网络到Transformer基础模型，自然语言处理的未来是统一多模态，走向通用人工智能！

过去十年间，仅靠简单的神经网络计算，以及大规模的训练数据支持，自然语言处理领域取得了相当大的突破，由此训练得到的预训练语言模型，如BERT、GPT-3等模型都提供了强大的通用语言理解、生成和推理能力。

前段时间，斯坦福大学大学教授Christopher D. Manning在Daedalus期刊上发表了一篇关于「人类语言理解和推理」的论文，主要梳理自然语言处理的发展历史，并分析了基础模型的未来发展前景。

论文链接：

https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

论文作者Christopher Manning是斯坦福大学计算机与语言学教授，也是将深度学习应用于自然语言处理领域的领军者，研究方向专注于利用机器学习方法处理计算语言学问题，以使计算机能够智能处理、理解并生成人类语言。

Manning教授是ACM Fellow，AAAI Fellow 和ACL Fellow，他的多部著作，如《统计自然语言处理基础》、《信息检索导论》等都成为了经典教材，其课程斯坦福CS224n《深度学习自然语言处理》更是无数NLPer的入门必看。

NLP的四个时代

第一时代（1950-1969）

NLP的研究最早始于机器翻译的研究，当时的人们认为，翻译任务可以基于二战期间在密码破译的成果继续发展，冷战的双方也都在开发能够翻译其他国家科学成果的系统，不过在此期间，人们对自然语言、人工智能或机器学习的结构几乎一无所知。

当时的计算量和可用数据都非常少，虽然最初的系统被大张旗鼓地宣传，但这些系统只提供了单词级的翻译查找和一些简单的、基于规则的机制来处理单词的屈折形式（形态学）和词序。

第二时代（1970-1992）

这一时期可以看到一系列NLP演示系统的发展，在处理自然语言中的语法和引用等现象方面表现出了复杂性和深度，包括Terry Winograd的SHRDLU，Bill Woods的LUNAR，Roger Schank的SAM，加里Hendrix的LIFER和Danny Bobrow的GUS，都是手工构建的、基于规则的系统，甚至还可用用于诸如数据库查询之类的任务。

语言学和基于知识的人工智能正在迅速发展，在这个时代的第二个十年，出现了新一代手工构建的系统，在陈述性语言知识和程序处理之间有着明确的界限，并且受益于语言学理论的发展。

第三时代（1993-2012）

在此期间，数字化文本的可用数量显著提升，NLP的发展逐渐转为深度的语言理解，从数千万字的文本中提取位置、隐喻概念等信息，不过仍然只是基于单词分析，所以大部分研究人员主要专注于带标注的语言资源，如标记单词的含义、公司名称、树库等，然后使用有监督机器学习技术来构建模型。

第四时代（2013-现在）

深度学习或人工神经网络方法开始发展，可以对长距离的上下文进行建模，单词和句子由数百或数千维的实值向量空间进行表示，向量空间中的距离可以表示意义或语法的相似度，不过在执行任务上还是和之前的有监督学习类似。

2018年，超大规模自监督神经网络学习取得了重大成功，可以简单地输入大量文本（数十亿个单词）来学习知识，基本思想就是在「给定前几个单词」的情况下连续地预测下一个单词，重复数十亿次预测并从错误中学习，然后就可以用于问答或文本分类任务。

预训练的自监督方法的影响是革命性的，无需人类标注即可产生一个强大的模型，后续简单微调即可用于各种自然语言任务。

模型架构

自2018年以来，NLP应用的主要神经网络模型转为Transformer神经网络，核心思想是注意力机制，单词的表征计算为来自其他位置单词表征的加权组合。

Transofrmer一个常见的自监督目标是遮罩文本中出现的单词，将该位置的query, key和value向量与其他单词进行比较，计算出注意力权重并加权平均，再通过全连接层、归一化层和残差连接来产生新的单词向量，再重复多次增加网络的深度。

虽然Transformer的网络结构看起来不复杂，涉及到的计算也很简单，但如果模型参数量足够大，并且有大量的数据用来训练预测的话，模型就可以发现自然语言的大部分结构，包括句法结构、单词的内涵、事实知识等。

prompt生成

从2018年到2020年，研究人员使用大型预训练语言模型（LPLM）的主要方法就是使用少量的标注数据进行微调，使其适用于自定义任务。

但GPT-3（Generative Pre-training Transformer-3）发布后，研究人员惊讶地发现，只需要输入一段prompt，即便在没有训练过的新任务上，模型也可以很好地完成。

相比之下，传统的NLP模型由多个精心设计的组件以流水线的方式组装起来，先捕获文本的句子结构和低级实体，然后再识别出更高层次的含义，再输入到某些特定领域的执行组件中。

在过去的几年里，公司已经开始用LPLM取代这种传统的NLP解决方案，通过微调来执行特定任务。

机器翻译

早期的机器翻译系统只能在有限的领域中覆盖有限的语言结构。

2006年推出的谷歌翻译首次从大规模平行语料中构建统计模型；2016年谷歌翻译转为神经机器翻译系统，质量得到极大提升；2020年再次更新为基于Transformer的神经翻译系统，不再需要两种语言的平行语料，而是采用一个巨大的预训练网络，通过一个特别的token指示语言类型进行翻译。

问答任务

问答系统需要在文本集合中查找相关信息，然后提供特定问题的答案，下游有许多直接的商业应用场景，例如售前售后客户支持等。

现代神经网络问答系统在提取文本中存在的答案具有很高的精度，也相当擅长分类出不存在答案的文本。

分类任务

对于常见的传统NLP任务，例如在一段文本中识别出人员或组织名称，或者对文本中关于产品的情感进行分类（积极或消极），目前最好的系统仍然是基于LPLM的微调。

文本生成

除了许多创造性的用途之外，生成系统还可以编写公式化的新闻文章，比如体育报道、自动摘要等，也可以基于放射科医师的检测结果生成报告。

不过，虽然效果很好，但研究人员们仍然很怀疑这些系统是否真的理解了他们在做什么，或者只是一个无意义的、复杂的重写系统。

意义 (meaning)

语言学、语言哲学和编程语言都在研究描述意义的方法，即指称语义学方法（denotational semantics）或指称理论（heory of reference）：一个词、短语或句子的意义是它所描述的世界中的一组对象或情况（或其数学抽象）。

现代NLP的简单分布语义学认为，一个词的意义只是其上下文的描述，Manning认为，意义产生于理解语言形式和其他事物之间的联系网络，如果足够密集，就可以很好地理解语言形式的意义。

LPLM在语言理解任务上的成功，以及将大规模自监督学习扩展到其他数据模态（如视觉、机器人、知识图谱、生物信息学和多模态数据）的广泛前景，使得AI变得更加通用。

基础模型

除了BERT和GPT-3这样早期的基础模型外，还可以将语言模型与知识图神经网络、结构化数据连接起来，或是获取其他感官数据，以实现多模态学习，如DALL-E模型，在成对的图像、文本的语料库进行自监督学习后，可以通过生成相应的图片来表达新文本的含义。

我们目前还处于基础模型研发的早期，但未来大多数信息处理和分析任务，甚至像机器人控制这样的任务，都可以由相对较少的基础模型来处理。

虽然大型基础模型的训练是昂贵且耗时的，但训练完成后，使其适应于不同的任务还是相当容易的，可以直接使用自然语言来调整模型的输出。

但这种方式也存在风险：

1. 有能力训练基础模型的机构享受的权利和影响力可能会过大；

2. 大量终端用户可能会遭受模型训练过程中的偏差影响；

3. 由于模型及其训练数据非常大，所以很难判断在特定环境中使用模型是否安全。

虽然这些模型的最终只能模糊地理解世界，缺乏人类水平的仔细逻辑或因果推理能力，但基础模型的广泛有效性也意味着可以应用的场景非常多，下一个十年内或许可以发展为真正的通用人工智能。

参考资料：

https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定o要备注信息才能通过）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理

人工智能

NLP七十年！斯坦福教授Manning长文梳理的相关文章

【连续和自适应资源需求估计】通过不断应用在线优化、选择和估计，SARDE能够有效地适应在线跟踪，并使用得到的集成技术减少模型误差（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据文章
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

csharp: Data binding in WPF DataGrid control
docker - 安装(ubuntu20.04+cuda11.1)

docker安装 ubuntu20 04 1 安装docker 替换国内源 apt get install vim 安装vim编辑器 vim etc apt sources list 编辑源文件删掉内容换成以下的国内源添加阿里源 de
算法笔记——二分查找

算法笔记二分查找二分查找用于在有序数列中查找目标元素的位置关于区间边界的问题二分法区间的定义一般为两种左闭右闭即 left right 或者左闭右开即 left right 左闭右闭 while left lt right 要
Tcpdump抓包实操

文章目录 1 常用命令抓取一个固定主机ip的端口号并保存在本地后台抓取多个主机的数据包按抓包的时间保存数据包 2 自定义操作自定义网络接口自定义端口自定义抓取数据包的个数自定义指定协议参考链接刚从wireshark转到t
Python遇见的AttributeError: module 'random' has no attribute 'uniform'问题

在使用python的random库的时候出现了以下错误 Traceback most recent call last File F python脚本 random py line 1 in
Nacos 开源版的使用测评

文章目录一 Nacos的使用二 Nacos和Eureka在性能功能控制台体验上下游生态和社区体验的对比三记使使用Nacos中容易犯的错误四对Nacos开源提出的一些需求一 Nacos的使用这里配置mysql的连接方式
PicList 文件上传+云存储管理工具

前言 PicGo是一个非常好的图片上传工具对于写博客的人来说十分实用但我在使用的时候发现了一些痛点比如图片上传后无法在相册内云同步删除这样需要更换图片的时候就比较麻烦另外PicGo不能获取使用软件前上传的图片列表也不太方便
Redis订阅了一段时间后订阅失效了（ redisTemplate.convertAndSend）

有时候有些服务长时间运行后对redis的订阅失效了但是只要重启服务器又可以了这个原因如下引起这一原因是redis conf中的tcp keepalive影响的这个配置默认是0 官方建议值为60 单位是秒此配置的作用是检查健康的
【持续更新】Markdown中数学公式及符号整理

Markdown中数学公式及符号整理在写博客写文档中经常需要编辑各种形式的数学公式对于简单的公式可以在word中编辑对于复杂的公式一般以截图粘贴的方式利用Markdown中的LaTeX插件公式均以代码形式编辑写文档时十分方
合成模式代码示例

package com example hecheng public interface IFile 返回自己的实例 IFile getComposite 某个商业方法 void sampleOperation 获取深度 int getDe
python的matplotlib库

目录一 figure 二 plot 三 savefig 四 show 五 xticks 六 xlable和ylable 七 title 八 grid 九 plot绘制多条线十 legend 十一 scatter 十二 bar 十三 ba
tomcat配置CA证书后，https的接口url请求很慢，大概率会超时

背景项目需要使用websocket长连接走nginx反向代理会断开所以决定要直连项目 websocket连接https需要使用wss 项目端口 8080 项目名 biubiu https证书端口 8443 https配置
Nginx(五)Nginx入门级配置与部署及“Hello World”

转载自 http blog csdn net poechant article details 7049027 这一次我们要学习什么就是用Nginx在一台机器上搭建一个最简单的显示 Hello World 的Web服务器那我们就 ste
JavaScript设计模式（四）——策略模式、代理模式、观察者模式

个人简介个人主页前端杂货铺学习方向主攻前端方向正逐渐往全干发展个人状态研发工程师现效力于中国工业软件事业人生格言积跬步至千里积小流成江海推荐学习前端面试宝典 Vue2 Vue3 Vue2 3项目实战 Node js
如何免费将本地服务映射到公网

如何免费将本地服务映射到公网内穿穿透原理解析花生壳是一种基于 NAT 穿透的技术可以让位于局域网内的设备通过一个公网 IP 地址访问互联网具体来说花生壳利用了 UDP 协议的特性将内网设备的数据包通过一个中转服务器转发到公网上
Vue中缓存路由

1 作用让不展示的路由组件保持挂载不被销毁 2 具体代码 2 1 缓存展示区所有组件
服务器性能pdf,服务器性能计算方法.pdf

一数据库服务器性能计算需求分析考虑到广州市公安局超级情报系统 SIS 设备升级项目的数据库服务器的性能我们建议采用主流的 T PC C值进行性能估算 TPC C 是一种旨在衡量联机事务处理 OLTP 系统性能与可伸缩性的行业标准
gcc make编译android,是用cmake编译openssl（支持android）

openssl 首先openssl的源码方案这里用到了janbar的方案且作者一直在更新基本直接可以编译设置到的主要的cmake文件 CMakeLists txt c rehash cmake crypto CMakeLists
Excel获取数值

Excel获取数值篇修复Cell getCellType方法过时问题使用最新的类型方式获取根据Excel单元格类型返回相对应的值根据Excel单元格类型返回相对应的值 param cell return public static
NLP七十年！斯坦福教授Manning长文梳理

作者 LRS 来源新智元从手工规则神经网络到Transformer基础模型自然语言处理的未来是统一多模态走向通用人工智能过去十年间仅靠简单的神经网络计算以及大规模的训练数据支持自然语言处理领域取得了相当大的突破由此训练得

NLP七十年！斯坦福教授Manning长文梳理

NLP七十年！斯坦福教授Manning长文梳理 的相关文章

随机推荐

热门标签

NLP七十年！斯坦福教授Manning长文梳理的相关文章