NLP七十年!斯坦福教授Manning长文梳理

2023-10-31

format,png

作者 | LRS 

来源 | 新智元

从手工规则、神经网络到Transformer基础模型,自然语言处理的未来是统一多模态,走向通用人工智能!

过去十年间,仅靠简单的神经网络计算,以及大规模的训练数据支持,自然语言处理领域取得了相当大的突破,由此训练得到的预训练语言模型,如BERT、GPT-3等模型都提供了强大的通用语言理解、生成和推理能力。

前段时间,斯坦福大学大学教授Christopher D. Manning在Daedalus期刊上发表了一篇关于「人类语言理解和推理」的论文,主要梳理自然语言处理的发展历史,并分析了基础模型的未来发展前景。

91dd0229f6748ae5cfd1bce59cb1e8d4.png

论文链接:

https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

3086184d0aefc46aeeb24ed1e7b946f0.png

论文作者Christopher Manning是斯坦福大学计算机与语言学教授,也是将深度学习应用于自然语言处理领域的领军者,研究方向专注于利用机器学习方法处理计算语言学问题,以使计算机能够智能处理、理解并生成人类语言。

Manning教授是ACM Fellow,AAAI Fellow 和ACL Fellow,他的多部著作,如《统计自然语言处理基础》、《信息检索导论》等都成为了经典教材,其课程斯坦福CS224n《深度学习自然语言处理》更是无数NLPer的入门必看。

5a4064a61f6642801441d38b79366ee3.png

NLP的四个时代

第一时代(1950-1969)

NLP的研究最早始于机器翻译的研究,当时的人们认为,翻译任务可以基于二战期间在密码破译的成果继续发展,冷战的双方也都在开发能够翻译其他国家科学成果的系统,不过在此期间,人们对自然语言、人工智能或机器学习的结构几乎一无所知。

当时的计算量和可用数据都非常少,虽然最初的系统被大张旗鼓地宣传,但这些系统只提供了单词级的翻译查找和一些简单的、基于规则的机制来处理单词的屈折形式(形态学)和词序。

第二时代(1970-1992)

这一时期可以看到一系列NLP演示系统的发展,在处理自然语言中的语法和引用等现象方面表现出了复杂性和深度,包括Terry Winograd的SHRDLU,Bill Woods的LUNAR,Roger Schank的SAM,加里Hendrix的LIFER和Danny Bobrow的GUS,都是手工构建的、基于规则的系统,甚至还可用用于诸如数据库查询之类的任务。

语言学和基于知识的人工智能正在迅速发展,在这个时代的第二个十年,出现了新一代手工构建的系统,在陈述性语言知识和程序处理之间有着明确的界限,并且受益于语言学理论的发展。

第三时代(1993-2012)

在此期间,数字化文本的可用数量显著提升,NLP的发展逐渐转为深度的语言理解,从数千万字的文本中提取位置、隐喻概念等信息,不过仍然只是基于单词分析,所以大部分研究人员主要专注于带标注的语言资源,如标记单词的含义、公司名称、树库等,然后使用有监督机器学习技术来构建模型。

第四时代(2013-现在)

深度学习或人工神经网络方法开始发展,可以对长距离的上下文进行建模,单词和句子由数百或数千维的实值向量空间进行表示,向量空间中的距离可以表示意义或语法的相似度,不过在执行任务上还是和之前的有监督学习类似。

2018年,超大规模自监督神经网络学习取得了重大成功,可以简单地输入大量文本(数十亿个单词)来学习知识,基本思想就是在「给定前几个单词」的情况下连续地预测下一个单词,重复数十亿次预测并从错误中学习,然后就可以用于问答或文本分类任务。

预训练的自监督方法的影响是革命性的,无需人类标注即可产生一个强大的模型,后续简单微调即可用于各种自然语言任务。

16599b32f5b159aa75b5e8c838302ef6.png

模型架构

自2018年以来,NLP应用的主要神经网络模型转为Transformer神经网络,核心思想是注意力机制,单词的表征计算为来自其他位置单词表征的加权组合。

Transofrmer一个常见的自监督目标是遮罩文本中出现的单词,将该位置的query, key和value向量与其他单词进行比较,计算出注意力权重并加权平均,再通过全连接层、归一化层和残差连接来产生新的单词向量,再重复多次增加网络的深度。

c2c99122343ec9c16897a04abc466b9e.png

虽然Transformer的网络结构看起来不复杂,涉及到的计算也很简单,但如果模型参数量足够大,并且有大量的数据用来训练预测的话,模型就可以发现自然语言的大部分结构,包括句法结构、单词的内涵、事实知识等。

prompt生成

从2018年到2020年,研究人员使用大型预训练语言模型(LPLM)的主要方法就是使用少量的标注数据进行微调,使其适用于自定义任务。

但GPT-3(Generative Pre-training Transformer-3)发布后,研究人员惊讶地发现,只需要输入一段prompt,即便在没有训练过的新任务上,模型也可以很好地完成。

相比之下,传统的NLP模型由多个精心设计的组件以流水线的方式组装起来,先捕获文本的句子结构和低级实体,然后再识别出更高层次的含义,再输入到某些特定领域的执行组件中。

在过去的几年里,公司已经开始用LPLM取代这种传统的NLP解决方案,通过微调来执行特定任务。

机器翻译

早期的机器翻译系统只能在有限的领域中覆盖有限的语言结构。

2006年推出的谷歌翻译首次从大规模平行语料中构建统计模型;2016年谷歌翻译转为神经机器翻译系统,质量得到极大提升;2020年再次更新为基于Transformer的神经翻译系统,不再需要两种语言的平行语料,而是采用一个巨大的预训练网络,通过一个特别的token指示语言类型进行翻译。

问答任务

问答系统需要在文本集合中查找相关信息,然后提供特定问题的答案,下游有许多直接的商业应用场景,例如售前售后客户支持等。

现代神经网络问答系统在提取文本中存在的答案具有很高的精度,也相当擅长分类出不存在答案的文本。

分类任务

对于常见的传统NLP任务,例如在一段文本中识别出人员或组织名称,或者对文本中关于产品的情感进行分类(积极或消极),目前最好的系统仍然是基于LPLM的微调。

文本生成

除了许多创造性的用途之外,生成系统还可以编写公式化的新闻文章,比如体育报道、自动摘要等,也可以基于放射科医师的检测结果生成报告。

不过,虽然效果很好,但研究人员们仍然很怀疑这些系统是否真的理解了他们在做什么,或者只是一个无意义的、复杂的重写系统。

意义 (meaning)

语言学、语言哲学和编程语言都在研究描述意义的方法,即指称语义学方法(denotational semantics)或指称理论(heory of reference):一个词、短语或句子的意义是它所描述的世界中的一组对象或情况(或其数学抽象)。

现代NLP的简单分布语义学认为,一个词的意义只是其上下文的描述,Manning认为,意义产生于理解语言形式和其他事物之间的联系网络,如果足够密集,就可以很好地理解语言形式的意义。

LPLM在语言理解任务上的成功,以及将大规模自监督学习扩展到其他数据模态(如视觉、机器人、知识图谱、生物信息学和多模态数据)的广泛前景,使得AI变得更加通用。

基础模型

除了BERT和GPT-3这样早期的基础模型外,还可以将语言模型与知识图神经网络、结构化数据连接起来,或是获取其他感官数据,以实现多模态学习,如DALL-E模型,在成对的图像、文本的语料库进行自监督学习后,可以通过生成相应的图片来表达新文本的含义。

我们目前还处于基础模型研发的早期,但未来大多数信息处理和分析任务,甚至像机器人控制这样的任务,都可以由相对较少的基础模型来处理。

虽然大型基础模型的训练是昂贵且耗时的,但训练完成后,使其适应于不同的任务还是相当容易的,可以直接使用自然语言来调整模型的输出。

但这种方式也存在风险:

1. 有能力训练基础模型的机构享受的权利和影响力可能会过大;

2. 大量终端用户可能会遭受模型训练过程中的偏差影响;

3. 由于模型及其训练数据非常大,所以很难判断在特定环境中使用模型是否安全。

虽然这些模型的最终只能模糊地理解世界,缺乏人类水平的仔细逻辑或因果推理能力,但基础模型的广泛有效性也意味着可以应用的场景非常多,下一个十年内或许可以发展为真正的通用人工智能。

参考资料:

https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

06abaf89c89c8d6f0a6d8d13c0cec3ad.jpeg

ed042f5a3a46120165f2a9d541d45c53.gif

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NLP七十年!斯坦福教授Manning长文梳理 的相关文章

随机推荐

  • csharp: Data binding in WPF DataGrid control

  • docker - 安装(ubuntu20.04+cuda11.1)

    docker安装 ubuntu20 04 1 安装docker 替换国内源 apt get install vim 安装vim编辑器 vim etc apt sources list 编辑源文件 删掉内容 换成以下的国内源 添加阿里源 de
  • 算法笔记——二分查找

    算法笔记 二分查找 二分查找 用于在有序数列中查找目标元素的位置 关于区间边界的问题 二分法 区间的定义一般为两种 左闭右闭即 left right 或者左闭右开即 left right 左闭右闭 while left lt right 要
  • Tcpdump抓包实操

    文章目录 1 常用命令 抓取一个固定主机ip的端口号 并保存在本地 后台抓取多个主机的数据包 按抓包的时间保存数据包 2 自定义操作 自定义网络接口 自定义端口 自定义抓取数据包的个数 自定义指定协议 参考链接 刚从wireshark转到t
  • Python遇见的AttributeError: module 'random' has no attribute 'uniform'问题

    在使用python的random库的时候出现了以下错误 Traceback most recent call last File F python脚本 random py line 1 in
  • Nacos 开源版的使用测评

    文章目录 一 Nacos的使用 二 Nacos和Eureka在性能 功能 控制台体验 上下游生态和社区体验的对比 三 记使使用Nacos中容易犯的错误 四 对Nacos开源提出的一些需求 一 Nacos的使用 这里配置mysql的连接方式
  • PicList 文件上传+云存储管理工具

    前言 PicGo是一个非常好的图片上传工具 对于写博客的人来说十分实用 但我在使用的时候 发现了一些痛点 比如图片上传后 无法在相册内云同步删除 这样需要更换图片的时候就比较麻烦 另外PicGo不能获取使用软件前上传的图片列表 也不太方便
  • Redis订阅了一段时间后订阅失效了( redisTemplate.convertAndSend)

    有时候 有些服务长时间运行后 对redis的订阅失效了 但是只要重启服务器又可以了 这个原因如下 引起这一原因是redis conf中的tcp keepalive影响的 这个配置默认是0 官方建议值为60 单位是秒 此配置的作用是检查健康的
  • 【持续更新】Markdown中数学公式及符号整理

    Markdown中数学公式及符号整理 在写博客 写文档中经常需要编辑各种形式的数学公式 对于简单的公式 可以在word中编辑 对于复杂的公式一般以截图 粘贴的方式 利用Markdown中的LaTeX插件 公式均以代码形式编辑 写文档时十分方
  • 合成模式代码示例

    package com example hecheng public interface IFile 返回自己的实例 IFile getComposite 某个商业方法 void sampleOperation 获取深度 int getDe
  • python的matplotlib库

    目录 一 figure 二 plot 三 savefig 四 show 五 xticks 六 xlable和ylable 七 title 八 grid 九 plot绘制多条线 十 legend 十一 scatter 十二 bar 十三 ba
  • tomcat配置CA证书后,https的接口url请求很慢,大概率会超时

    背景 项目需要使用websocket长连接 走nginx反向代理会断开 所以决定要直连项目 websocket连接https需要使用wss 项目端口 8080 项目名 biubiu https证书端口 8443 https配置
  • Nginx(五)Nginx入门级配置与部署及“Hello World”

    转载自 http blog csdn net poechant article details 7049027 这一次我们要学习什么 就是用Nginx在一台机器上搭建一个最简单的显示 Hello World 的Web服务器 那我们就 ste
  • JavaScript设计模式(四)——策略模式、代理模式、观察者模式

    个人简介 个人主页 前端杂货铺 学习方向 主攻前端方向 正逐渐往全干发展 个人状态 研发工程师 现效力于中国工业软件事业 人生格言 积跬步至千里 积小流成江海 推荐学习 前端面试宝典 Vue2 Vue3 Vue2 3项目实战 Node js
  • 如何免费将本地服务映射到公网

    如何免费将本地服务映射到公网 内穿穿透原理解析 花生壳是一种基于 NAT 穿透的技术 可以让位于局域网内的设备通过一个公网 IP 地址访问互联网 具体来说 花生壳利用了 UDP 协议的特性 将内网设备的数据包通过一个中转服务器转发到公网上
  • Vue中缓存路由

    1 作用 让不展示的路由组件保持挂载 不被销毁 2 具体代码 2 1 缓存展示区所有组件
  • 服务器性能pdf,服务器性能计算方法.pdf

    一 数据库服务器性能计算需求分析 考虑到广州市公安局超级情报系统 SIS 设备升级项目的数据库 服务器的性能 我们建议采用主流的 T PC C值进行性能估算 TPC C 是一种旨在衡量联机事务处理 OLTP 系统性能与可 伸缩 性的行业标准
  • gcc make编译android,是用cmake编译openssl(支持android)

    openssl 首先openssl的源码 方案 这里用到了janbar的方案 且作者一直在更新 基本直接可以编译 设置到的主要的cmake文件 CMakeLists txt c rehash cmake crypto CMakeLists
  • Excel获取数值

    Excel获取数值篇 修复Cell getCellType方法过时问题 使用最新的类型方式获取 根据Excel单元格类型返回相对应的值 根据Excel单元格类型返回相对应的值 param cell return public static
  • NLP七十年!斯坦福教授Manning长文梳理

    作者 LRS 来源 新智元 从手工规则 神经网络到Transformer基础模型 自然语言处理的未来是统一多模态 走向通用人工智能 过去十年间 仅靠简单的神经网络计算 以及大规模的训练数据支持 自然语言处理领域取得了相当大的突破 由此训练得