自然语言处理中的Attention Model：是什么及为什么

2023-05-16

author: 张俊林

（想更系统地学习深度学习知识？请参考：深度学习枕边书）

要是关注深度学习在自然语言处理方面的研究进展，我相信你一定听说过Attention Model（后文有时会简称AM模型）这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一，在很多场景被证明有效。听起来AM很高大上，其实它的基本思想是相当直观简洁的。本文作者可以对灯发誓：在你读完这篇啰里啰嗦的文章及其后续文章后，一定可以透彻了解AM到底是什么，以及轻易看懂任何有关论文看上去复杂的数学公式部分。怎么样，这广告打的挺有吸引力吧，尤其是对那些患有数学公式帕金森病的患者。

在正戏开演前，我们先来点题外话。

|引言及废话

你应该常常听到被捉奸在床的男性经常感叹地说一句话：女性的第六感通常都很准，当然这里的女性一般是特指这位男性的老婆或者女友，当然也可能是他的某位具有女性气质的男友。要我说，男人的第六感其实也不差（这里的“男人”特指本文作者本人，当然非上文所引用的“男性”，为避免混淆特做声明）。当我第一次看到机器学习领域中的Attention Model这个名字的时候，我的第一直觉就是：这是从认知心理学里面的人脑注意力模型引入的概念。若干年前，也就是在我年轻不懂事的花样年华里，曾有一阵子沉迷于人脑的工作机制，大量阅读了认知心理学方面的书籍和论文，而一般注意力模型会作为书籍的单独一章来讲。下面请允许我显摆一下鄙人渊博的知识。

注意力这东西其实挺有意思，但是很容易被人忽略。让我们来直观地体会一下什么是人脑中的注意力模型。首先，请您睁开眼并确认自己处于意识清醒状态；第二步，请找到本文最近出现的一个“Attention Model”字眼（就是“字眼”前面的两个英文单词，…^@@^）并盯住看三秒钟。好，假设此刻时间停止，在这三秒钟你眼中和脑中看到的是什么？对了，就是“Attention Model”这两个词，但是你应该意识到，其实你眼中是有除了这两个单词外的整个一副画面的，但是在你盯着看的这三秒钟，时间静止，万物无息，仿佛这个世界只有我和你…..对不起，串景了，仿佛这个世界只有“Attention Model”这两个单词。这是什么？这就是人脑的注意力模型，就是说你看到了整幅画面，但在特定的时刻t，你的意识和注意力的焦点是集中在画面中的某一个部分上，其它部分虽然还在你的眼中，但是你分配给它们的注意力资源是很少的。其实，只要你睁着眼，注意力模型就无时不刻在你身上发挥作用，比如你过马路，其实你的注意力会被更多地分配给红绿灯和来往的车辆上，虽然此时你看到了整个世界；比如你很精心地偶遇到了你心仪的异性，此刻你的注意力会更多的分配在此时神光四射的异性身上，虽然此刻你看到了整个世界，但是它们对你来说跟不存在是一样的…..

这就是人脑的注意力模型，说到底是一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

其实吧，深度学习里面的注意力模型工作机制啊，它跟你看见心动异性时荷尔蒙驱动的注意力分配机制是一样一样的。

好，前戏结束，正戏开场。

|Encoder-Decoder框架

本文只谈谈文本处理领域的AM模型，在图片处理或者（图片-图片标题）生成等任务中也有很多场景会应用AM模型，但是我们此处只谈文本领域的AM模型，其实图片领域AM的机制也是相同的。

要提文本处理领域的AM模型，就不得不先谈Encoder-Decoder框架，因为目前绝大多数文献中出现的AM模型是附着在Encoder-Decoder框架下的，当然，其实AM模型可以看作一种通用的思想，本身并不依赖于Encoder-Decoder模型，这点需要注意。

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛，本身就值得非常细致地谈一下，但是因为本文的注意力焦点在AM模型，所以此处我们就只谈一些不得不谈的内容，详细的Encoder-Decoder模型以后考虑专文介绍。下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

图1. 抽象的Encoder-Decoder框架

Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

对于解码器Decoder来说，其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y1,y2….yi-1来生成i时刻要生成的单词yi

每个yi都依次这么产生，那么看起来就是整个系统根据输入句子X生成了目标句子Y。

Encoder-Decoder是个非常通用的计算框架，至于Encoder和Decoder具体使用什么模型都是由研究者自己定的，常见的比如CNN/RNN/BiRNN/GRU/LSTM/Deep LSTM等，这里的变化组合非常多，而很可能一种新的组合就能攒篇论文，所以有时候科研里的创新就是这么简单。比如我用CNN作为Encoder，用RNN作为Decoder，你用BiRNN做为Encoder，用深层LSTM作为Decoder，那么就是一个创新。所以正准备跳楼的憋着劲想攒论文毕业的同学可以从天台下来了，当然是走下来，不是让你跳下来，你可以好好琢磨一下这个模型，把各种排列组合都试试，只要你能提出一种新的组合并被证明有效，那恭喜你：施主，你可以毕业了。

扯远了，再拉回来。

Encoder-Decoder是个创新游戏大杀器，一方面如上所述，可以搞各种不同的模型组合，另外一方面它的应用场景多得不得了，比如对于机器翻译来说，<X,Y>就是对应不同语言的句子，比如X是英语句子，Y是对应的中文句子翻译。再比如对于文本摘要来说，X就是一篇文章，Y就是对应的摘要；再比如对于对话机器人来说，X就是某人的一句话，Y就是对话机器人的应答；再比如……总之，太多了。哎，那位施主，听老衲的话，赶紧从天台下来吧，无数创新在等着你发掘呢。

|Attention Model

图1中展示的Encoder-Decoder模型是没有体现出“注意力模型”的，所以可以把它看作是注意力不集中的分心模型。为什么说它注意力不集中呢？请观察下目标句子Y中每个单词的生成过程如下：

其中f是decoder的非线性变换函数。从这里可以看出，在生成目标句子的单词时，不论生成哪个单词，是y1,y2也好，还是y3也好，他们使用的句子X的语义编码C都是一样的，没有任何区别。而语义编码C是由句子X的每个单词经过Encoder 编码产生的，这意味着不论是生成哪个单词，y1,y2还是y3，其实句子X中任意单词对生成某个目标单词yi来说影响力都是相同的，没有任何区别（其实如果Encoder是RNN的话，理论上越是后输入的单词影响越大，并非等权的，估计这也是为何Google提出Sequence to Sequence模型时发现把输入句子逆序输入做翻译效果会更好的小Trick的原因）。这就是为何说这个模型没有体现出注意力的缘由。这类似于你看到眼前的画面，但是没有注意焦点一样。如果拿机器翻译来解释这个分心模型的Encoder-Decoder框架更好理解，比如输入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。在翻译“杰瑞”这个中文单词的时候，分心模型里面的每个英文单词对于翻译目标单词“杰瑞”贡献是相同的，很明显这里不太合理，显然“Jerry”对于翻译成“杰瑞”更重要，但是分心模型是无法体现这一点的，这就是为何说它没有引入注意力的原因。没有引入注意力的模型在输入句子比较短的时候估计问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因。

上面的例子中，如果引入AM模型的话，应该在翻译“杰瑞”的时候，体现出英文单词对于翻译当前中文单词不同的影响程度，比如给出类似下面一个概率分布值：

（Tom,0.3）(Chase,0.2)(Jerry,0.5)

每个英文单词的概率代表了翻译当前单词“杰瑞”时，注意力分配模型分配给不同英文单词的注意力大小。这对于正确翻译目标语单词肯定是有帮助的，因为引入了新的信息。同理，目标句子中的每个单词都应该学会其对应的源语句子中单词的注意力分配概率信息。这意味着在生成每个单词Yi的时候，原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。增加了AM模型的Encoder-Decoder框架理解起来如图2所示。

图2 引入AM模型的Encoder-Decoder框架

即生成目标句子单词的过程成了下面的形式：

而每个Ci可能对应着不同的源语句子单词的注意力分配概率分布，比如对于上面的英汉翻译来说，其对应的信息可能如下：

其中，f2函数代表Encoder对输入英文单词的某种变换函数，比如如果Encoder是用的RNN模型的话，这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，也就是常常在论文里看到的下列公式：

假设Ci中那个i就是上面的“汤姆”，那么Tx就是3，代表输入句子的长度，h1=f(“Tom”)，h2=f(“Chase”),h3=f(“Jerry”)，对应的注意力模型权值分别是0.6,0.2,0.2，所以g函数就是个加权求和函数。如果形象表示的话，翻译中文单词“汤姆”的时候，数学公式对应的中间语义表示Ci的形成过程类似下图：

图3 Ci的形成过程

这里还有一个问题：生成目标句子某个单词，比如“汤姆”的时候，你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢？就是说“汤姆”对应的概率分布：

（Tom,0.6）(Chase,0.2)(Jerry,0.2）

是如何得到的呢？

为了便于说明，我们假设对图1的非AM模型的Encoder-Decoder框架进行细化，Encoder采用RNN模型，Decoder也采用RNN模型，这是比较常见的一种模型配置，则图1的图转换为下图：

图4 RNN作为具体模型的Encoder-Decoder框架

那么用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程：

图5 AM注意力分配概率计算

对于采用RNN的Decoder来说，如果要生成yi单词，在时刻i，我们是可以知道在生成Yi之前的隐层节点i时刻的输出值Hi的，而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布，那么可以用i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比，即通过函数F(hj,Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。图5显示的是当输出单词为“汤姆”时刻对应的输入句子单词的对齐概率。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

上述内容就是论文里面常常提到的Soft Attention Model的基本思想，你能在文献里面看到的大多数AM模型基本就是这个模型，区别很可能只是把这个模型用来解决不同的应用问题。那么怎么理解AM模型的物理含义呢？一般文献里会把AM模型看作是单词对齐模型，这是非常有道理的。目标句子生成的每个单词对应输入句子单词的概率分布可以理解为输入句子单词和这个目标生成单词的对齐概率，这在机器翻译语境下是非常直观的：传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤，而注意力模型其实起的是相同的作用。在其他应用里面把AM模型理解成输入句子和目标句子单词之间的对齐概率也是很顺畅的想法。

当然，我觉得从概念上理解的话，把AM模型理解成影响力模型也是合理的，就是说生成目标单词的时候，输入句子每个单词对于生成这个单词有多大的影响程度。这种想法也是比较好理解AM模型物理意义的一种思维方式。

图6是论文“A Neural Attention Model for Sentence Summarization”中，Rush用AM模型来做生成式摘要给出的一个AM的一个非常直观的例子。

图6 句子生成式摘要例子

这个例子中，Encoder-Decoder框架的输入句子是：“russian defense minister ivanov called sunday for the creation of a joint front for combating global terrorism”。对应图中纵坐标的句子。系统生成的摘要句子是：“russia calls for joint front against terrorism”，对应图中横坐标的句子。可以看出模型已经把句子主体部分正确地抽出来了。矩阵中每一列代表生成的目标单词对应输入句子每个单词的AM分配概率，颜色越深代表分配到的概率越大。这个例子对于直观理解AM是很有帮助作用的。

最后是广告：关于AM，我们除了本文，下周还会有续集：从AM来谈谈两种科研创新模式，请不要转台，继续关注，谢谢。

这是2017年的新版本，抽象出了attention的本质及介绍了self attention等新模式：深度学习中的注意力机制（2017版）

扫一扫关注微信号：“布洛卡区” ，深度学习在自然语言处理等智能应用的技术研讨与科普公众号。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理中的Attention Model：是什么及为什么的相关文章

AngularJS 的面向对象方法

Angular 似乎没有提供内置的解决方案来定义具有属性和方法的类实例并且需要开发人员来构建它您认为这样做的最佳做法是什么如何将其与后端链接我收集的一些技巧使用工厂服务和命名函数资料来源 Tuto 1 https medium c
如何从链接到 QTableView 的模型中插入和删除行

The removeRows 通过删除选定的行来按预期工作但有一个问题insertRows 由于某种原因新项目不会出现在所选索引号处是什么原因导致这个问题呢 from PyQt4 QtCore import from PyQt4 Qt
Rails 使用缩写对模型进行非正统命名

在我正在构建的应用程序中我使用以下命令在数据库中存储 XML 文件acts as tree协会我想给班级起个名字XMLElement但这会偏离轨道因为大写是非标准的它正在寻找XMLElement从文件名xml element rb
Laravel：每当我返回模型时，总是返回与它的关系

我有 2 张桌子 User Doctor id id email user id name signature last name photo password description date birth Every Doctor与一个有
如何在 MVC 中的单个 foreach 循环中创建水平表？

在 ASP Net MVC 中有什么方法可以将以下代码压缩为单个 foreach 循环吗 table class table tr td Name td td td tr tr td Item td tr table
如何在 GEKKO 中实现 OR 约束

我有一个优化问题我必须找到给定电机的最低成本并且存在一个限制即电机要么运行要么不运行但如果它运行的话它必须达到其功率范围的下限我将包含我的代码以展示我所尝试的内容 from gekko import GEKKO power
使用 dropdownlist 时的 Asp.net mvc ModelState 有效性

ModelState IsValid始终为 false 因为我在要提交的表单中使用下拉列表并且收到此异常 The parameter conversion from type System String to type System We
Java 的 C++ 解析器/模型

我想知道是否有人知道可以在 Java 中以编程方式使用的现有 C 解析器代码模型我正在寻找类似于 Eclipse CDT 的东西它可以用作 Java 的库并且不依赖于 Eclipse 提前致谢您不想构建自己的 C 解析器它会杀了
Rails：尝试渲染为 JSON 时 attr_accessor 不显示

在我的应用程序中我有一个如下的模型 class Init lt ActiveRecord Base attr accessor clientAvailability attr accessible returnCode returnMes
f-score：ValueError：分类指标无法处理多标签指标和连续多输出目标的混合

我正在尝试计算模型所做的预测的微 F 测量我使用带有 Keras 和 Tensorflow 的 word2vec 矢量来训练模型我使用 scikit 库来计算 mirco F 度量但该函数会抛出此消息 ValueError Class
使用 sunspot/solr 搜索多个模型

我已经能够成功地实现基本的全文搜索但是当我尝试使用范围 with statements 时任何涉及多对多关系模型的查询似乎都不适合我我知道相关行位于数据库中因为我的 sql 语句确实返回了数据然而太阳黑子查询不会返回任何结果我
过滤 Django 管理选择框的模型结果

我今天刚开始使用 Django 到目前为止发现做简单的事情相当困难我现在正在努力解决的是过滤状态类型列表 StatusTypes 模型是 class StatusTypes models Model status models CharF
Laravel 中如何返回数组而不是集合？

在 Laravel 中可以仅选择一个字段并将其作为集合数组返回例如考虑模型Foo链接到表foos其中有字段id a b c 考虑以下示例数据 1 10 15 20 1 12 15 27 1 17 15 27 1 25 16 29 1
如何使用 django 更新会计应用程序中的余额？

我正在学习 Django 尝试制作一个会计应用程序来跟踪我的开支等我使用两种模型创建数据库一种用于帐户一种用于操作但我不知道如何在每次操作时更新我的余额我在想也许每次我保存一个新操作时我都会通过覆盖操作模型的保存方法来更新余
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
来自控制器的 Rails 验证

有一个联系页面可以输入姓名电话电子邮件和消息然后发送到管理员的电子邮件没有理由将消息存储在数据库中问题如何在控制器中使用 Rails 验证根本不使用模型或者在模型中使用验证但没有任何数据库关系 UPD Model c
在具有相同属性名称的不同数据类型上使用 ModelMapper

我有两节课说Animal AnimalDto我想用ModelMapper将 Entity 转换为 DTO 反之亦然但是对于具有相似名称的一些属性这些类应该具有不同的数据类型我该如何实现这一目标动物 java public class
重用 R 中内置的模型

在 R 中构建模型时如何保存模型规范以便可以在新数据上重用它假设我根据历史数据建立逻辑回归但直到下个月才会有新的观察结果最好的方法是什么我考虑过的事情保存模型对象并在新会话中加载我知道某些模型可以使用 PMML 导出但还没有
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
在这个 Spring MVC 展示示例中如何使用 @RequestAttribute 和 @ModelAttribute 注释？

我对 Spring MVC 还很陌生这段时间我正在学习Spring MVC 展示 https github com spring projects spring mvc showcase可从 STS 仪表板下载示例我在理解此示例中如何处

随机推荐

ZRAM SWAP

1 ZRAM 1 1 zram的理解 ZRAM xff08 压缩内存 xff09 的意思是说在内存中开辟一块区域压缩数据就是说假设原来150MB的可用内存现在可以放下180MB的东西本身不会提高内存容量和运行速度只是让后台程序更少被系
最简单的神经网络--BP神经网络介绍

今天从网上看到一篇介绍BP神经网络的文章 xff0c 感觉非常好 xff0c 转载保存转载地址 xff1a https blog csdn net weixin 40432828 article details 82192709
【没有哪个港口是永远的停留~ 论文解读】SphereFace

论文 xff1a SphereFace Deep Hypersphere Embedding for Face Recognition 代码 xff1a at https github com wy1iu sphereface 摘要本文讨
【没有哪个港口是永远的停留~ 论文解读】AM - softmax

论文 xff1a Additive Margin Softmax for Face Verification 代码 xff1a https github com happynear AMSoftm 相似论文 xff1a CosFace La
串口通信和RS485-第1季第13部分-朱有鹏-专题视频课程

串口通信和RS485 第1季第13部分 5373人已学习课程介绍本课程是朱有鹏老师单片机完全学习系列课程第1季第13个课程 xff0c 主要讲解了串行通信UART及其扩展RS485 本课程很重要 xff0c 因为串口通信是我们接触的
每天一分钟玩转golang：基础类型之浮点型（二）

大家好 xff0c 我是加摩斯 xff0c 觉得文章有帮助的小伙伴 xff0c 记得一键三连哟 xff5e 申明 xff1a 本系列两天更新一篇 xff0c 纯原创 xff0c 转载前请与我沟通 Go使用两种浮点型变量来存储小数 xff0c
Linux Deploy踩坑指南之二：开启zram块设备

参考 xff1a https sleeplessbeastie eu 2021 03 17 how to use compressed ram based block devices 当android设备有相对充足的ram xff0c 就可
一文彻底搞懂webpack devtool

为什么需要Source Map 首先根据谷歌开发者文档的介绍 xff0c Source Map一般与下列类型的预处理器搭配使用 xff1a 转译器 xff08 Babel xff09 编译器 xff08 TypeScript xff09 M
DOCKER默认虚拟网卡IP地址与局域网冲突解决

一背景 docker启动时默认会创建一个docker0网桥 xff0c 它在内核层连通了其他的物理或虚拟网卡 xff0c 相当于将所有容器和其主机都放到同一个网络但是部署在内网中的IP段存在有此网段的IP时 xff0c 会导致冲突 xf
学习Hadoop MapReduce与WordCount例子分析

MapReduce框架一直围绕着key value这样的数据结构 xff0c 下面以官方自带的WordCount为例子 xff0c 自己分析MapReduce的工作机制 MapReduce可以分为Map和Reduce过程 xff0c 代码实
mysql GTID主从复制跳过复制错误

在mysqlGTID下 xff0c 使用 span class hljs operator span class hljs keyword SET span span class hljs keyword GLOBAL span SQL S
在Ubuntu/Debian Linux系统上检查已经安装软件包的版本

如果要在Ubuntu Debian Linux操作系统上检查已经安装软件包的版本 xff08 知道Ubuntu Debian系统上可用的软件包版本 xff09 xff0c 可使用apt apt cache aptitude和apt show
Ubuntu16.04网络连接正常但浏览器无网络

ubuntu xff0c google浏览器突然不能上网了 xff0c 经过一番折腾 xff0c 终于解决了问题 xff0c 在此记录一下开始如下图 xff1a 然而 ping 一下百度 xff0c 是可以 ping 通的 xff0c 说
读书笔记 --《 java核心技术卷一》

Java核心技术卷 1 第一部分 xff08 java基本介绍 xff09 java特性简单性面向对象分布式健壮性安全性体系结构中立编译器生成一个体系结构中立的目标文件格式 xff0c 这是一种编译过的代码 xff0c 只要有
关于VNC远程登录ubuntu的各种问题及解决方法

关于VNC远程登录ubuntu的各种问题及解决方法 2013 04 11 10 42 37 标签 xff1a vnc ubuntu windows d键全屏 1 系统配置首先要安装vnc服务器端 sudo apt get install
ST-Link 在keil5无法下载程序解决办法

以前一直在用J Link下载程序 xff0c 由于工作需要 xff0c 换成ST Link下载程序第一次用ST Link怎么也下载不下去 xff0c 后来差CSDN博客 xff1a https blog csdn net zeroice7
实时时钟DS1302-第1季第14部分-朱有鹏-专题视频课程

实时时钟DS1302 第1季第14部分 2594人已学习课程介绍本课程是朱有鹏老师单片机完全学习系列课程第1季第14个课程 xff0c 主要讲解了实时时钟DS1302芯片的编程和使用 xff0c 本课程的关键是引入了时序的概念 xf
Mac使用npm install报错，需使用sudo

1 首先说下个人的经历 xff0c 从18年开始实习第一次使用npm xff0c 当时用npm install却总是会报一些错误 xff0c 主要是因为无权限最初的解决方案自然是使用sudo xff0c 这个是有效的如果用sudo还不行
信号量、邮箱、队列与事件

信号量 xff0c 邮箱 xff0c 队列的最大不同在于它们发送的内容不同信号量是一个触发信号 xff0c 也是一个计数器 xff0c 等待接收信号的任务一般只有接收到信号才可以执行 xff0c 否则任务一直暂停邮箱是信号量的扩展 xf
自然语言处理中的Attention Model：是什么及为什么

版权声明 xff1a 可以任意转载 xff0c 转载时请标明文章原始出处和作者信息 author 张俊林 xff08 想更系统地学习深度学习知识 xff1f 请参考 xff1a 深度学习枕边书 xff09 要是关注深度学习在自然语言处理方面

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么 的相关文章

随机推荐

热门标签

自然语言处理中的Attention Model：是什么及为什么的相关文章