一文读懂「Attention is All You Need」| 附代码实现

2023-05-16

前言

2017 年中，有两篇类似同时也是笔者非常欣赏的论文，分别是 FaceBook 的Convolutional Sequence to Sequence Learning和 Google 的Attention is All You Need，它们都算是 Seq2Seq 上的创新，本质上来说，都是抛弃了 RNN 结构来做 Seq2Seq 任务。

在本篇文章中，笔者将对Attention is All You Need做一点简单的分析。当然，这两篇论文本身就比较火，因此网上已经有很多解读了（不过很多解读都是直接翻译论文的，鲜有自己的理解），因此这里尽可能多自己的文字，尽量不重复网上各位大佬已经说过的内容。

序列编码

深度学习做 NLP 的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。这样一来，每个句子都对应的是一个矩阵 X=(x1,x2,…,xt)，其中 xi 都代表着第 i 个词的词向量（行向量），维度为 d 维，故

。这样的话，问题就变成了编码这些序列了。

第一个基本的思路是 RNN 层，RNN 的方案很简单，递归式进行：

不管是已经被广泛使用的 LSTM、GRU 还是最近的 SRU，都并未脱离这个递归框架。RNN 结构本身比较简单，也很适合序列建模，但 RNN 的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。

另外我个人觉得RNN 无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。

第二个思路是 CNN 层，其实 CNN 的方案也是很自然的，窗口式遍历，比如尺寸为 3 的卷积，就是：

在 FaceBook 的论文中，纯粹使用卷积也完成了 Seq2Seq 的学习，是卷积的一个精致且极致的使用案例，热衷卷积的读者必须得好好读读这篇文论。

CNN 方便并行，而且容易捕捉到一些全局的结构信息，笔者本身是比较偏爱 CNN 的，在目前的工作或竞赛模型中，我都已经尽量用 CNN 来代替已有的 RNN 模型了，并形成了自己的一套使用经验，这部分我们以后再谈。

Google的大作提供了第三个思路：纯 Attention，单靠注意力就可以。

阅读原文

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一文读懂「Attention is All You Need」| 附代码实现的相关文章

You don‘t have enough free space in /var/cache/apt/archives

在执行 sudo apt install 来安装一些包时候遇到过这个问题 xff0c 网上查了很多资料 xff0c 很多简单粗暴的解决方案如下 xff1a span class token function sudo span apt au
一文读懂AUTOSAR SecOC通讯

为什么用SecOC 在车载网络中 xff0c CAN总线作为常用的通讯总线之一 xff0c 其大部分数据是以明文方式广播发送且无认证接收这种方案具有低成本高性能的优势 xff0c 但是随着汽车网联化 xff0c 智能化的业务需要 xff
torch.distributed.all_gather

torch distributed all gather
【MySQL】Error Code: 1093. You can‘t specify target table ‘xxx‘ for update in FROM clause

1 报错信息 xff1a Error Code 1093 You can 39 t specify target table 39 self check 39 for update in FROM clause 错误的sql语句 xff1a
You-get && FFmpeg

一引言二 you get 介绍2 1 you get 安装2 2 you get语法及参数2 3 you get运用实例三 FFmpeg介绍3 1 FFmpeg安装3 2 you get与FFmpeg的结合使用四 HEVC 扩展一
【PX4_BUG】You should uninstall ModemManager as it conflicts with any non-modem serial device

将编译好的固件下载到无人机 xff0c 需要输入命令 make px4 fmu v2 default upload 这里运行时可能会有报错 WARNING You should uninstall ModemManager as it co
WARNING: You are using pip version 19.2.3, however version 20.0.2 is available

最近用到python时出错 xff08 如下图所示 xff09 xff0c WARNING You are using pip version 19 2 3 however version 20 0 2 is available You s
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

这是一篇2018 年的 CVPR 的论文 xff0c 使用自下而上和自上而下相结合的注意力机制实现了image captioning和 VQA xff0c 作者使用这个注意力模型在image captioning上取得了非常好的效果 xff
UNION 和 UNION ALL

UNION用的比较多union all是直接连接 xff0c 取到得是所有值 xff0c 记录可能有重复 union 是取唯一值 xff0c 记录没有重复 UNION 和 UNION ALL 的语法都是 xff1a SQL 语句 1 UNI
oarcle — ANY和ALL、行列转换、递归查询

文章目录 1 在多行子查询中用ANY运算符1 1 示例 2 在多行子查询中用ALL运算符2 1 示例 3 行列转换3 1 建表3 2 插数3 3 列传行3 3 1 union all 实现列传行3 3 2 oracle 自带函数 3 4 行
You must give at least one requirement to install (see "pip help install")

语言 python why install 后面没有参数 xff0c 也就是说没有给想要安装的包 way pip install 后面要跟想要安装的包名转载于 https www cnblogs com 2bjiujiu p 902966
一文读懂BLOB算法

算法执行效果相关参考资料看着玩的 BLOB算法简述 https blog csdn net icyrat article details 6594574 话说这老哥写的也太简了吧完全口水话把blob算法说的很神秘说什么把blo
I Think I Need a Houseboat（1005）

include lt iostream gt include lt cmath gt include lt vector gt using namespace std void main double area 61 50 double R
C++11条件变量：notify_one()与notify_all()的区别

notify one 与notify all 常用来唤醒阻塞的线程 notify one xff1a 因为只唤醒等待队列中的第一个线程 xff1b 不存在锁争用 xff0c 所以能够立即获得锁其余的线程不会被唤醒 xff0c 需要等待再次
注意力机制详述

学习本部分默认大家对RNN神经网络已经深入理解了这是基础同时理解什么是时间序列尤其RNN的常用展开形式进行画图这个必须理解了这篇文章整理有关注意力机制 Attention Mechanism 的知识主要涉及以下几点内容 1 注意
一文读懂BERT(原理篇)

一文读懂BERT 原理篇 2018年的10月11日 Google发布的论文 Pre training of Deep Bidirectional Transformers for Language Understanding 成功在 11
多维时序

多维时序 MATLAB实现CNN BiLSTM Attention多变量时间序列预测目录多维时序 MATLAB实现CNN BiLSTM Attention多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料预测效果基
记一下 Java Static 有哪些玩法

static 变量 static变量是使用 static关键字定义的变量又被称为静态变量静态变量是属于类的也叫类变量实例变量非static变量属于某个具体的对象静态变量和非静态变量的区别静态变量被所有对象共享在内存中只有一
multi-head attention理解加代码

multi head attention 用于CNN相关理解饭前小菜在早期的Machine Translation 机器翻译中 Attention机制与RNN的结合机器翻译解决的是输入是一串在某种语言中的一句话输出是目标语言相对应
ReID：Harmonious Attention Network for Peson Re-Identification 解读

最近阅读了CVPR2018的这篇论文 Harmonious Attention Network for Peson Re Identification 论文还是比较容易理解的下面就简单的解读一下纯属个人观点有不同意见的欢迎评论与我探讨

随机推荐

flutter调用go

文章目录命令引入greeting aar和使用android中使用Flutter2gopluginPlugin kt参考文档命令 mkdir demo cd demo go mod init demo 编写greeting go go
solidity 学习2.批量转账，存入eth。读取数据。

pragma solidity 0 4 17 import 39 zeppelin solidity contracts token ERC20 StandardToken sol 39 contract BLEOS is Standard
根据图片获取图片中最多的颜色

根据网络图片获取背景色 xff0c 用Palette 获取出来的颜色总是不对 Palette p 61 Palette from resource generate int defaultColor 61 ContextCompat get
flutter-border

文章目录 Border继承构造方法BorderStyle和BorderSideBorderStyleBorderSide构造方法 BoxShadow构造方法 BoxShape是Code BorderRadius继承CodeRadius xf
ubuntu20.04中安装Flatpak,切换数据源

安装 Flatpak xff1a sudo apt install flatpak 接着 xff0c 使用以下命令添加 Flatpak 数据源 xff1a sudo flatpak remote span class token opera
centeros8 图形化界面设置

基于性能及通用性等因素的考虑 xff0c 阿里云官方提供的公共Linux系统镜像 xff0c 默认不安装图形化桌面组件通过管理终端连接Linux实例执行以下命令 xff0c 安装图形桌面的软件包 yum groupinstall 34
定时器周期计算

对定时器周期公式的总结 xff1a 1 T 61 xff08 arr 43 1 xff09 PSC 43 1 Tck 其中TCK为时钟频率 xff0c PSC为时钟预分频系数 xff0c arr为自动重装载值 f 61 Tck psc 43
[已解决 2020年]你的支付授权失败。请核对你的信息并重试，或尝试其他支付方式。请联系你的银行了解更多信息

博主更多实战教程 xff1a NET WebApi实战教程微信小程序实战教程因为苹果政策的调整 xff0c 目前进行开发者计划加入时 xff0c 有两个模式如果账号本身是在apple developer app中申请的 xff0c 那
LPC1768 IIC通信示——PCF8563

PCF8563与AT24C02一样 xff0c 是典型的IIC通信器件 xff0c 这里就以它为例 xff0c 编写基于LPC1768硬件IIC的通信代码 xff1a 上图是PCF8563各个寄存器地址 xff0c PCF8563的IIC地
程序员笔试题----字符串的操作

在程序员面试的过程当中 xff0c 很多时候都会问到对字符串的操作 xff0c 其中包括 xff1a 字符串的逆序 xff0c 字符串的最大字串 xff0c 字符串按单词逆序 xff0c 两个字符串的最大公共子串 xff0c 记录字符串中某
如何选择离线数据集成方案 - 全量&增量

1 前言我在上一篇中介绍了实时集成与离线集成该怎么选择 xff0c 接着介绍一下离线集成中的增量与全量的选择问题要设计方案 xff0c 我们先分析一下数据产生的方式我们把音视频流这种非结构化的数据集成从这里排除出去 xff0c 因为这
使用阿里云PCDN降低内容分发成本

点击打开链接阿里云PCDN xff08 P 2P CDN 的简称 xff09 是基于P2P技术的内容分发网络产品 xff0c 相比CDN而言 xff0c PCDN单价较低 xff0c 更适用于大流量内容分发 PCDN产品是与传统
机器学习--线性代数基础

原文地址数学是计算机技术的基础 xff0c 线性代数是机器学习和深度学习的基础 xff0c 了解数据知识最好的方法我觉得是理解概念 xff0c 数学不只是上学时用来考试的 xff0c 也是工作中必不可少的基础知识 xff0c 实际上有很多
Dockerfile小案例（systemctl）

Dockerfile小案例 xff08 systemctl xff09 文章目录 Dockerfile小案例 xff08 systemctl xff09 Dockerfile制作 xff08 systemctl xff09 镜像 Docke
怎么打造属于自己的天猫精灵

原文地址看了天猫精灵的介绍 xff0c 是不是觉得很神奇 xff0c 实际每个程序要都可以打造属于自己的智能家居可以实现的功能点歌最基础的功能了 xff0c 可以将自己喜欢的歌曲下载下来 xff0c 随时点歌定时提醒提醒自己吃饭
聊一聊数据仓库中的元数据管理系统

原文地址一元数据的定义按照传统的定义 xff0c 元数据 xff08 Metadata xff09 是关于数据的数据在数据仓库系统中 xff0c 元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据 xff
300万知乎多标签文本分类任务经验分享（附源码）

点击有惊喜七月 xff0c 酷暑难耐 xff0c 认识的几位同学参加知乎看山杯 xff0c 均取得不错的排名当时天池AI医疗大赛初赛结束 xff0c 官方正在为复赛进行平台调试 xff0c 复赛时间一拖再拖看着几位同学在比赛中排名都还
二战时图灵机破译的Enigma密码，现在AI仅需13分钟便可破译

点击有惊喜第二次世界大战期间 xff0c 布莱切利园是英国破译密码的中心图灵当时也在那里工作密码破译者的天才工作挽救了许多平民和士兵的生命 xff0c 据说将战争缩短了两年 Enigma密码机非常复杂 xff0c 它最先进的化身可以配
MySQL · 数据恢复 · undrop-for-innodb

点击有惊喜简介 undrop for innodb 是针对 innodb 的一套数据恢复工具 xff0c 可以从文件级别恢复诸如 xff1a DROP TRUNCATE table 删除表中某些记录 xff0c innodb 文件被删除
一文读懂「Attention is All You Need」| 附代码实现

前言 2017 年中 xff0c 有两篇类似同时也是笔者非常欣赏的论文 xff0c 分别是 FaceBook 的Convolutional Sequence to Sequence Learning 和 Google 的Attention

一文读懂「Attention is All You Need」| 附代码实现

一文读懂「Attention is All You Need」| 附代码实现 的相关文章

随机推荐

热门标签

一文读懂「Attention is All You Need」| 附代码实现的相关文章