14k字长文理解Transformer: Attention Is All You Need(含python代码)

2023-11-15

作者:猛码Memmat

目录

在这里插入图片描述

Abstract

在这里插入图片描述
主要的序列转导模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,Transformer,完全基于注意力机制,完全摒弃递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU,比现有的最佳结果(包括集合)提高了2个BLEU以上。在WMT 2014英法翻译任务中,我们的模型在8个gpu上训练3.5天后,建立了一个新的单模型最先进的BLEU分数41.8,这是文献中最佳模型训练成本的一小部分。我们通过将Transformer成功地应用于具有大量和有限训练数据的英语选区解析,证明了它可以很好地推广到其他任务。

1 Introduction

在这里插入图片描述
在这里插入图片描述
neural networks, long short-term memory [13] and gated recurrent [7] neural networks

我们提出了Transformer,这是一种模型架构,避免了递归,而是完全依靠注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 允许更多的并行化,并且在八个 P100 GPU 上训练多达 12 小时后,可以在翻译质量方面达到新的技术水平。

2 Background

在这里插入图片描述
grows in the distance between positions, linearly for ConvS2S and logarithmically for ByteNet.

In the Transformer this is reduced to a constant number of operations
在Transformer中,这被减少为一个常数数量的操作,尽管代价是由于平均注意力加权位置而降低了有效分辨率,我们用Multi-Head Attention抵消了这一影响,如3.2节所述。

Self-attention, sometimes called intra-attention

the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution.
然而,据我们所知,Transformer是第一个完全依靠自我注意来计算输入和输出表示的转导模型,而不使用序列对齐的rnn或卷积。在接下来的章节中,我们将描述Transformer,激发自我关注,并讨论它相对于[17,18]和[9]等模型的优势。

3 Model Architecture

在这里插入图片描述
At each step the model is auto-regressive [10], consuming the previously generated symbols as additional input when generating the next.
在每一步中,模型都是自动回归[10],在生成下一步时,将先前生成的符号作为额外的输入。
The Transformer follows this overall architecture using stacked self-attention and point-wise, fully connected layers for both the encoder and decoder, shown in the left and right halves of Figure 1, respectively.
Transformer遵循这种总体架构,为编码器和解码器使用了堆叠的自关注层和按点完全连接层,分别如图1的左右两部分所示。
在这里插入图片描述

3.1 Encoder and Decoder Stacks

在这里插入图片描述
编码器由N = 6个相同层的堆栈组成。每一层有两个子层。第一个是一个多头自注意机制,第二个是一个简单的、按位置完全连接的前馈网络。我们在两个子层的每一层周围都使用了一个残余连接[11],然后是层规范化[1]。也就是说,每个子层的输出是LayerNorm(x + Sublayer(x)),其中Sublayer(x)是子层本身实现的函数。为了方便这些残余连接,模型中的所有子层以及嵌入层都会产生维度为 d m o d e l = 512 d_{model} = 512 dmodel=512的输出。

解码器也由N = 6个相同层的堆栈组成。除了每个编码器层中的两个子层外,解码器还插入第三个子层,该子层对编码器堆栈的输出执行多头注意。与编码器类似,我们在每个子层周围使用剩余连接,然后进行层归一化。我们还修改了解码器堆栈中的自关注子层,以防止位置关注后续位置。这种掩蔽,结合输出嵌入被一个位置抵消的事实,确保对位置i的预测只能依赖于小于i位置的已知输出。

3.2 Attention

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

14k字长文理解Transformer: Attention Is All You Need(含python代码) 的相关文章

  • Linux高性能服务器编程|阅读笔记:第8章 - 高性能服务器程序框架

    目录 简介 系列笔记 8 1 服务器模型 8 1 1 C S模型 8 1 2 P2P模型 8 2 服务器编程框架 8 3 I O模型 8 4 两种高效的事件处理模式 8 4 1 Reactor模式 8 4 2 Proactor模式 8 5
  • 对存储过程进行加密和解密(SQL 2008/SQL 2012)

    开始 在网络上 看到有SQL Server 2000和SQL Server 2005 的存储过程加密和解密的方法 后来分析了其中的代码 发现它们的原理都是一样的 后来自己根据实际的应用环境 编写了两个存储过程 一个加密存储过程 sp Enc
  • 方法

    方法 方法定义 调用 方法完整的定义形式 方法的其他定义形式 方法使用的常见问题 方法案例 方法调用的内存图 方法的参数传递机制 方法的参数传递案例 方法重载 单独使用return关键字 1 方法概述 1 1 方法的概念 方法 method
  • 解决elementUI中el-select组件的选中不显示问题

    el select组件选中不显示的原因好像只出现在多级联动中 并且选中是有值的 只是单纯的不回显 可以在el select中加入change事件 然后使用vue的set方法将值重新修改进去
  • react修改node_modules里的文件

    一 node modules里的文件可以使用patch package来修改 安装patch package yarn add patch package 修改package json 新增命令postinstall scripts pos

随机推荐

  • 超详细maven的卸载、重新安装与配置

    一 maven的卸载 maven在使用时只是配置了环境变量和本地仓库 我们只需要删除本地仓库 在环境变量中移除maven的环境变量 1 删除解压的maven文件夹 在之前的安装中 我将本地仓库和maven解压后的文件放在同一个文件夹下 此时
  • Java 高级语法学习笔记(基础)

    目录 反射机制 Class 类 类初始化 类加载 类的生命周期 七大阶段 1 加载 接入 class文件 2 验证 连接 linking 的第一阶段 为了安全 3 准备 分配内存及初步初始化 4 解析 字符翻译成引用阶段 5 初始化 代码正
  • 某在线学习平台《数据挖掘》第六章课后习题

    本文章系本人结合讲义及网上学习资料整理 难免存在个别问题 仅供各位同学和爱好者参考和讨论 发现问题请各位码友留言勘误 谢谢 1 下列几种数据挖掘功能中被广泛的用于购物篮分析的是 AA 关联分析 B B 分类和预测 CC 聚类分析 DD 演变
  • AD Ldap pwdLastSet不能更新到指定日期

    由于网上资料实在有限 特此记录 The only values that can be set are 0 To set User Must Change Password at Next Logon set the pwdLastSet
  • JAVA--文档注释

    文档注释是如何生成 JDK中包含javadoc工具 可以将文档注释由源文件中生成一个HTML文档 方便记录程序信息 文档注释格式 由 开始 结束 其中 中内容以自由文本格式 开头 文档注释的位置 在描述的类 接口 方法 构造器 成员字段前面
  • 苹果macOS13Ventura更新体验:新功能带来的全新体验

    macOS 13 Ventura 是一款功能强大 界面美观的操作系统 它为用户提供了更好的使用体验 加强了与其他设备的互联互通 提高了隐私和安全性 无论是日常办公还是娱乐 macOS 13 Ventura 都能满足用户的需求 并带来更多的便
  • win10控制面板快捷键_Win10开启最强隐藏模式,电脑性能直线飙升

    电脑的处理器 显卡等重要配置不停的在辞旧迎新 更新换代 很多人为了追求更好的性能 也愿意花高价钱买高配置的电脑 要提升电脑性能 硬件设备必然是主导地位 但不是人人都这么富裕买得起的 按小高个人的理解不管设备多先进或多陈旧 能满足我们的需求够
  • python入门:浅谈python中的数据类型

    数据类型 数据类型 1 变量 2 字符串 1 字符串的命名规则 2 字符串的加法运算 3 整数 3 浮点数 4 type 函数 5 强制转换 数据类型 1 变量 先看下面的代码 print 我是最可爱的人 print 我是最可爱的人 pri
  • 微信支付, 小程序,公众号, 商户号 需要进行的配置

    目录 一 微信公众号 1 1 公众号基础信息配置 1 2 白名单配置 1 3 公众号开发人员配置 1 4 域名授权配置 1 5 服务器配置 二 微信小程序 2 1 开发设置 2 2 域名设置 2 3 开发者管理 2 4 版本管理 三 微信商
  • 移植QT到QNX,QNX开发QT程序,QT图形开发环境搭建

    锋影 e mail 174176320 qq com 根据QT主页上提供的参数 修改4个地方 configure opensource confirm license qpa iconv shared release xplatform b
  • leetcode笔记:26.删除排序数组中的重复项

    package com ko leetcode primaryAlgorithm array 初级算法 数组 1 删除排序数组中的重复项 Author ko Date 2023 6 1 23 55 Version 1 0 public cl
  • Mysql编码问题的折中方案

    在mysql 5 7 26 0ubuntu0 16 04 1 中尝试修改my cnf无果 采用暂时修改编码的方式 设置MySQL变量 set character set database utf8 set character set ser
  • esp01s如何烧录、接线///arduino串口想输出字符串,但是输出了数字

    esp01s与usb转ttl接线 esp01s 连线 usb转ttl 3V3 3V3 GND GND RX TXD TX RXD IO0 GND IO0接地作用是 进入烧录模式 IO0接地之后需要断电 重新上电 完成烧录后需要 断开 IO0
  • 真正的用window.open()代替window.showModalDialog()

    这个问题 纠结了很长时间在网上找到的 记录一下 正文如下 模式窗口太过于局限性 所以我研究了一个完全可以用window open 代替window showModalDialog 的方法 其资料贴在了下面 有两个页面 一个是调用页面 mai
  • greenbow怎样设置服务器无响应,连接到虚拟机超时

    连接到虚拟机超时 内容精选 换一换 通过网线将DES Edge设备10GE光纤口 图1编号7 从左到右第一列的两个光纤口 与应用服务器所在交换机端口进行连接 将DES Edge设备连接到业务网络 建立业务通道 实现DES Edge设备与应用
  • 有多个li标签,每点击一个li标签改变被点击li标签的背景,并且获取改li标签中的数据

    由于在做如下页面的布局时 采用了多个li标签来展现 需要达到的效果是 1 每点击一个选项卡 该选项卡的背景颜色改变 再点击一次就变回本来的颜色 2 支持多选 并且把选中的选项卡数据存入数组 主要用到的方法就是 取到所有的li标签进行循环添加
  • MySQL 教程

    21分钟 MySQL 入门教程 目录 一 MySQL的相关概念介绍 二 Windows下MySQL的配置 配置步骤 MySQL服务的启动 停止与卸载 三 MySQL脚本的基本组成 四 MySQL中的数据类型 五 使用MySQL数据库 登录到
  • jquery 实现超出部分隐藏,鼠标移动上显示全部文字

    css tooltipdiv position absolute border 1px solid 333 background f7f5d1 padding 3px 3px 3px 3px color 333 display none d
  • 动画设计基础-3d max2014 人物POSS随笔

    动画设计基础 3d max2014 人物POSS随笔 拿到一个人物常用poss 选中质心 鼠标单击右键 选择对象属性 显示属性 显示为外框 Ctrl A删除人物原有的POSS动画 在Ctrl S保存在想要的位置 按N记录 复制人物初始状态
  • 14k字长文理解Transformer: Attention Is All You Need(含python代码)

    作者 猛码Memmat 目录 Abstract 1 Introduction 2 Background 3 Model Architecture 3 1 Encoder and Decoder Stacks 3 2 Attention 3