最详细的Transformer讲解，Attention Is All You Need

2023-11-03

前言

Attention Is All You Need

Google Brain 引用量：30255（1/3 ResNet）

贡献：Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。

一直听别人说Transformer，搞不清楚是什么。可以不用，但是需要理解。

但现有的博客，感觉大多轻飘飘的，甚至没讲清楚 attention 和 self-attention的区别，q，k，v表示什么意义，怎么引入等等。

我这里做了一点小总结，需要PPT，请评论自己邮箱。制作不易，帮忙点赞。

建议学习路线：李宏毅课程（宏观理解）--->原文阅读（细节阅读）--->结合我下面PPT的讲义（串讲+总结+引申）。当然先看我的讲义有个初步理解也OK，食用顺序取决于大家。

李宏毅课程：李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1JE411g7XF?p=54

Transformer原文：

https://arxiv.org/abs/1706.03762https://arxiv.org/abs/1706.03762

一、Transformer背景

二、Transformer内容介绍

PS：这个动图详细的解释了所有的过程，这里我用语言总结下，Encoder包含1，2，3层，Decoder同样，首先Encoder不同之间相互作用，这个很好理解，对于Decoder，Decoder2在解析的过程中，需要用到Decoder2之前的中间信息，以及Input通过Encoder后的信息，但是不会用到Decoder1和Decoder3的信息。图建议仔细看三次，对整个Transformer的过程有个理解。

三、Transformer Result

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformer

机器学习

深度学习

自然语言处理

最详细的Transformer讲解，Attention Is All You Need 的相关文章

es6选择题（带答案）

es6选择题 1 下面不属于ECMAScript规范的范围的是 A 数据类型 B 语法 C DOM事件 D 内置对象和函数的标准库答案 C 解析 DOM事件不属于ECMAScript的部分 ECMAScript定义的内容语法类型原型
图像基本处理——腐蚀和膨胀

文章目录一形态学腐蚀二形态学膨胀三腐蚀和膨胀组合运算一开运算二闭运算三梯度运算四礼帽和黑帽一礼帽二黑帽一形态学腐蚀腐蚀就是通过卷积核将边界部分向内部靠近逐步腐蚀掉 opencv腐蚀函数 d
UE4多个分支版本兼容相同的工程dll

如果是从源代码编译出来的UE4 明明代码完全一样不同机器编译出来的dll却无法兼容这对于多分支开发非常不方便在老版本里有个通过版本号判断的逻辑新版本改没了分析UE4源码后发现目前是通过BulidId来判断dll跟引擎是不是兼容的

随机推荐

树莓派4B下的usart串口测试

树莓派4B是树莓派最新发布的版本串口测试是新手入门的一个必经之路鉴于网上4B资料相对较少很多资料都是从3B或3B 上移植过来的但平台不同需要的操作也可能不同这里对树莓派4B做一些总结关于树莓派串口的问题可参考链接 https
python2.6.6升级python2.7.14

Centos 6 8系统镜像默认安装的 python 环境是 2 6 6 线上需求需要升级到 2 7 14 版本网上找了相关资料升级 python 版本比较容易但 yum pip 等命令的使用也会有问题网上的资料是修改脚本 usr
vue 表单提交报错：Error in v-on handler (Promise/async)：“ Error: Unknown rule type String”

如下图原因及解决原因 editRules 规则定义里本来就默认是String 不用再type定义一次去掉 type String editRules active code required true type String mess
面试题十道-01- 2021.11.25

1 java8加了哪些新特性答 jdk8引入了lambda表达式 lambda表达式实质上是一种匿名内部类只是写法上简化了他将原来繁琐的匿名内部类的形式缩减成较为简短的形式由jvm进行还原相对于匿名内部类 lambda表达式的书写
JSON的语法、常用类型及示例

JSON结构 JSON结构有两种结构就是对象和数组通过这两种结构可以表示各种复杂的结构 province Shanxi 可以理解为是一个包含province为Shanxi的对象 Shanxi Shandong 这是一个包含两个元素的数组
Educoder--Java高级特性 - 多线程基础（1）使用线程

第一题请仔细阅读右侧代码根据方法内的提示在Begin End区域内进行代码补充具体任务如下使用继承Thread类的方式创建一个名为 ThreadClassOne 的类重写的run方法需要实现输出0 10之间的奇数输出结果如下
开关电源原理、电路组成部分

开关电源电路图及原理12v分析详细版 KIA半导体的博客 CSDN博客开关电源适配器各部分电路原理分析介绍
【区块链实战】什么是 P2P 网络，区块链和 P2P 网络有什么关系

目录一简介二知识点 P2P 网络区块链节点与 P2P 的关系区块链节点功能分类 P2P 网络特征三什么是 P2P 网络区块链式使用 P2P 网络做什么 1 P2P 网络概念 2 P2P 网络节点特征 3 P2P 与区块链
数据结构之图：无向图的介绍与功能实现，Python——22

无向图 Undigraph 的介绍引入生活中的图有地图集成电路板的图可以看类似的看做是数据结构中的图数据有一对一一对多和多对多的关系前两种分别表示线性表和树的存储结构性质而多对多则可表示图的存储结构性质定义图是
基于Jupyter（python）使用蒙特·卡罗方法计算圆周率近似值

使用蒙特卡罗方法计算圆周率近似值 from random import random times int input 请输入掷飞镖次数 hits 0 for i in range times x random y random if x
操作系统日志收集与分析

一 Windows日志收集与分析在运维工作中如若windows服务器被入侵往往需要检索和分析相应的安全日志除了安全设备系统自带的日志就是取证的关键材料但是此类日志数量庞大需要高效分析windows安全日志提取出我们想要的有用
电源纹波测试，居然还能这么玩

开关稳压器因其具有非常高的效率优势正在各个领域逐渐替代线性稳压器但由于开关稳压器通常被认为具有很大的输出纹波 Ripple 所以很多工程师在高性能和噪声敏感型系统中只考虑使用低压差 LDO 稳压器而事实上现今很多高性能开关稳压器都已
迁移学习概述

1 迁移学习的背景在有监督的机器学习和尤其是深度学习的场景应用中需要大量的标注数据标注数据是一项枯燥无味且花费巨大的任务关键是现实场景中往往无法标注足够的数据而且模型的训练是极其耗时的因此迁移学习营运而生传统机器学习主要指
markdown语法介绍

目录动态目录 toc 文章目录目录一标题和文本 1 使用和标记一级和二级标题 2 使用号标记 3 换行二文字标记和插入图片链接 1 插入链接 2 插入图片 3 文字标记设置文字删除线下划线上标下标注释 4 e
Flip card 卡片翻转效果

鼠标滑过卡片翻转如果想要点击卡片翻转的话就把 hover 改成 hover 然后自己添加点击事件添加 class hover
Java序列化

Java序列化原理图 0bjectoutputstream java io 0bjectoutputstream extends outputstreamobjectoutputstream 对象的序列化流作用把对象以流的方式写入到文
以太坊合并后，Layer2 何去何从？

转载原文链接 http www btcwbo com 5671 html 在2022年以太坊开发者峰会上联合创始人威尔基说以太坊预计将信号标准链与主网络合并通过8月份的TheMerge 合并升级这样以太坊就可以证明 POS 共识算
英雄联盟-经验砖块

作为一个LOL老玩家如果说对游戏细节把握不到位这是说不过去的我们时常说道发育为重那么发育包括等级和装备我们是不是应该更精细的把我等级呢今天我们来探究一下赖线从小兵身上我们能获得多少经验等级问题1 每个小兵有多少经验值呢近战
勒索软件攻击防护中的6个常见错误

勒索软件攻击已经成为影响所有行业和组织的大问题考虑到这些攻击可能对企业造成的影响安全专业人员正在尝试以各种方式保护企业的网络应用和数据然而但随着勒索攻击威胁形势的不断变化很多错误的做法可能会阻碍企业勒索防护计划的有效执行并使组
最详细的Transformer讲解，Attention Is All You Need

前言 Attention Is All You Need Google Brain 引用量 30255 1 3 ResNet 贡献 Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN 一

热门标签