最详细的Transformer讲解,Attention Is All You Need

2023-11-03

前言

Attention Is All You Need

Google Brain      引用量:30255(1/3 ResNet)

贡献:Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。

一直听别人说Transformer,搞不清楚是什么。可以不用,但是需要理解。

但现有的博客,感觉大多轻飘飘的,甚至没讲清楚 attention 和 self-attention的区别,q,k,v表示什么意义,怎么引入等等。

我这里做了一点小总结,需要PPT,请评论自己邮箱。制作不易,帮忙点赞。

建议学习路线:李宏毅课程(宏观理解)--->原文阅读(细节阅读)--->结合我下面PPT的讲义(串讲+总结+引申)。 当然先看我的讲义有个初步理解也OK,食用顺序取决于大家。

李宏毅课程:李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1JE411g7XF?p=54

Transformer原文:

https://arxiv.org/abs/1706.03762https://arxiv.org/abs/1706.03762

一、Transformer背景

 

 

 

 

二、Transformer内容介绍

 

 

 

 

 

 

 

 ​​​​​​

 

PS:这个动图详细的解释了所有的过程,这里我用语言总结下,Encoder包含1,2,3层,Decoder同样,首先Encoder不同之间相互作用,这个很好理解,对于Decoder,Decoder2在解析的过程中,需要用到Decoder2之前的中间信息,以及Input通过Encoder后的信息,但是不会用到Decoder1和Decoder3的信息。图建议仔细看三次,对整个Transformer的过程有个理解。

三、Transformer Result

 

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

最详细的Transformer讲解,Attention Is All You Need 的相关文章

  • es6选择题(带答案)

    es6选择题 1 下面不属于ECMAScript规范的范围的是 A 数据类型 B 语法 C DOM事件 D 内置对象和函数的标准库 答案 C 解析 DOM事件不属于ECMAScript的部分 ECMAScript定义的内容 语法 类型 原型
  • 图像基本处理——腐蚀和膨胀

    文章目录 一 形态学 腐蚀 二 形态学 膨胀 三 腐蚀和膨胀组合运算 一 开运算 二 闭运算 三 梯度运算 四 礼帽和黑帽 一 礼帽 二 黑帽 一 形态学 腐蚀 腐蚀就是通过卷积核 将边界部分向内部靠近 逐步腐蚀掉 opencv腐蚀函数 d
  • UE4多个分支版本兼容相同的工程dll

    如果是从源代码编译出来的UE4 明明代码完全一样 不同机器编译出来的dll却无法兼容 这对于多分支开发非常不方便 在老版本里有个通过版本号判断的逻辑 新版本改没了 分析UE4源码后发现目前是通过BulidId来判断dll跟引擎是不是兼容的

随机推荐

  • 树莓派4B下的usart串口测试

    树莓派4B是树莓派最新发布的版本 串口测试是新手入门的一个必经之路 鉴于网上4B资料相对较少 很多资料都是从3B或3B 上移植过来的 但平台不同 需要的操作也可能不同 这里对树莓派4B做一些总结 关于树莓派串口的问题 可参考链接 https
  • python2.6.6升级python2.7.14

    Centos 6 8系统镜像默认安装的 python 环境是 2 6 6 线上需求需要升级到 2 7 14 版本 网上找了相关资料 升级 python 版本比较容易 但 yum pip 等命令的使用也会有问题 网上的资料是修改脚本 usr
  • vue 表单提交报错:Error in v-on handler (Promise/async):“ Error: Unknown rule type String”

    如下图 原因及解决 原因 editRules 规则定义里本来就默认是String 不用再type定义一次 去掉 type String editRules active code required true type String mess
  • 面试题十道-01- 2021.11.25

    1 java8加了哪些新特性 答 jdk8引入了lambda表达式 lambda表达式实质上是一种匿名内部类 只是写法上简化了 他将原来繁琐的匿名内部类的形式缩减成较为简短的形式 由jvm进行还原 相对于匿名内部类 lambda表达式的书写
  • JSON的语法、常用类型及示例

    JSON结构 JSON结构有两种结构 就是对象和数组 通过这两种结构可以表示各种复杂的结构 province Shanxi 可以理解为是一个包含province为Shanxi的对象 Shanxi Shandong 这是一个包含两个元素的数组
  • Educoder--Java高级特性 - 多线程基础(1)使用线程

    第一题 请仔细阅读右侧代码 根据方法内的提示 在Begin End区域内进行代码补充 具体任务如下 使用继承Thread类的方式创建一个名为 ThreadClassOne 的类 重写的run方法需要实现输出0 10之间的奇数 输出结果如下
  • 开关电源原理、电路组成部分

    开关电源电路图及原理12v分析 详细版 KIA半导体的博客 CSDN博客 开关电源适配器各部分电路原理分析介绍
  • 【区块链实战】什么是 P2P 网络,区块链和 P2P 网络有什么关系

    目录 一 简介 二 知识点 P2P 网络 区块链节点与 P2P 的关系 区块链节点功能分类 P2P 网络特征 三 什么是 P2P 网络 区块链式使用 P2P 网络做什么 1 P2P 网络概念 2 P2P 网络节点特征 3 P2P 与区块链
  • 数据结构之图:无向图的介绍与功能实现,Python——22

    无向图 Undigraph 的介绍 引入 生活中的图 有地图 集成电路板的图 可以看类似的看做是数据结构中的图 数据有 一对一 一对多 和 多对多 的关系 前两种分别表示线性表和树的存储结构性质 而多对多则可表示图的存储结构性质 定义 图是
  • 基于Jupyter(python)使用蒙特·卡罗方法计算圆周率近似值

    使用蒙特 卡罗方法计算圆周率近似值 from random import random times int input 请输入掷飞镖次数 hits 0 for i in range times x random y random if x
  • 操作系统日志收集与分析

    一 Windows日志收集与分析 在运维工作中 如若windows服务器被入侵 往往需要检索和分析相应的安全日志 除了安全设备 系统自带的日志就是取证的关键材料 但是此类日志数量庞大 需要高效分析windows安全日志 提取出我们想要的有用
  • 电源纹波测试,居然还能这么玩

    开关稳压器因其具有非常高的效率优势 正在各个领域逐渐替代线性稳压器 但由于开关稳压器通常被认为具有很大的输出纹波 Ripple 所以很多工程师在高性能和噪声敏感型系统中只考虑使用低压差 LDO 稳压器 而事实上 现今很多高性能开关稳压器都已
  • 迁移学习概述

    1 迁移学习的背景 在有监督的机器学习和尤其是深度学习的场景应用中 需要大量的标注数据 标注数据是一项枯燥无味且花费巨大的任务 关键是现实场景中 往往无法标注足够的数据 而且模型的训练是极其耗时的 因此迁移学习营运而生 传统机器学习 主要指
  • markdown语法介绍

    目录 动态目录 toc 文章目录 目录 一 标题和文本 1 使用 和 标记一级和二级标题 2 使用 号标记 3 换行 二 文字标记和插入图片 链接 1 插入链接 2 插入图片 3 文字标记 设置文字 删除线 下划线 上标 下标 注释 4 e
  • Flip card 卡片翻转效果

    鼠标滑过 卡片翻转 如果想要点击卡片翻转的话就把 hover 改成 hover 然后自己添加点击事件 添加 class hover
  • Java序列化

    Java序列化 原理图 0bjectoutputstream java io 0bjectoutputstream extends outputstreamobjectoutputstream 对象的序列化流 作用 把对象以流的方式写入到文
  • 以太坊合并后,Layer2 何去何从?

    转载原文链接 http www btcwbo com 5671 html 在2022年以太坊开发者峰会上 联合创始人威尔基说 以太坊预计将信号标准链与主网络合并 通过8月份的TheMerge 合并 升级 这样以太坊就可以证明 POS 共识算
  • 英雄联盟-经验砖块

    作为一个LOL老玩家 如果说对游戏细节把握不到位 这是说不过去的 我们时常说道发育为重 那么发育包括等级和装备 我们是不是应该更精细的把我等级呢 今天我们来探究一下 赖线从小兵身上我们能获得多少经验等级 问题1 每个小兵有多少经验值呢 近战
  • 勒索软件攻击防护中的6个常见错误

    勒索软件攻击已经成为影响所有行业和组织的大问题 考虑到这些攻击可能对企业造成的影响 安全专业人员正在尝试以各种方式保护企业的网络 应用和数据 然而 但随着勒索攻击威胁形势的不断变化 很多错误的做法可能会阻碍企业勒索防护计划的有效执行 并使组
  • 最详细的Transformer讲解,Attention Is All You Need

    前言 Attention Is All You Need Google Brain 引用量 30255 1 3 ResNet 贡献 Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN 一