transformer论文_Transformer相关论文阅读笔记

2023-11-07

最近在使用Transformer模型跑任务,正好加入了同学组织的一个暑期文献打卡群,于是决定假期每天读一篇文献,主要关于近两年对于Transformer模型应用的论文。阅读论文的笔记分享给大家~

7月18日

R-transformer : Recurrent neural network enhanced transformer

R-Transformer: Recurrent Neural Network Enhanced Transformer​arxiv.org

主要综合了RNN和Transformer两种模型的优点,提出了R-transformer

Transformer虽然在很多模型上表现出了很好的效果,但目前有两个比较致命的问题:

  • 第一是对于位置的编码,虽然transformer引入了Position embedding,但是其效果并不好。并且对于具体的任务还需要设计具体的位置编码方式;
  • 第二是多头注意力机制忽略了很多局部的特征

而RNN主要的问题是难以处理长距离依赖关系和难以实现并行

改进方法是:

将transformer的position embedding替换成局部的RNN,文章中称其为LocalRNN。具体来讲就是对一个序列,在每个位置的一个固定大小窗口范围内跑一个LocalRNN,将其局部的特征也表示到向量中,然后再按照transformer那样进行全局的多头attention和FeedForword

这个模型实际借鉴了TCN模型和标准transformer模型的思想。R-transformer借鉴了TCN层次化的思想,但在局部特征的提取方式上,TCN使用的是卷积核,而该模型使用了LocalRNN,这样可以更好地将位置信息进行提取。

通过以上改进,模型可以通过LocalRNN提取局部特征,弥补标准transformer在这方面的不足,同时在整体框架上依旧保持着transformer模型可并行的特点。


7月19日

Analyzing the structure of attention in a transformer language model

Analyzing the Structure of Attention in a Transformer Language Model​arxiv.org

主要介绍了对于transformer attention可视化的方式。

文章介绍了从attention-head,model,neuron三个层面的可视化,可以从中看出query和key之间的attention关系。之后文章还介绍了对于依赖关系和attention距离的一些可视化。

这篇文章偏工程性,所以好像没有太多可以讲的,后面就看代码去了


7月20日

Hierarchical Attention: What really counts in various NLP task

Hierarchical Attention: What Really Counts in Various NLP Tasks​arxiv.org

主要介绍了一种算层次化attention的方法,对于Vanilla Attention,计算query和所有keys的attention值,然后再对所有attention进行加权得到最终的attention。

对于self-attention,则先计算d次self-attention,然后再对这d次加权得到最终的attention。

通过数学证明可知这种方法好于前面两种经典的attention机制,具体证明过程就省去了,可以看原论文的Section 4


7月21日

An analysis of Encoder Representations in Transformer-Based Machine Translation

https://www.aclweb.org/anthology/W18-5431​www.aclweb.org

主要研究了transformer中,模型表示的含义

在transformer模型中,有三种attention,分别为:

(1)encoder的self-attention,其中每一个位置都能attend到前一层的所有位置

(2)encoder-decoder的attention,其中decoder的每一个位置都能attend到上一encoder层的所有位置

(3)decoder的self-attention,其中每一个decoder的位置都能attend到之前的所有位置

作者通过以下几个实验研究了encoder的表示质量:

  • 首先通过对于encoder权重的热感图来研究语言模式
  • 其次通过从multi-head attention中提取的softmax权重来构建一棵输入句子的最大生成树

其次作者做了一下几个实验来研究decoder的能力:

  • 使用一个固定的encoder表示作为输入,来衡量对于不同任务,input features的重要性

实验结果:

  • 可视化结果:

通常在第一层,更多的attention都主要focus到词本身,在之后的层中,attention逐渐转移到其他单词,例如前一个或者后一个单词,以及最后一个单词。这表明tranformer更倾向于在更高层中发现长距离的依赖关系

  • 推导树结构(Inducing Tree Structure):

作者通过每一层的softmax值构建了输入的推导树,发现模型可以学习出一定的语义信息,但是对于一些复杂或者更长的语义信息,模型很难学到


7月22日

Generating Wikipedia by Summarizing Long Sequences

Generating Wikipedia by Summarizing Long Sequences​arxiv.org

主要介绍了一种多文本概括的方法

之前对于文本摘要的任务,主要采用的是从输入文档中选取句子或者短语,并没有产生新的文本。由于缺少大量的平行语料,这样的方式无法引入神经网络的方法。这个工作中,作者将一个Wiki的主题词和一系列参考文章作为输入,目标是一篇wiki百科文章。

由于输入的参考文章可能数量很多,所以在内存限制下无法训练一个端到端的模型。于是他们采取了两个步骤

(1)从输入中选取一些总结

(2)从这些总结中生成一篇文章

这仿照了人写一篇摘要时的思路:先画出文章中的重点部分,再产生总结

  • 提取阶段

论文中提到了以下一些提取方法:

  1. Identity:直接选取最开始的L个tokens
  2. tf-idf
  3. TextBank
  4. SmBasic:使用词频作为对每次词语的打分,之后再根据词语的打分给句子评分
  • 总结阶段

文章使用了标准的有attention机制的LSTM encoder-decoder作为baseline模型,引入了一个新模型,即扔掉transformer的encoder部分,将输入和输出合并为一个句子,训练一个语言模型

updating......

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

transformer论文_Transformer相关论文阅读笔记 的相关文章

  • Docker 网络实现

    Docker 网络实现 Docker 的网络实现其实就是利用了 Linux 上的网络名字空间和虚拟网络设备 特别是 veth pair 建议先熟悉了解这两部分的基本概念再阅读本章 基本原理 首先 要实现网络通信 机器需要至少一个网络接口 物
  • 2023华为OD机试真题【连接器/贪心算法】

    题目描述 有一组区间 a0 b0 a1 b1 a b表示起点 终点 区间有可能重叠 相邻 重叠或相邻则可以合并为更大的区间 给定一组连接器 x1 x2 x3 x表示连接器的最大可连接长度 即x gt gap 可用于将分离的区间连接起来 但两
  • linux搭建环境命令,在Linux上搭建测试环境常用命令(转自-测试小柚子)

    一 搭建测试环境 二 查看应用日志 1 vi vi vim 原本是指修改文件 同时可以使用vi 日志文件名 打开日志文件 2 less less命令是查看日志最常用的命令 用法 less 日志文件名 分页显示文件的内容 经常使用这个命令是因
  • [开发中遇到的算法] 均分数组

    业务背景 最近我需要写并发rpc的负载均衡 某种意义上的吧 遇到很有意思的问题 需求如下 下游固定死最多一次请求100个 比如要请求101个时要拆两个请求并发rpc 并等待两个请求都返回后拼装成一个结果返回 拆成51个 50个发出请求比拆成
  • lgg8各个版本_如何评价LG G8?

    回复下吧 产品中规中矩的升级 奈何同期对手太强 宣发脑子被驴踢 前置TOF早有透露 自家lg innotek的产品 效果不错 能更好3d人脸自拍 人脸识别 以及AR 都9012了搞隔空操作还作为宣传主力真是脑子进了水 忘了三星S4的眼球操作
  • [人工智能-深度学习-24]:卷积神经网络CNN - CS231n解读 - 卷积神经网络基本层级

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 人工智能 深度学习 23 卷积神经网络CNN CS231n解读 卷积神经网络基本层级 文火冰糖 王文兵 的博客 CSDN博客 目录 第1章
  • 使用elment+moment写年时间段选择

    要求 选择年的时间段 不能选择当前年之后的年份 先看实现效果如 1 html结构代码
  • 矩阵的迹(Trace)

    译自维基百科 在线性代数中 方阵A n n 的迹定义为对角线元素的和 即 矩阵的迹表示的是特征值的和 它不随基的变化而变化 通常 这种特性可以用来定义线性算子的轨迹 注意 迹是对方阵而言的 举例 A是一个方阵 如下 则A的迹表示为 迹的特性
  • KEIL编译出现错误“source file is not valid utf-8”

    KEIL编译出现错误 source file is not valid utf 8 在外面复制了一段代码 c文件一直报错source file is not valid utf 8的错误 经查找原因就是 文件中出现中文符号导致的 特别是中文
  • 用Excel做相关性分析

    一 概念理解 相关关系 变量之间存在着的非严格的不确定的关系 对它们进行深层次的分析 观察它们的密切程度 相关性分析 对变量之间相关关系的分析 即相关性分析 其中比较常用的是线性相关分析 用来衡量它的指标是线性相关系数 又叫皮尔逊相关系数
  • new的三种用法

    new的三种用法 第一种 创建一个新对象 Test p new Test 10 这里的new的用法是创建一个新的Test型的对象 该用法一共有三个步骤 1 申请一个空间 2 在申请的空间当中构造一个对象 并将该对象放置到空间中 3 将空间的
  • Ubuntu下NFS服务器配置及应用

    NFS文件系统仅占用系统挂载点 NFS服务器设定好分享的目录 home shares 其他客服端就可以将这个目录挂载到自己系统上的挂载点上 home shares就像自己的一个分区 但不占用自己的磁盘空间 虽然NFS有自己的协议及端口号 但
  • 必测的支付漏洞(一)——使用fiddler篡改支付金额

    互联网产品中常会遇到支付功能 测试人员测试这部分功能时一定要重视 因为如果这部分出现了较严重的bug 将会给公司带来不小的经济损失 如果你测出了问题领导也一定会高兴的 因此测试优先级很高 但具有一定难度 刚接触测试的小白们可能不知道支付功能
  • 五分钟成为记忆王

    一 记忆的面纱 1 记忆的含义 1 就在我嘴边上 有多少次你这样说过 就在我嘴边上 又有过多少次在你需要什么时候 任凭你如何拼命地想 就是想不起来 当然 这问题不是你一个人才有 几乎所有的人都受到过记忆力差的困扰 这也是人类的一个最常见的不
  • stm32 IO口的八种输入输出模式

    记录一下stm32 IO口的八种输入输出模式的学习 首先 可以看见stm32的输入输出模式有以上8种 先从简单的开始说吧 上拉输入和下拉输入 看图 由上图可见 当IO口设置为上拉输入的时候 IO口内部的上拉电阻就被接上了 从字面意思可以理解
  • Java异常总结

    1 异常的定义 定义 异常又称例外 是程序执行过程中发生的事件 它会终止程序的正常执行 2 异常的分类 Error 是JVM内部产生的 不需要程序员去解决 是不受检查异常 非代码性错误 Exception 是用户程序可能出现的异常 它是用来
  • 单片机关于推挽输出和开漏输出

    什么是推挽输出 推挽输出既可以输出高电平也可以输出低电平 推挽式输出电路 推挽式输出电路是由互补的两个三极管构成 所谓推拉 推是指推出去 就是输出为高电平是 电流是由内流向外的 形象的称之为推 拉就是从外部向内部拉 当输出为低电平时 电流由
  • java设计模式——享元模式(Flyweight Pattern)

    概述 面向对象技术可以很好地解决一些灵活性或可扩展性问题 但在很多情况下需要在系统中增加类和对象的个数 当对象数量太多时 将导致运行代价过高 带来性能下降等问题 享元模式正是为解决这一类问题而诞生的 享元模式通过共享技术实现相同或相似对象的
  • java 抓取网页_Java抓取网页数据

    有时候由于种种原因 我们需要采集某个网站的数据 但由于不同网站对数据的显示方式略有不同 本文就用Java给大家演示如何抓取网站的数据 1 抓取原网页数据 2 抓取网页JavaScript返回的数据 一 抓取原网页 这个例子我们准备从http

随机推荐

  • 基于Cordova插件创建app及打包成apk

    基于Cordova插件创建app及打包成apk 1 配置开发环境 一 下载并安装node js npm功能可以使用 二 利用npm安装cordova插件 三 配置JAVA ANDROID GRDLE的系统环境 1 java jdk jre设
  • ThreadLocal与局部变量

    ThreadLocal和线程局部变量有什么区别 我们先看一段代码 如下 public class ThreadLocalLearn static ThreadLocal
  • 华为OJ:ip地址与整数之间的转换

    原理 ip地址的每段可以看成是一个0 255的整数 把每段拆分成一个二进制形式组合起来 然后把这个二进制数转变成 一个长整数 举例 一个ip地址为10 0 3 193 每段数字 相对应的二进制数 10 00001010 0 00000000
  • html5里js里怎么写入sql语句,SQL语句在JavaScript中的应用

    有兴趣的朋友可以 QQ 85302520 联系我 或者 Email gongji at qq dot com 已经开放了 SVN checkout 地址 http code google com p jsql javascript sour
  • 无限级分类在DataGrid和DropDownList中的体现

    实现效果 Datagrid Dropdownlist 实现效果 Datagrid Dropdownlist 实现步骤 1 创建表 CREATE TABLE dbo mulType TypeId int IDENTITY 1 1 NOT NU
  • Qt树形控件QTreeView使用1——节点的添加删除操作 复选框的设置

    QtreeView是ui中最常用的控件 Qt中QTreeWidget比QTreeView更简单 但没有QTreeView那么灵活 QTreeWidget封装的和MFC的CTreeCtrl很类似 没有mvc的特点 1 QStandardIte
  • ps换证件照背景颜色

    日常工作生活学习中经常会用到各种不同底色的证件照 手上的证件照底色不符合要求怎么办呢 以红色底色的证件照换蓝色底色证件照为例 我们一起来看看如何用ps换证件照背景颜色 下面是原始的红底证件照 我们用ps photoshop 打开该红底证件照
  • 智慧监狱解决方案-最新全套文件

    智慧监狱解决方案 最新全套文件 一 建设背景 二 思路架构 三 建设方案 四 获取 智慧监狱全套最新解决方案合集 一 建设背景 智慧监狱 是 数字法治 智慧司法 信息系统建设的重要组成部分 其主要内容是在现有监狱信息建设的基础上 充分利用大
  • 【MM32F5270开发板试用】五、rt-thread 利用SPI接口驱动SD卡

    篇文章来自极术社区与灵动组织的MM32F5270开发板评测活动 更多开发板试用活动请关注极术社区网站 作者 Magicoe是攻城狮 之前SPI接的是个2 4寸的小屏幕 鉴于MM32F5270片上没有SDIO接口用的是SPI拓展的SD卡 反正
  • InputStream

    在java中InputStream是字节输入流 用来将文件中的数据读取到java程序中 InputStream是所有字节输入流的顶层父类 是一个抽象类 如果要用 需要使用子类 最常用的子类 FileInputStream 构造方法 File
  • Gogs服务重启及邮件相关配置

    如何重启Gogs服务 简单粗暴地说 其实也就两步 关闭服务 gt gt 开启服务 1 关闭服务 获得启动服务的进程PID 根据使用端口查找进程ID 如配置Gogs使用的web端口为3102 则输入命令lsof i 3102 即可查看占用该端
  • 网口压线顺序_网线线序排列以及八字口诀

    网线线序排列以及八字口诀 普通网线线序一般都是按照橙白 橙 绿白 蓝 蓝白 绿 棕白 棕这个顺序排列 的 也就是 568B 线序标准 而通常情况下百兆网络自用到其中的四根线 若是只有四根线 的 则任选四根 做线时对应水晶头的 1 2 3 6
  • AD软件画电路图笔记

    最近使用AD软件画了一个arduino的板子 自己画原理图库 pcb库 原理图 pcb图 以及后来打板和原材料购买 和后来的硬件电路焊接 及硬件电路测试和烧录程序 这是我整个流程下来记的笔记 分享给大家 一 AD软件新建项目 1 两库 原理
  • Flutter Android端启动白屏

    问题描述 Flutter 应用在 Android 端上启动时会有一段很明显的白屏现象 白屏的时长由设备的性能决定 设备性能越差 白屏时间越长 问题分析 其实启动白屏的问题在Android原生应用上也是一个常见问题 大致是因为从用户点击 La
  • GameofMir引擎架设传奇服务器【2:登录器配置】

    工具 1 gom引擎自带的登录器 这里没有自带的登录器 游戏运行不了 里面带有一些密码和UI相关的文件 2 绿盟配置器 当然也可以用其他的 这里使用的绿盟的免费版本 都解压后开始配置 这里进入绿盟的文件夹 把这几个文件复制到gom自带的登录
  • C关键字volatile

    其实我想看的 想做笔记的就是就是那个汇编例子 看来汇编例子有助于了解啊 以前听人说过 高手都能将每一句C语言对应一句汇编语言 C语言关键字volatile 1 C语言关键字volatile C语言关键字volatile 注意它是用来修饰变量
  • 【maven】scalac:error while loading <root>,Error accessing

    1 概述 今天运行flink程序 编译时报如下错误 意思是访问maven下载的jar包出错 但是这个jar包已经下载好了 于是我进入jar包所在的路径 发现该包的大小只有1KB 感觉是下载有问题 于是删除该jar包 然后在pom中reimp
  • 5款linux下的笔记软件

    Evernote是一个很好的笔记软件 但是却没有linux版本 下面介绍5款linux下最好的笔记软件 1 Springseed Springseed 是 Jono Cooper 和 Michael Harker 一起开发的 是一个使用非常
  • Python手册(Standard Library)--datetime+time+calendar

    文章目录 datetime datetime timedelta datetime date datetime datetime datetime time python中时间日期格式化符号 time time struct time 时间
  • transformer论文_Transformer相关论文阅读笔记

    最近在使用Transformer模型跑任务 正好加入了同学组织的一个暑期文献打卡群 于是决定假期每天读一篇文献 主要关于近两年对于Transformer模型应用的论文 阅读论文的笔记分享给大家 7月18日 R transformer Rec