论文解读:PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

2023-10-28

论文解读:PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

image.png
Paper:https://aclanthology.org/2022.emnlp-main.171.pdf
Github:https://github.com/xu-song/prince

一、动机

  • 现有的预训练模型之所以可以获得不错的效果,得益于denoising autoencoder pre-training任务,即根据含有噪声(例如mask)的句子进行重建;
  • 现有的工作大多数关注denoising encoder,而denoising decoder关注的不是很多;
  • 一种简单的knowledge-enhance decoder的做法是输入一个含有mask token的文本,直接依次生成实体的token即可。然而这种做法很难说明模型已经掌握了事实知识。例如当要预测New york时,如果前一个词是New,那么模型会偏向于输出York,而并非是基于一个具体的事实来生成的。
  • 因此本文认为在做knowledge-enhanced decoding时,在预测过程中预测York时,New也要被Mask。

we propose PRefIx-masked decoding for kNowledge enhanCEd sequence-to- sequence pre-training (PRINCE), which decodes entity tokens with noisy prefixes rather than ground-truth tokens. For example, when predicting “York”, a mask symbol is fed into the decoder as the prefix, in place of “New”.

二、方法

自回归式的重建任务定义如下:
给定一个序列 x = { x 1 , x 2 , ⋯   , x s } \mathbf{x}=\{x_1, x_2, \cdots, x_s\} x={x1,x2,,xs},对区间 [ p , q ] [p, q] [p,q]内的token替换为mask。masked seq2seq预训练任务的优化目标为:
image.png
本文提出的方法如下图(b):
image.png
在decoding阶段,如果在预测实体时,预测当前的token时,不再是输入真实的预测token,而是mask。

简单来说,就是当模型在decoding阶段时,当预测第t个位置的token时,对t-1以及之前的某些token替换为mask,相当于模型在含有mask的prefix text来进行预测。
当解码器预测实体标记时,噪声被注入,并且先前生成的部分实体标记对于后者是看不到的。在这种情况下,解码器需要在没有实体本身任何线索的情况下预测完整的实体标记,这可以激励模型更好地学习仅依赖于上下文来预测实体。

三、实验

模型选择Encoder-Decoder架构。预训练预料为Wikipedia,且饱含aligned的实体。数据规模为14GB。
预训练时平均30%的token被选中。
Fine-tuning时,在WebNLG、Wikibo数据集上训练。
实验结果:
image.pngimage.png
提出的模型是否能够很好地生成实体呢?为了测试这个性能,邀请3个标注人员从reliability和faithfulness两个角度,对随机抽取的100个测试样本进行评估,得分如下所示,说明提出的方法很有效:
image.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文解读:PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training 的相关文章

随机推荐

  • Adobe Creative Cloud无法连接至服务器的解决办法

    有些时候我们发现Creative Cloud无法连接至服务器 登录adobe 登录需要用adobe账号 就404 出现这种情况最大原因是由于修改了host造成的 解决方法 首先 请确保你的电脑可以科学上网 看一下其他的 google you
  • Windows下Linux虚拟机的配置以及Win10 linux子系统开启

    本文所用资料下载地址为 链接 http pan baidu com s 1eSkjKkU 密码 x8eg 更新 评论区反映可能高版本的win10不适用于这种子系统的安装方法 建议找一些更新的教程 由于最近没有使用win10 不方便测试 带来
  • Sublime Text 的使用技巧

    1 更改变量名的几种方法 这种情况下该如何快速选中正确的内容 第一种方法 让Cmd D Win Ctrl D 只选择同一个变量 把光标移到第一个i后面 按Cmd D Win Ctrl D 再按一次 限制 选取范围中不能有别的同名同类toke
  • 多维时序

    多维时序 MATLAB实现CNN GRU多变量时序预测 目录 多维时序 MATLAB实现CNN GRU多变量时序预测 基本介绍 模型特点 程序设计 学习总结 参考资料 基本介绍 本次运行测试环境MATLAB2020b MATLAB实现CNN
  • Windows 10 更新后无法安装共享打印机(0x00000709)

    windows 10 前段时间更新之后突然无法连接共享打印机 出现报错0x0000011b的错误 很多人都是用卸载补丁KB5005569 KB5005573 KB5005568 KB5005566 KB5005565 这确实能暂时解决问题
  • 原生Ajax写法

    原生Ajax的使用 function ajax url var xhr window XMLHttpRequest new XMLHttpRequest ActiveXObject microsoft XMLHttp xhr open ge
  • 一类Chen混沌系统的混沌吸引子——MATLAB实现

    1999年 美国休斯顿大学陈关荣教授发现了一个新的混沌吸引子 C h e n Chen Chen系统 即陈氏混沌系统 它与 L o
  • 基于Redis的ASP.NET与js(AJAX)的聊天程序

    首先是安装Redis 此处略过n步 然后 新建一个ASP NET的MVC2的工程 MvcMessage 需要下载ServiceStack Redis并把dll复制到工程下 并正确引用 好 下面开始贴代码了 1 在工程目录 Models 下新
  • vue中scss的使用

    声明 本人的所有博客皆为个人笔记 作为个人知识索引使用 因此在叙述上存在逻辑不通顺 跨度大等问题 希望理解 分享出来仅供大家学习翻阅 若有错误希望指出 感谢 SCSS CSS书写代码规模较大的Web应用时 容易造成选择器 层叠的复杂度过高
  • pads图标logo库制作方法

    pads官方推出了一款BMP to ASC的图片转换软件 用于将bmp文件转换成asc文件格式 但在实测中发现软件安装不了 我通过网上查找 整理了以下方法来制作图标库 1 准备工作 首先电脑里下载安装PS WinTopo Pro exe软件
  • Java InputStream流转换读取成String字符串方法及示例代码

    本文主要介绍Java中 将InputStream输入流转换读取成String字符串的几种方法 以及相关的示例代码 原文地址 Java InputStream流转换读取成String字符串方法及示例代码
  • MongoDB限制内存方法

    1 创建控制组 确保cgroups binaries被安装 cgcreate g memory MongoLimitGroup 如果报错cgcreate libcgroup initialization failed Cgroup is n
  • 数据量占总表的百分比过大导致索引失效

    数据量占总表的百分比过大导致索引失效 最近在做报表查询时 使用关键字explain对sql解释发现 在条件不变的情况下对索引列的条件不一样会导致索引失效 使用强制索引的情况下问题解决 建表语句 CREATE TABLE hm bs rec
  • AOP+自定义注解实现redis缓存自动更新

    1 前言 在前台查询首页数据的方法上加了注解 Cacheable value courseAndTeacher key selectIndexList 另外还有两个注解是用在更新缓存 本来只要这几个注解配合起来使用就能实现数据自动更新 但是
  • 软考-安全

    安全领域的重要性 随着科技进步 社会发展 尤其是以计算机为代表的信息技术飞速发展 各种信息呈爆炸式 发展 计算机及信息技术的应用领域在不断扩展 计算机在政府 企业 民生等各个领域中 都得到越来越广泛的应用 与此同时 网络攻击和入侵事件与日俱
  • QMap的遍历

    QMap
  • 大数据技术之-presto

    一 Presto简介 1 Presto概念 Presto是一个开源的分布式SQL查询引擎 适用于交互式分析查询 数据量支持GB到PB字节 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的
  • c语言旋转bmp图片程序,C语言实现BMP图像处理(任意角度旋转)

    原理参考 https blog csdn net liyuan02 article details 6750828 实现对对任意角度的旋转 具体数学推导网上找 如果各位读者需要使用 只需要将打开文件的位置改为你的位置 输入不同的角度即可 i
  • PyQt5组件之QSpinBox

    QSpinBox 简介 QSPINBox是一个计数器控件 允许用户选择一个整数值通过单击向上向下或者按键盘上的上下键来增加减少当前显示的值 当然用户也可以输入值在默认情况下 QSpinBox的取值范围是 0 99 每次改变的步长是1 QSp
  • 论文解读:PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

    论文解读 PRINCE Prefix Masked Decoding for Knowledge Enhanced Sequence to Sequence Pre Training Paper https aclanthology org