论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

2023-10-28

论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

Paper：https://aclanthology.org/2022.emnlp-main.171.pdf
Github：https://github.com/xu-song/prince

一、动机

现有的预训练模型之所以可以获得不错的效果，得益于denoising autoencoder pre-training任务，即根据含有噪声（例如mask）的句子进行重建；
现有的工作大多数关注denoising encoder，而denoising decoder关注的不是很多；
一种简单的knowledge-enhance decoder的做法是输入一个含有mask token的文本，直接依次生成实体的token即可。然而这种做法很难说明模型已经掌握了事实知识。例如当要预测New york时，如果前一个词是New，那么模型会偏向于输出York，而并非是基于一个具体的事实来生成的。
因此本文认为在做knowledge-enhanced decoding时，在预测过程中预测York时，New也要被Mask。

we propose PRefIx-masked decoding for kNowledge enhanCEd sequence-to- sequence pre-training (PRINCE), which decodes entity tokens with noisy prefixes rather than ground-truth tokens. For example, when predicting “York”, a mask symbol is fed into the decoder as the prefix, in place of “New”.

二、方法

自回归式的重建任务定义如下：
给定一个序列 x = { x 1 , x 2 , ⋯ , x s } \mathbf{x}=\{x_1, x_2, \cdots, x_s\} x={x1,x2,⋯,xs}，对区间 [ p , q ] [p, q] [p,q]内的token替换为mask。masked seq2seq预训练任务的优化目标为：

本文提出的方法如下图（b）：

在decoding阶段，如果在预测实体时，预测当前的token时，不再是输入真实的预测token，而是mask。

简单来说，就是当模型在decoding阶段时，当预测第t个位置的token时，对t-1以及之前的某些token替换为mask，相当于模型在含有mask的prefix text来进行预测。
当解码器预测实体标记时，噪声被注入，并且先前生成的部分实体标记对于后者是看不到的。在这种情况下，解码器需要在没有实体本身任何线索的情况下预测完整的实体标记，这可以激励模型更好地学习仅依赖于上下文来预测实体。

三、实验

模型选择Encoder-Decoder架构。预训练预料为Wikipedia，且饱含aligned的实体。数据规模为14GB。
预训练时平均30%的token被选中。
Fine-tuning时，在WebNLG、Wikibo数据集上训练。
实验结果：

提出的模型是否能够很好地生成实体呢？为了测试这个性能，邀请3个标注人员从reliability和faithfulness两个角度，对随机抽取的100个测试样本进行评估，得分如下所示，说明提出的方法很有效：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training 的相关文章

如何使用 Elements 将持卡人姓名添加到 Stripe 结帐？

我需要在自定义表单中添加一个附加字段我想添加信用卡的名称我尝试了以下方式 var cardNameElement elements create cardName style style placeholder Custom card
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
ASP.NET MVC 6 (ASP.NET 5) 中的 Application_PreSendRequestHeaders 和 Application_BeginRequest

如何在 ASP NET 5 MVC6 中使用这些方法在 MVC5 中我在 Global asax 中使用了它现在呢也许是入门班 protected void Application PreSendRequestHeaders obj
根据 GLSL 中向量的特定分量执行最小-最大的最快方法？

我需要在我的 GLSL 代码中多次调用这种函数 vec2 minx vec2 a vec2 b if a x lt b x return a else return b 我担心过度分支有没有办法避免 if else 结构我建议使用 GL
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere
C 中的异或运算符

在进行按位操作时我在确定何时使用 XOR 运算符时遇到一些困难按位与和或非常简单当您想要屏蔽位时请使用按位 AND 常见用例是 IP 寻址和子网掩码当您想要打开位时请使用包含或然而 XOR 总是让我明白我觉得如果在面试中被问
如何在不声明新数据的情况下更改类型（String，Int）元组的 Ord 实例？

我正在尝试对类型列表进行排序 String Int 默认情况下它按字符串排序然后按整数排序如果字符串相等我希望它是相反的首先比较整数然后如果相等则比较字符串另外我不想切换到 Int String 我找到了一种通过定义实例来实
如何在 C++ BOOST 中像图形一样加载 TIFF 图像

我想要加载一个 tiff 图像带有带有浮点值的像素的 GEOTIFF 例如 boost C 中的图形我是 C 的新手我的目标是使用从源 A 到目标 B 的双向 Dijkstra 来获得更高的性能 Boost GIL load tiif
限制C#中的并行线程数

我正在编写一个 C 程序来生成并通过 FTP 上传 50 万个文件我想并行处理4个文件因为机器有4个核心文件生成需要更长的时间是否可以将以下 Powershell 示例转换为 C 或者是否有更好的框架例如 C 中的 Actor 框
jolt变换后json对象的排序

Input The input json object 所需输出 Event1 Value1 Event2 collection of json objects Event3 The input json object 所以基本上输入 js
张量流中的复杂卷积

我正在尝试运行一个简单的卷积但包含复数 r np random random 1 10 10 10 i np random random 1 10 10 10 x tf complex r i conv layer tf layers c
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
使用 AppleScript 运行另一个应用程序而不将其显示在扩展坞上

使用 AppleScript 您可以创建运行另一个应用程序的脚本然后将该脚本本身另存为应用程序并将其放置在 Dock 中问题不是真正的问题是当您单击它时它仍然会在扩展坞上显示其他应用程序是否可以阻止其他应用程序在扩展坞中显示
防止索引超出范围错误

我想编写对某些条件的检查而不必使用 try catch 并且我想避免出现 Index Out of Range 错误的可能性 if array Element 0 Object Length gt 0 array Element 1 Ob
如何在 PHP 中从字符串类名实例化？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何创建返回方法名称的新实例不幸的是我收到这个错误错误类名必须是有效的对象或字符串这是我的代码 class Foo public f
如何使用配置文件 (.ebextensions) 在 AWS Elastic Beanstalk 上安装 PHP IMAP 扩展？

有谁知道如何使用配置文件 ebextensions 在 AWS Elastic Beanstalk 上安装和启用 PHP IMAP 扩展我使用的是 64 位 Amazon Linux 2017 03 v2 4 0 运行 PHP 7 0 1
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas
使用 libcurl 检查 SFTP 站点上是否存在文件

我使用 C 和 libcurl 进行 SFTP FTPS 传输在上传文件之前我需要检查文件是否存在而不实际下载它如果该文件不存在我会遇到以下问题 set up curlhandle for the public private ke
使用按位运算符相乘

我想知道如何使用按位运算符将一系列二进制位相乘但是我有兴趣这样做来查找二进制值的十进制小数值这是我正在尝试做的一个例子假设 1010010 我想使用每个单独的位以便将其计算为 1 2 1 0 2 2 1 2 3 0 2 4 虽然我
为什么使用 iPhone 或 iOS 设备在“iframe”中查看“position:fixed”时不起作用？

我研究过 stackoverflow 似乎position fixed在 iOS 移动设备的 iframe 中 https stackoverflow com questions 15874910 position fixed and if

随机推荐

Adobe Creative Cloud无法连接至服务器的解决办法

有些时候我们发现Creative Cloud无法连接至服务器登录adobe 登录需要用adobe账号就404 出现这种情况最大原因是由于修改了host造成的解决方法首先请确保你的电脑可以科学上网看一下其他的 google you
Windows下Linux虚拟机的配置以及Win10 linux子系统开启

本文所用资料下载地址为链接 http pan baidu com s 1eSkjKkU 密码 x8eg 更新评论区反映可能高版本的win10不适用于这种子系统的安装方法建议找一些更新的教程由于最近没有使用win10 不方便测试带来
Sublime Text 的使用技巧

1 更改变量名的几种方法这种情况下该如何快速选中正确的内容第一种方法让Cmd D Win Ctrl D 只选择同一个变量把光标移到第一个i后面按Cmd D Win Ctrl D 再按一次限制选取范围中不能有别的同名同类toke
多维时序

多维时序 MATLAB实现CNN GRU多变量时序预测目录多维时序 MATLAB实现CNN GRU多变量时序预测基本介绍模型特点程序设计学习总结参考资料基本介绍本次运行测试环境MATLAB2020b MATLAB实现CNN
Windows 10 更新后无法安装共享打印机(0x00000709)

windows 10 前段时间更新之后突然无法连接共享打印机出现报错0x0000011b的错误很多人都是用卸载补丁KB5005569 KB5005573 KB5005568 KB5005566 KB5005565 这确实能暂时解决问题
原生Ajax写法

原生Ajax的使用 function ajax url var xhr window XMLHttpRequest new XMLHttpRequest ActiveXObject microsoft XMLHttp xhr open ge
一类Chen混沌系统的混沌吸引子——MATLAB实现

1999年美国休斯顿大学陈关荣教授发现了一个新的混沌吸引子 C h e n Chen Chen系统即陈氏混沌系统它与 L o
基于Redis的ASP.NET与js(AJAX)的聊天程序

首先是安装Redis 此处略过n步然后新建一个ASP NET的MVC2的工程 MvcMessage 需要下载ServiceStack Redis并把dll复制到工程下并正确引用好下面开始贴代码了 1 在工程目录 Models 下新
vue中scss的使用

声明本人的所有博客皆为个人笔记作为个人知识索引使用因此在叙述上存在逻辑不通顺跨度大等问题希望理解分享出来仅供大家学习翻阅若有错误希望指出感谢 SCSS CSS书写代码规模较大的Web应用时容易造成选择器层叠的复杂度过高
pads图标logo库制作方法

pads官方推出了一款BMP to ASC的图片转换软件用于将bmp文件转换成asc文件格式但在实测中发现软件安装不了我通过网上查找整理了以下方法来制作图标库 1 准备工作首先电脑里下载安装PS WinTopo Pro exe软件
Java InputStream流转换读取成String字符串方法及示例代码

本文主要介绍Java中将InputStream输入流转换读取成String字符串的几种方法以及相关的示例代码原文地址 Java InputStream流转换读取成String字符串方法及示例代码
MongoDB限制内存方法

1 创建控制组确保cgroups binaries被安装 cgcreate g memory MongoLimitGroup 如果报错cgcreate libcgroup initialization failed Cgroup is n
数据量占总表的百分比过大导致索引失效

数据量占总表的百分比过大导致索引失效最近在做报表查询时使用关键字explain对sql解释发现在条件不变的情况下对索引列的条件不一样会导致索引失效使用强制索引的情况下问题解决建表语句 CREATE TABLE hm bs rec
AOP+自定义注解实现redis缓存自动更新

1 前言在前台查询首页数据的方法上加了注解 Cacheable value courseAndTeacher key selectIndexList 另外还有两个注解是用在更新缓存本来只要这几个注解配合起来使用就能实现数据自动更新但是
软考-安全

安全领域的重要性随着科技进步社会发展尤其是以计算机为代表的信息技术飞速发展各种信息呈爆炸式发展计算机及信息技术的应用领域在不断扩展计算机在政府企业民生等各个领域中都得到越来越广泛的应用与此同时网络攻击和入侵事件与日俱
QMap的遍历

QMap
大数据技术之-presto

一 Presto简介 1 Presto概念 Presto是一个开源的分布式SQL查询引擎适用于交互式分析查询数据量支持GB到PB字节 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的
c语言旋转bmp图片程序,C语言实现BMP图像处理（任意角度旋转）

原理参考 https blog csdn net liyuan02 article details 6750828 实现对对任意角度的旋转具体数学推导网上找如果各位读者需要使用只需要将打开文件的位置改为你的位置输入不同的角度即可 i
PyQt5组件之QSpinBox

QSpinBox 简介 QSPINBox是一个计数器控件允许用户选择一个整数值通过单击向上向下或者按键盘上的上下键来增加减少当前显示的值当然用户也可以输入值在默认情况下 QSpinBox的取值范围是 0 99 每次改变的步长是1 QSp
论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

论文解读 PRINCE Prefix Masked Decoding for Knowledge Enhanced Sequence to Sequence Pre Training Paper https aclanthology org

热门标签