【论文笔记】ERNIE: Enhanced Representation through Knowledge Integration

2023-10-27

ERNIE: Enhanced Representation through Knowledge Integration

Created time: July 26, 2021 1:50 PM
Last edited time: July 30, 2021 9:24 AM
PDF: https://arxiv.org/pdf/1904.09223v1.pdf
Tags: Bert
参考材料: https://blog.csdn.net/weixin_41089007/article/details/103642082
大致思路: 整合先验知识【知识增强的手段】进行优化,mask的时候进行短语以及实体级别的mask
精读: Yes
编辑人: Freax Ruby

目录

概述

整合先验知识【知识增强的手段】进行优化,mask的时候进行短语以及实体级别的mask

之前有哪些方法

  • 采用矢量表示单词 ,上下文无关的表示
    • Word2Vec
    • Glove
  • 采用上下文来预测丢失的单词【没有考虑先验知识】
    • Skip-thought
      • 提出了一种通用的分布式句子编码器的无监督学习方法。
    • Cove
      • 表明,与在各种常见的NLP任务上仅使用无监督的单词和字符向量相比,添加这些上下文向量可以提高性能。
    • ULMFit
      • 提出了一种有效的转移学习方法,该方法可以应用于NLP中的任何任务。
    • ELMo
      • 建议从语言模型中提取上下文相关的功能。
    • GPT
      • 通过修改Transformer增强了上下文相关的嵌入。
    • BERT
      • 使用两种不同的预训练任务进行语言建模。 BERT随机掩盖句子中一定比例的单词,并学习预测那些被掩盖的单词。 此外,BERT学习预测两个句子是否相邻。
    • MT-DNN
      • 结合了预训练学习和多任务学习,以提高GLUE中多个不同任务的绩效。
    • GPT-2
      • 将任务信息添加到了预训练过程中,并使他们的模型适应零样本任务。
    • XLM
      • 在预训练过程中增加了语言嵌入功能,从而在跨语言任务中取得了更好的结果。
  • 采用异构数据
    • 通用句子编码器
      • 采用了来自Wikipedia,网络新闻,Web质量检查页面和讨论论坛的异构训练数据。
    • 基于响应预测的句子编码器
      • 受益于从Reddit对话中提取的查询-响应对数据。
    • XLM
      • 向BERT引入了并行语料库,它与掩盖语言模型任务一起接受了训练

做了什么工作

请添加图片描述

BERT是字输入字掩码
ERNIE是字输入词掩码
而这个识别词的过程就是加入知识整合的点

采用多阶段的知识掩盖策略,而不是直接添加知识嵌入,而是将短语和实体级知识集成到语言表示中

请添加图片描述
3.2.1基本级别掩码

第一个学习阶段是使用基本级别掩盖,它将句子作为基本语言单位的序列,对于英语,基本语言单位是单词,对于中文,基本语言单位是汉字。 在训练过程中,我们随机掩盖15%的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个Transformer来预测掩盖单元。 和BERT一样的操作,基于基本级别的掩码,学习低级语义。

3.2.2 短语级别掩码

第二阶段是采用短语级别的屏蔽。 词组是一小部分单词或字符,一起充当概念单元。 对于英语,我们使用词法分析和分块工具来获取句子中短语的边界,并使用一些依赖于语言的分段工具来获取其他语言(例如中文)的词/短语信息。 **在短语级掩码阶段,我们还使用基本语言单元作为训练输入,这与随机基本单元掩码不同,**这次我们随机选择句子中的几个短语,掩盖并预测同一短语中的所有基本单元。 在此阶段,短语信息被编码到单词嵌入中。

3.2.3实体级别掩码

第三阶段是实体级屏蔽。 名称实体包含人员,位置,组织,产品等,可以用专有名称表示。 它可以是抽象的,也可以是物理存在的。 通常,实体在句子中包含重要信息。 与短语屏蔽阶段一样,我们首先分析句子中的命名实体,然后屏蔽并预测实体中的所有时隙。 经过三个阶段的学习,获得了通过更丰富的语义信息增强的单词表示。

请添加图片描述

对话数据对于语义表示很重要,因为相同答复的相应查询语义通常很相似。 ERNIE在DLM(对话语言模型)任务上对查询-响应对话结构进行建模。如图3所示,我们的方法引入了对话嵌入(dialogue embedding)来识别对话中的角色,这与通用句子编码器的方法不同(Cer等人,2018)。 ERNIE的“对话”嵌入功能与BERT中的令牌类型嵌入功能相同,不同之处在于ERNIE还可以表示多回合对话(例如QRQ,QRR,QQR,其中Q和R分别代表“查询”和“响应”)。像BERT中的MLM一样,使用掩码来强制使模型预测以查询和响应为条件的缺失词。而且,我们通过用随机选择的句子替换查询或响应来生成假样本。该模型旨在判断多回合对话是真实的还是假的。

DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。DLM任务的模型体系结构与MLM任务的模型体系结构兼容,因此可以通过MLM任务对其进行预训练。

解决了什么问题

自然语言推理

语义相似性

命名实体识别

情感分析

问题解答

在完形填空测试中具有更强大的知识推理能力

创新点在哪里

1.mask策略。BERT只使用了字级别的随机masking,但是ERNIE使用了字、实体、短语三个级别的masking,旨在使模型学习到更多高级的语义。

2.中文异构数据预训练。对异构无监督数据进行预训练的语义编码器可以提高迁移学习性能。百度构建了混合语料库——中文Wikepedia,百度百科,百度新闻和百度贴吧。

3.对话语言模型。DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。

采用了什么数据

  • 自然语言推理
    • 跨语言自然语言推理(XNLI)语料库
      • 是MultiNLI语料库的众包集合。 两对文字加上文字说明,并被翻译成包括中文在内的14种语言。 标签包含矛盾,中立和包含。
  • 语义相似性
    • 大规模中文问题匹配语料库(LCQMC)
      • 旨在识别两个句子是否具有相同的意图。 数据集中的每一对句子都与一个二进制标签相关联,该二进制标签指示两个句子是否共享相同的意图,并且可以将该任务形式化为预测二进制标签。
  • 命名实体识别
    • MSRA-NER
      • 由Microsoft Research Asia发布。 实体包含几种类型,包括人员姓名,地名,组织名称等。 该任务可以看作是序列标记任务。
  • 情感分析
    • ChnSentiCorp(Song-bo)
      • 旨在判断句子的情感。 它包括酒店,书籍和电子计算机等多个领域的评论。 该任务的目的是判断句子是肯定的还是否定的。
  • 问题解答
    • NLPCC-DBQA
      • 评估方法包括MRR和F1得分

解决的效果怎么样

请添加图片描述
知识屏蔽策略的效果

在这里插入图片描述

DLM的效果

完形填空效果

在这里插入图片描述

还能做哪些工作

将其他类型的知识整合到语义表示模型中,例如使用语法解析或来自其他任务的弱监督信号。

采用其他语言来验证这个想法

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文笔记】ERNIE: Enhanced Representation through Knowledge Integration 的相关文章

随机推荐

  • ADMM算法求解一个简单的例子

    求解下面的带有等式约束和简单的边框约束 box constraints 的优化问题 minx y x 1 2 y 2 2s t 0 x 3 1 y 4 2x 3y 5 begin equation begin aligned min x y
  • 聊一聊.NET的网页抓取和编码转换

    在本文中 你会了解到两种用于 HTML 解析的类库 另外 我们将讨论关于网页抓取 编码转换和压缩处理的知识 以及如何在 NET 中实现它们 最后进行优化和改进 文章目录 1 背景 2 网页抓取 3 编码转换 4 网页压缩处理 5 代码优化
  • ElasticSearch+Kibana on K8s 讲解与实战操作(版本7.17.3)

    文章目录 一 概述 二 ElasticSearch 节点类型与作用 三 K8s 集群部署 四 ElasticSearch on K8s 开始部署 1 下载安装包 2 构建镜像 3 修改yaml编排 4 开始部署 5 测试 6 elastic
  • 5. 筛选和过滤

    文章目录 筛选和过滤 条件筛选 提取 抽样 最值 Index np argmax argmin np argsort 筛选和过滤 这小节与索引和切片有点类似 但倾向于从 整体 中统一筛选出 符合条件 的内容 而索引和切片更多的是依照 某种方
  • C++编译警告:warning C4305: 'initializing' : truncation from 'const double' to 'float'

    float a 4 14E 3 float a 3 1 类似的语句在编译的时候 会产生如下警告 warning C4305 initializing truncation from const double to float 虽然说不会导致
  • Apriori算法详解之【一、相关概念和核心步骤】

    感谢红兰整理的PPT 简单易懂 现在将其中精彩之处整理 与大家分享 一 Apriori算法简介 Apriori算法是一种挖掘关联规则的频繁项集算法 其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集 Apriori 先验的
  • 36奇迹发布网_8点1氪:王思聪已被取消限制消费令;拼多多大跌近23%,下一季度会继续“百亿补贴”;苹果发布千元iPhone11智能手机壳...

    11月20晚间 查询中国执行信息公开网发现 王思聪已不在限制消费人员名单之中 文 梦想家菜菜 邹黄晶 整理 Kr Lab 点击上方 36氪随声听 一键收听大公司热门新闻 听完音频记得添加进入 我的小程序 中哟 蜗牛移动 据IPO早知道 蜗牛
  • C++:auto&decltype

    auto用法 总述 C 11 auto可以在声明变量的时候根据变量初始值的类型自动为此变量选择匹配的类型 类似的关键字还有decltype 举个例子 auto的作用就是为了简化变量初始化 如果这个变量有一个很长很长的初始化类型 就可以用au
  • CAN学习笔记3:STM32 CAN控制器介绍

    STM32 CAN控制器 1 概述 STM32 CAN控制器 bxCAN 支持CAN 2 0A 和 CAN 2 0B Active版本协议 CAN 2 0A 只能处理标准数据帧且扩展帧的内容会识别错误 而CAN 2 0B Active 可以
  • BTC-数据结构

    哈希指针 hash pointers 普通的指针存储的是某个数据在内存中的首地址 哈希指针不仅要保存地址 还要保存数据的哈希值 通过哈希指针不仅能找到数据的位置 还能检测出数据有没有被篡改 因为保存了哈希值 区块链 比特币的基本数据结构即区
  • 泰勒图(Taylor diagram)

    感谢大家的收藏 我会继续完善这篇博客的 文章目录 定义 例子 拓展 英文原版定义 python绘图方法 定义 泰勒图 泰勒图1常用于评价模型的精度 常用的精度指标有相关系数 标准差以及均方根误差 RMSE 一般而言 泰勒图中的散点代表模型
  • PySpark环境配置

    首先 要知道PySpark是Spark为Python提供的API库 因此使用 pip install pyspark 下载pyspark不等于下载了spark 因此 配置pyspark环境 首先需要下载spark 1 linux下载spar
  • Android设备启动时出现pop音

    Android设备启动时出现pop音 Android设备启动时出现pop音 环境介绍 原因定位 Android混音 TEE SINK Android HAL层文件 异常原因 解决方案 解决方案应用 Android设备启动时出现pop音 针对
  • 使用CLion创建Cmake项目,使用GoogleTest和GoogleMock对代码进行测试

    文章目录 1 环境准备 2 CLion创建项目 3 编写测试用例 4 复杂测试用例 1 环境准备 注意版本匹配 我本地是g 8 1 0 的 最开始装了GoogleTest最新版1 10 0结果发现不能用 又回去下载旧的版本 g 8 1 0
  • opkg 不能更新和安装openwrt软件的方法

    首先 将所有的IPK 放在自己的虚拟HTTP服务器上 2 用Telnet进入路由器 使用VI编辑器 编程Opkg conf 命令 vi etc opkg conf3 修改文件 将第一行HTTP后面的部分 修改为第二步中查看到的IP地址 如果
  • c++ 泛型

    目录 1 什么是泛型 2 为什么需要泛型 3 泛型如何用 参考 泛型是什么 C 泛型编程又是什么 1 什么是泛型 泛型是什么 C 泛型编程又是什么 泛型 实质上就是不使用具体数据类型 例如 int double float 等 而是使用一种
  • 不同的子序列 -- 动规

    115 不同的子序列 class NumDistinct 115 不同的子序列 https leetcode cn problems distinct subsequences description def solution1 self
  • QT移植步骤

    1 在开发板的跟目录下新建两个目录 mkdir mini2440 mkdir tslib 2 拷贝相关的文件 2 1把PC机下面的 usr local Trolltech QtEmbedded 4 6 3 arm lib目录下面的所有文件全
  • 游戏开发unity xlua框架知识系列:obj引用分析

    参考 xLua的obj引用分析
  • 【论文笔记】ERNIE: Enhanced Representation through Knowledge Integration

    ERNIE Enhanced Representation through Knowledge Integration Created time July 26 2021 1 50 PM Last edited time July 30 2