(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练

2023-11-07

来源: AINLPer 微信公众号(每日更新…
编辑: ShuYini
校稿: ShuYini
时间: 2020-07-27

引言: 本次内容主要包括:稳健优化Bert模型(RoBERTa)、自回归预训练模型(XLNet)、无监督多任务学习语言模型生成预训练语言理解深层上下文单词表示键值记忆网络大规模问答系统训练等 。。

本次论文获取方式
1、关注AINLPer 微信公众号(每日更新…)回复:BT002
2、知乎主页–ShuYini

1、TILE: RoBERTa: A Robustly Optimized BERT Pretraining Approach
Author: Yinhan Liu • Myle Ott • Naman Goyal • Jingfei Du • Mandar Joshi
Paper: https://arxiv.org/pdf/1907.11692v1.pdf
Code: https://github.com/brightmart/roberta_zh
论文简述: 语言模型的预训练使得相关任务在性能表现上有了大幅提升,但仔细对比不同方法你会发现在某些地方还是比较有挑战性的。 比如训练的时候需要昂贵的计算资源、通常在不同大小的私有数据集上进行的,超参数的选择影响最终的结果。我们提出对BERT预训练进行重复研究,该研究仔细衡量了许多关键超参数和训练数据数量的影响,发现之前的BERT训练不足,它本可以匹配或超过它发布的每个模型的性能。 基于对之前Bet模型的讨论研究,本文模型在GLUE,RACE和SQuAD上获得了最先进的结果。

2、TILE: XLNet: Generalized Autoregressive Pretraining for Language Understanding
Author: Zhilin Yang • Zihang Dai • Yiming Yang • Jaime Carbonell • Ruslan Salakhutdinov
Paper: https://arxiv.org/pdf/1906.08237v2.pdf
Code: https://github.com/listenviolet/XLNet
论文简述: 依据双向上下文的建模功能,基于预训练的去噪自动编码(比如bert)相比于基于自回归语言建模具有更好的性能。但是,BERT依赖于使用mask破坏输入,因此忽略了mask位置之间的依赖关系,以及预训练微调的差异。鉴于这些优点和缺点,本文提出XLNet,这是一种广义的自回归预训练方法,该方法(1)通过最大化因子分解的所有排列组合的期望似然性来实现双向上下文的学习,并且(2)由于其自回归性能而克服了BERT的局限性。 此外,XLNet将来自最先进的自动回归模型Transformer-XL的思想整合到预训练中。 实验表明,XLNet在20个任务上的表现要优于BERT,通常包括问答,自然语言推断,情感分析和文档排名等。

3、TILE: Language Models are Unsupervised Multitask Learners
Author: Alec Radford • Jeffrey Wu • Rewon Child • David Luan • Dario Amodei • Ilya Sutskever
Paper: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
Code: https://github.com/akanyaani/gpt-2-tensorflow2.0
论文简述: 自然语言处理任务通常在特定任务的数据集上通过监督学习来做训练,例如问题解答,机器翻译,阅读理解和摘要。当在一个名为WebText的数百万的网页数据集上训练时,我们发现语言模型在没有任何明确监督的情况下开始学习这些任务。在文档加问题的条件下,语言模型在CoQA数据集上生成的答案F1分数达到55 ,在不使用127,000多个训练示例的情况下,其性能或超过3/4个基线系统。语言模型的容量对于零任务迁移至关重要,增加其容量可以以对数线性的方式提高跨任务性能。GPT-2是一个具有1.5B个参数的Transformer,它可以在zero lens设置的情况下,8个语言模型数据集最终获得了7个最新的结果,但是这并不适用于WebText。模型的样本反映了这些改进,并包含连贯文本段落。这些发现为构建语言处理系统提供了一种很有前景的方法,可以从自然发生的演示中学习执行任务。

4、TILE: Improving Language Understanding by Generative Pre-Training
Author: Alec Radford • Karthik Narasimhan • Tim Salimans • Ilya Sutskever
Paper: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
Code: https://github.com/openai/finetune-transformer-lm
论文简述: 自然语言理解包含各种各样的任务,例如:文本范围、问答、语义相似度评估、文档分类。尽管大型的未标记文本语料库很丰富,但是用于学习这些特定任务的标记数据却很少,这使得经过严格训练的模型难以充分发挥作用。本文验证发现,通过在各种未标记文本的语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调,可以实现这些任务的巨大增益。与以前的方法相比,我们在微调过程中利用了任务感知的输入转换来实现有效的传输,同时对模型体系结构的更改要求最小。 我们在广泛的自然语言理解基准测试中证明了我们的方法的有效性。

5、TILE: Measuring Compositional Generalization: A Comprehensive Method on Realistic Data
Author: Daniel Keysers • Nathanael Schärli • Nathan Scales • Hylke Buisman
Paper: https://arxiv.org/pdf/1912.09713v2.pdf
Code: https://github.com/google-research/google-research/tree/master/cfq
论文简述: 最先进的机器学习方法表现出有限的成分概括性。同时,缺乏实际的基准来全面衡量其能力,这使得改进评估变得颇具挑战性。我们引入了一种新方法来系统地构建此类基准,即通过最大化复合散度,同时保证训练集和测试集之间的较小的原子散度,并定量地将此方法与其他创建成分泛化基准的方法进行比较 。我们提出了一个基于该方法构造的大型真实自然语言问答数据集,并用它分析了三种机器学习体系结构的合成泛化能力。我们发现它们在成分上无法概括,并且复合散度和准确度之间存在惊人的强负相关。我们还演示了如何使用我们的方法在现有扫描数据集的基础上创建新的组合基准,证明了本文方法的有效性。

6、TILE: Deep contextualized word representations
Author: Matthew E. Peters • Mark Neumann • Mohit Iyyer Hedayatnia
Paper: https://arxiv.org/pdf/1802.05365v2.pdf
Code: https://github.com/flairNLP/flair
论文简述: 我们引入了一种新型的深层上下文词表示形式,该模型既可以建模(1)我们使用单词的复杂特征(例如语法和语义),又可以建模(2)这些用法如何在不同的语言语境中变化(即用于建模多义性)。我们的词向量是深度双向语言模型(biLM)内部状态的学习函数,其中biLM模型是在大型文本语料库上预先训练的。实验表明,这些表示可以很容易地添加到现有的模型中,并在六个具有挑战性的NLP问题(包括问题回答、文本蕴涵和情绪分析)中表现显著提高。经过分析表明,暴露出预先训练过的网络的深层内在是至关重要的,这将可以允许下游模型混合不同类型的半监督信号。

7、TILE: Key-Value Memory Networks for Directly Reading Documents
Author: Alexander Miller • Adam Fisch • Jesse Dodge
Paper: https://arxiv.org/pdf/1606.03126v2.pdf
Code: https://github.com/jojonki/key-value-memory-networks
论文简述: 阅读文档并能够直接回答文档中的问题是一项的挑战。为解决该问题,当前很多人将问题回答(QA)定向为使用知识库(KB),并且事实证明这是有效的。但是因为架构无法支持某些类型的答案并且过于稀疏,KB会受到很多限制。在这项工作中,我们介绍了一种新的方法,即键值存储网络,该方法在内存读取操作寻址和输出阶段利用不同的编码,来使文档阅读更为可行。 为了在单个框架中直接使用KBs、信息提取或Wikipedia文档进行比较,我们构造了一个分析工具WikiMovies,这是一个QA数据集,在电影领域中包含原始文本和预处理知识库。实验证明本文的方法缩小了所有三种设置之间的差距。它还在现有的WikiQA基准测试中获得了最先进的结果。

8、TILE: Large-scale Simple Question Answering with Memory Networks
Author: Antoine Bordes • Nicolas Usunier • Sumit Chopra
Paper: https://arxiv.org/pdf/1506.02075v1.pdf
Code: https://github.com/aukhanee/FactQA
论文简述: 训练大规模问答系统非常复杂,因为训练资源通常只覆盖一小部分可能的问题。 本文研究了多任务和迁移学习对简单问题回答的影响: 只要可以在给定问题的情况下检索正确的证据,就可以轻松地回答所需的推理,但是这在大规模条件下可能是困难的。 为此,我们引入与现有基准共用且包含10万个问题的新数据集, 我们在内存网络的框架内进行研究,实验结果表明可以成功地训练内存网络以实现出色的性能。

Attention

更多自然语言处理相关知识,还请关注**AINLPer公众号**,极品干货即刻送达。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练 的相关文章

  • 【并发编程】2、线程安全性

    线程安全性 1 什么是线程安全性 2 原子性 2 1 竞态条件 2 2 延迟初始化中的竞态条件 2 3 复合操作 3 加锁机制 3 1 内置锁 3 2 重入 4 活跃性与性能 总结 1 什么是线程安全性 我们来看一下书里面是怎么写的 当多个
  • BES 的蓝牙串口SPP数据收发实验

    1
  • java面试题答案大全超详细(持续更新)

    java面试题答案大全超详细 第01章 java语言面试题 项目经理 作者 张明星 JVM 运行时数据区是什么 程序计数器是什么 程序计数器 线程私有 Java 虚拟机栈的作用 本地方法栈的作用 堆的作用是什么 方法区的作用是什么 运行时常

随机推荐

  • Linux下通过SSH对Oracle关闭和启动的过程

    Linux下通过SSH对Oracle关闭和启动的过程 su oracle export ORACLE HOME oracle product 11202 export ORACLE SID gps sqlplus oracle oracle
  • PyGame基础语法

    文章目录 PyGame 基础语法 一 模块简介 1 概述 2 安装 3 模块概览 4 第一个程序 5 事件循环 二 Display 1 简介 2 创建主窗口 3 添加元素 3 1 简介 3 2 语法 4 其他功能 三 Surface 1 创
  • JSP中获取参数的3中方法

    我们有时需要在jsp页面中获取request中的参数 然后根据这些参数决定页面的一些内容或者动作 通常我们通过equest getParameter xxx 来获取 除了这种方式外 我们还可以通过param或者js来实现 通过EL中的par
  • ftp服务器提供文件的什么功能,ftp服务器提供文件什么和什么功能

    ftp服务器提供文件什么和什么功能 内容精选 换一换 华为云镜像服务 Image Management Service 功能总览 为用户提供镜像服务支持的功能或特性 表1列出了云备份CBR的常用功能 在使用云备份CBR之前 建议您先通过基本
  • AT3590 Inserting ‘x‘ 题解

    本题是一道双指针的模拟题 题意 给你一个字符串 s s s 你可以在 s s s 的任意位置插入 x x
  • 好的习惯----程序员成长之路(from老大邮件)

    对于好程序员 有很多好的习惯 为什么要把这个习惯放在第一个呢 有很多人如果阅读过 高效能人士的七个习惯 其中第一个习惯就是积极主动 如果从这个角度来看 我把解决解决每一个问题放在首位从理论上是完全没问题的 但我要说说我们程序员独特的地方 所
  • [4G+5G专题-133]: 部署 - 4G/5G常见的室内部署方案

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 121554032 目录 第1章 概述
  • 总结】python sklearn模型中random_state参数的意义

    这是在决策树CART模型时 遇到的 random state 是为了固定随机状态的 主要用在随机数据集 数据集的随机划分 设置决策树模型参数 设置随机森林模型参数 random state 取值大小可以是任意一个整数 在调参缓解 只要保证其
  • 基于Docker的JMeter分布式压测实战讲解

    一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试 如本网站所示 一个JMeter实例将能够控制许多其他的远程JMeter实例 并对你的应用程序产生更大的负载 JMeter使用Java RMI 远程方法调用 来与分布式网
  • 即将离开CSDN,转其他平台

    CSDN的几大作死操作 1 同质化太特么严重了 博客抄来抄去的 内容审核形同虚设 经常搜一个问题 从第一条到最后一条都是一模一样的内容 2 资源付费 资源付费本身是没有任何问题的 但是CSDN里面有几个有用的资源 很多大家花了钱一下载 发现
  • windows凭据密码怎么查看_管理Windows访问凭证,快速访问局域网上的共享资源

    内部网访问其他电脑的共享资源 基本上需要输入访问对方电脑资源允许的账号和密码 在第一次的访问中选择保存凭据后 以后访问就不要输入相应的账号和密码了 但也会出现因修改相关的访问密码或者取消了访问账号的改变 这样就会出现凭据失效的情况 下面介绍
  • 类似-Xms、-Xmn这些参数的含义:

    类似 Xms Xmn这些参数的含义 答 堆内存分配 JVM初始分配的内存由 Xms指定 默认是物理内存的1 64 JVM最大分配的内存由 Xmx指定 默认是物理内存的1 4 默认空余堆内存小于40 时 JVM就会增大堆直到 Xmx的最大限制
  • Python通过ARIMA模型进行时间序列分析预测

    ARIMA模型预测 时间序列分析预测就是在已有的和时间有关的数据序列的基础上构建其数据模型并预测其未来的数据 例如航空公司的一年内每日乘客数量 某个地区的人流量 这些数据往往具有周期性的规律 如下图所示 有的数据呈现出简单的周期性循环 有的
  • Linux嵌入式学习---c语言之循环结构

    Linux嵌入式学习 c语言之循环结构 一 while语句循环 1 1一般形式 1 2累加求和 二 do while语句循环 2 1do while语句一般形式 2 2do while语句特点 三 for语句循环 3 1for语句的一般形式
  • vue-resource请求数据的使用方法

    vue resource vue js关于客户端请求数据的官方插件 使用vue resource请求数据的步骤 1 安装vue resource插件 记得添加 save 若安装淘宝镜像用cnpm npm install vue resour
  • [蓝桥杯2023初赛] 整数删除

    给定一个长度为 N 的整数数列 A1 A2 AN 你要重复以下操作 K 次 每次选择数列中最小的整数 如果最小值不止一个 选择最靠前的 将其删除 并把与它相邻的整数加上被删除的数值 输出 K 次操作后的序列 输入格式 第一行包含两个整数 N
  • vscode:visual studio code 调试php

    简介 php是动态语言没有调试器的话排错起来很是麻烦 vscode可以说是程序员的福音 启动速度快 插件越来越多 跨平台 现在说一下vscode上调试php文件 所需文件 xampp 集成服务器 vscode Xdebug php debu
  • Rightware的Kanzi界面很快你的全液晶汽车仪表盘

    锋影 e mail 174176320 qq com 这是一个屏幕在行动的Kanzi UI编辑器 这是说 汽车仪表板没有显著在过去的几十年里发展公平 不知怎么的 我觉得喜欢的东西是会改变的 但什么也没做 至少在一个大的方式 当日产GTR天际
  • 面试必问的Spring IoC与Spring AOP面试题,你能get到几问?

    Spring IoC Q1 IoC 是什么 Q2 IoC 容器初始化过程 Q3 依赖注入的实现方法有哪些 Q4 依赖注入的相关注解 Q5 依赖注入的过程 Q6 Bean 的生命周期 Q7 Bean 的作用范围 Q8 如何通过 XML 方式创
  • (含源码)「自然语言处理(NLP)」RoBERTa&&XLNet&&语言模型&&问答系统训练

    来源 AINLPer 微信公众号 每日更新 编辑 ShuYini 校稿 ShuYini 时间 2020 07 27 引言 本次内容主要包括 稳健优化Bert模型 RoBERTa 自回归预训练模型 XLNet 无监督多任务学习语言模型 生成预