读论文（二） - BERT

2023-11-17

Introduction

预训练的语言模型，在改进自然语言处理任务方面非常有效。包括句子级别的任务（自然语言推理和释义）也包括分词级别的任务（NER和问答）。

将预训练的语言表示应用于下游任务有两种现有策略：基于特征（feature-based）与微调（fine-tuning）。（这两种方法在预训练期间共享相同的目标函数，它们使用单向语言模型来学习通用语言表示。）

基于特征：例如 ELMo使用特定于任务的架构，其中包括预训练的表示作为附加特征。

微调：引入了最少的任务特定参数，并通过简单地微调所有预训练参数来对下游任务进行训练。

但是，当前的技术限制了预训练表示的能力，特别是对于微调方法。主要限制是标准语言模型是单向的，这限制了可在预训练期间使用的架构的选择。这样的限制对于句子级任务来说是次优的，并且在将基于微调的方法应用于令牌级任务（例如问答）时可能非常有害。（提出问题）

BERT

所有总结的bert的知识点都在这：http://t.csdn.cn/YsF9N

Experiment

我们展示了 11 个 NLP 任务的 BERT 微调结果。（属于4类）

第一类任务运行结果：

Ablation Studies(消融实验)

我们首先考察 NSP 任务带来的影响。在表 5 中，我们表明移除 NSP 会显着损害 QNLI、MNLI 和 SQuAD 1.1 的性能。接下来，我们通过比较“No NSP”与“LTR & No NSP”来评估训练双向表示的影响。 LTR 模型在所有任务上的表现都比 MLM 模型差，在 MRPC 和 SQuAD 上的下降幅度很大。

在本节中，我们探讨了模型大小对微调任务准确性的影响。我们训练了许多具有不同层数、隐藏单元和注意力头的 BERT 模型，同时使用与前面描述的相同的超参数和训练过程。选定 GLUE 任务的结果如表 6 所示。可以看到，更大的模型会导致所有四个数据集的准确度得到严格的提高。

最近由于使用语言模型进行迁移学习的经验改进表明，丰富的、无监督的预训练是许多语言理解系统不可或缺的一部分。特别是，这些结果使即使是低资源任务也能从深度单向架构中受益。我们的主要贡献是将这些发现进一步推广到深度双向架构，允许相同的预训练模型成功处理广泛的 NLP 任务。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bert

学习

深度学习

读论文（二） - BERT 的相关文章

[刷题记录]牛客面试笔刷TOP101

牛客笔试算法必刷TOP101系列每日更新中主要是记录自己的刷题所以描述的可能不是很清楚但如果刚好能帮助到你就更好了后续后头复习的时候记得是看正解啊别对着错的例子傻傻看了目录 1 合并有序链表2023 9 3 2 链表是否有环
第14.18节爬虫实战4： request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

写在前面本文相关方法为作者独创仅供参考学习爬虫技术使用请勿用作它途禁止转载一引言在爬虫爬取网页时有时候希望不同的时候能以不同公网地址去爬取相关的内容去网上购买地址资源池是大部分人员的选择老猿所在的环境有电信运输商部署的对
[Python学习] 专题五.列表基础知识二维list排序、获取下标和处理txt文本实例

通常测试人员或公司实习人员需要处理一些txt文本内容而此时使用Python是比较方便的语言它不光在爬取网上资料上方便还在NLP自然语言处理方面拥有独到的优势这篇文章主要简单的介绍使用Python处理txt汉字文字二维列表排序和获取
橘子学java之java中的协程

一关于协程最近jdk19上了 java开始支持虚拟线程了也就是所谓的协程 java的协程库是官方是这个https openjdk org projects loom 我指的是oracle的java 阿里那个well的早就支持了只是官

随机推荐

stm32——Fatfs文件系统读写文件

因项目需求需要移植fatfs文件系统参考了正点原子的战舰例程使用mcu为stm32f103zet6 spi的sd卡模块 8Gsd卡例程为mini板 mcu stm32f103rct6 的 ALIENTEK MINISTM32 实验29
【详解】指令系统中跳转指令与OF,SF,CF,ZF的关系

目录无符号跳转表示法有符号跳转表示法无符号跳转表示法详解有符号跳转表示法详解无符号跳转表示法小于大于等于小于等于大于有符号跳转表示法小于大于等于小于等于大于无符号跳转表示法详解我在学习这部分的最大的困惑点就是
TensorboardX和Tensorboard的介绍及使用

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录一 Tensorboard是什么 conda环境安装二 Tensorboard可供显示的内容三 Tensorboard使用步骤 1 标量SCALARS 2 图片
Dubbo和Spring Cloud微服务架构对比

Dubbo和Spring Cloud微服务架构对比微服务架构是互联网很热门的话题是互联网技术发展的必然结果它提倡将单一应用程序划分成一组小的服务服务之间互相协调互相配合为用户提供最终价值虽然微服务架构没有公认的技术标准和规范或
动态代理模式（实例化详解）

简介代理模式通常用于达到对原有系统功能进行扩充的目的比如你刚接手一个别人没有完成的项目这是你不想动别人原理的代码还需要添加新功能这时代理模式这时代理模式这时代理模式会很好的帮助解决问题代理模式分为两种静态代理模式动态代
蓝桥杯2021年第十二届真题第一场-砝码称重

题目题目链接题解动态规划状态定义 dp i j 表示前i个砝码是否能称出重量为j的物品状态转移对于第i个砝码选和不选两种情况对于选又可以分为放在左边和放在右边看样例存在加和减的情况也就是放在左边和右边的情况我们规定放
爬虫日常-12306自动购票程序

文章目录前言页面分析代码设计前言 hello兄弟们最近在钻研新鲜知识一不留神没想起来更新今天我们顺着前面几篇文章完整的写出一篇12306的自动购票软件首先把我们已经写完的前期步骤代码再顺一遍 from selenium we
IDEA常用快捷键集合(详解)

keymap中定义的快捷键实在是太多了全部记住几乎不可能但在项目开发或调试的工程中快捷键是绝对的效率工具查询快捷键 CTRL N 查找类 CTRL SHIFT N 查找文件 CTRL SHIFT ALT N 查找类中的方法或变量
msvcp140.dll缺失重新安装的方法【msvcp140.dll修复工具下载安装】

如果您在使用某些应用程序或游戏时遇到了 msvcp140 dll丢失的错误提示那么您需要采取一些措施来解决这个问题以下是几种解决msvcp140 dll丢失的方法 msvcp140 dll解决方法一 1 在浏览器顶部网页搜索 dll修
【vue】实现首屏加载等待动画避免首次加载白屏尴尬

原文链接在线体验 width 100 height 443 src jsfiddle net kajweb qrno8s0g 9 embedded html css result allowfullscreen allowfullscre
a foreign key constraint fails

可能由两种原因导致 1 设置的外键和对应的另一个表的主键值不匹配解决方法找出不匹配的值修改或者清空两表数据 2 字符集和排序规则的差异引起如果确认外键和主键一致使用如下方式解决代码前段插入 SET OLD CHARACTER S
iOS 15 越狱情报

关注后回复进群拉你进程序员交流群作者丨小集来源丨小集 ID zsxjtip iOS 15 正式版本已经发布了而 iOS 15 1 beta 版本也在近期发布在普通用户和开发者追更各个 beta 版和正式版时另一个神秘群体也没有
架构但服务多租户_华为以AI和混合云实现多租户数据中心架构转型

华为采用全球直播的方式以你好智能世界为主题举办行业数字化转型大会把原计划在巴塞罗那现场举办的活动时间不变 2月24日 27日搬到线上针对互联网服务行业数字化专门举办的MTDC 多租户数据中心论坛于北京时间27日开启全球线上直
外包干了2个月，技术退步明显...

先说一下自己的情况大专生 18年通过校招进入湖南某软件公司干了接近4年的功能测试今年年初感觉自己不能够在这样下去了长时间呆在一个舒适的环境会让一个人堕落而我已经在一个企业干了四年的功能测试已经让我变得不思进取谈了2年的女朋友
调用halcon函数时的错误处理

注以下材料来自halcon帮助文档因水平有限难免有误欢迎指正 0 概述在遇到一个运行时错误时 HALCON C 会以默认的方式给出错误信息并终止程序然而在某些情况下我们并不希望按照这样的规则来处理错误例如当一个程序允许
centos7.8从卸载python2，安装python3

因为目前所有环境都是python2 7 5 但是项目上使用的是python3 7 5 迫切需要使用python3 7 5验证安装遇到困难记录一下首先卸载python2 如果不想卸载python2的可以跳过这里卸载python2和其依
信息图：iOS 7开发者需要知道的事

如果你想为iOS 设备开发app 你需要知道如何与软件交互如何设计你还要知道苹果独特的开发理念和开发工具真正的能力还需要成功地从其他行业领域借鉴核心概念最后把所有这些东西糅合进你的信息库中所以我们画了一张iOS 7开发者应该的知识
iOS开发：使用大图+脚本，生成各种size的app icon和图片素材

美术UI在公司是宝贵的资源集各种项目宠爱于一身为了努力完成好老板的进度需求不给UI添麻烦程序员开始忙活了在iOS里面我们使用image assert来管理素材和app icon 为什么呢因为方便按照image assert要
怎样在前端遍历后端服务器传递来的json字符串中的集合？

怎样在前端遍历后端服务器传递来的json字符串中的集合后端把一个List类型的集合先转换成json字符串然后返回给通过ajax返回给前端如下图后端服务器中的代码如下图紧着着前端页面遍历后端传递来的json字符串中的集合数据先来看
读论文（二） - BERT

Introduction 预训练的语言模型在改进自然语言处理任务方面非常有效包括句子级别的任务自然语言推理和释义也包括分词级别的任务 NER和问答将预训练的语言表示应用于下游任务有两种现有策略基于特征 feature based

热门标签