BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果

2023-11-17

在这里插入图片描述
a)是句子对的分类任务
b)是单个句子的分类任务
c) 是问答任务
d)是序列标注任务

首先我自己最常用的就是：文本分类、序列标注和文本匹配。
这四个都是比较简单的，我们来看d)序列标注，其实就是把所有的token输出，做了一个softmax，去看它属于实体中的哪一个。对于单个样本，它的一个文本分类就是使用CLS这边，第一个CLS的输出，去做一个微调，做一个二分类，或者是多分类。
a)这个其实本质是一个文本匹配的一个任务，文本匹配就是把两个句子拼接起来，去判断它是否相似。左上角也是用CLS输出判断，0不相似，1相似。基本上其实就是这样，其实在下游任务中它使用还是比较简单的。

如何提升BERT在下游任务中的效果或者是表现。因为我们在实际应用中，很少会让你自己去从头训练一个bert。一般都是用训练好的，就是大公司放出来的bert，然后我们自己在自己的任务中做一些微调。

很多朋友的做法都是，先获取谷歌中文或者是其它公司的bert，然后基于自己的任务数据去做微调。但是我们想要更好的性能的话，现在有很多tirck需要去做。

首先，我想提的第一点就是去做 Post training。

四步骤

比如做微博文本情感分析：

在大量通用预料上训练一个LM（pretrain）；- 中文谷歌BERT
在相同领域上继续训练LM（Domain transfer）； - 在大量微博文本上继续训练这个BERT
在任务相关的小数据上继续训练LM（Task transfer）；- 在微博情感文本上（有的文本不属于情感分析的范畴）
在任务相关数据上做具体任务（Fine-tune）。

一般经验是，先做Domain transfer，再进行 Task transfer，最后Fine-tune 性能是最好的。

如何再相同领域数据中进行further pre-training

动态mask：就是每次epoch去训练的时候mask，而不是一直使用同一个。

bert在训练的时候使用的是固定的mask，就是把文本mask之后存在本地，然后每次训练的时候都是使用同一个文件，也就是说每次训练的时候我们使用的都是同样的mask标志。比如之前的例子【我爱吃饭】，每次训练的时候都是mask掉了这个”吃“，这样其实不太好。然后动态mask呢，就是每个epoch训练之前，去对数据进行mask。
刚才说bert一直使用同一套mask，也不太准确，它是有做一些改进，他有复制一些文本，大家具体去看一下论文。
n-gram mask：其实比如ERINE 和 SpanBert都是类似于做了实体词的mask。

我们可以退一步，就是如果你自己训练的时候，你没有特别准确的实体词，你可以不做实体词的mask，你可以做n-gram mask.

我们在做的时候参数一定要设置得特别的好，Batch size其实16，32，64，128影响不太大；Learning rate（Adam）5e-5,3e-5,2e-5，尽可能小一点避免灾难性遗忘；在微调的时候number of epochs，一般是3、4个，一般不会太大；weighted decay修改后的adam，使用warmup，搭配线性衰减，这个是比较重要的；

还有就是比如在预训练的时候做数据增强（一些简单的EDA）、自蒸馏、外部知识的融入（比如融入知识图谱的知识，或者加一些实体词的信息），这些都可以，不过比较吃机器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

自然语言处理

BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果的相关文章

NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo
word2vec gensim 多种语言

这个问题完全超出了我的想象我正在使用 gensim 训练 Word2Vec 模型我提供了多种语言的数据即英语和印地语当我试图找到最接近人的词时我得到的是 model wv most similar positive man O
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10

随机推荐

CMake入门教程：使用target_include_directories指定头文件目录

CMake入门教程使用target include directories指定头文件目录在进行软件开发时我们经常需要引用一些外部库或模块的头文件以便使用其功能 CMake是一个强大的跨平台构建工具能够帮助我们管理项目并生成相应的构建
WSL2 局域网访问以及hosts注意事项

说明 WSL2用的是NAT方式虚拟机有内部的ip 所以访问虚拟机可用代理访问方法要点根据微软文档 powershell 下做端口转发代理 netsh interface portproxy add v4tov4 listenport
双引号后面要加句号吗_小学二年级老师容易疏忽的一个知识点：冒号和双引号...

标点符号是特殊的文字使用得当会为文章增色不少同时也是考试丢分的一个知识点应引起师生重视到了小学二年级必须学会使用冒号和双引号冒号是常用的标点符号之一通常表示提示语后的停顿或表示提示下文或总结上文它用在提示语的后面如果老
用Python写一个比大小的小游戏（代码解释）

代码解释游戏猜数字玩法程序会随机生成一个1 30的数字玩家有无限次机会去猜这个数字程序会告诉你是大了还是小了在最后猜中的时候程序会告诉你猜中了并且告诉你结束游戏以及猜中该数字所花费的次数代码 Python import r
PyTorch的官方bug：torch.optim.lr_scheduler.CosineAnnealingWarmRestarts

torch optim lr scheduler CosineAnnealingWarmRestarts 低版本如torch1 7 1 指定last epoch参数时报错已有人反馈指出升级torch1 11 0可以解决该问题升级之后
Python数据可视化——图型参数介绍

前言利用Python 绘制常见的统计图形例如条形图饼图直方图折线图散点图等通过这些常用图形的展现将复杂的数据简单化这些图形的绘制可以通过matplotlib 模块 pandas 模块或者 seaborn 模块实现饼
java 垃圾回收 sys_深入理解Java虚拟机学习笔记2.1-G1垃圾回收

G1 GC是Jdk7的新特性之一 Jdk7 版本都可以自主配置G1作为JVM GC选项作为JVM GC算法的一次重大升级 DK7u后G1已相对稳定且未来计划替代CMS 所以有必要深入了解下不同于其他的分代回收算法 G1将堆空间划分成了
springmvc中的resolveView（视图解析器）

视图解析器接口只有一个方法就是根据名称解析出视图信息一个视图对象View 采用的是模板模式抽象模板类 AbstractCachingViewResolver 主要处理缓存如果视图对象在缓存中有则从缓存中取如果没有则创建 publ
整理最全的图床集合——三千图床

2021 09 25 更新去除部分图床添加新的图床优化排版引言古有弱水三千今有三千图床勿埋我心图床一般是指储存图片的服务器有国内和国外之分国外的图床由于有空间距离等因素决定访问速度很慢影响图片显示速度国内也分为单线空间
remote: HTTP Basic: Access deniedfatal: Authentication failed for ‘xxxxx‘的问题解决

在没有修改git密码的情况下使用vs code推送代码总是会报错 remote HTTP Basic Access denied fatal Authentication failed for xxxxxxxx git仓库地址网上试了
YOLOV7开源代码讲解--训练参数解释

目录训练参数说明 weights cfg data hpy epoch batch size img size rect resume nosave notest noautoanchor evolve bucket cach image
【Basis】狄利克雷分布

初次看狄利克雷分布比较懵主要是它有很多先行知识所以我先介绍狄利克雷分布用到的多项式分布 gamma 函数 beta分布然后再介绍狄利克雷分布参考文献见文章末目录一多项式分布 multinomial distribution
仅仅是一张照片就是不能刷脸支付的

科技改变未来并不是一句口号就拿买东西来讲以前人们都是一手交钱一手交货拿到大额的纸币还要验真假而现在移动支付成为主要付款方式只要一部手机扫一扫就能付款一开始也有很多人不习惯手机支付因为觉得没有现金实在整天就是一堆数字转来转
解决TypeError: 'function' object is not subscriptable

一解决问题在tensorflow中使用零矩阵初始化变量的时候出现的该异常 TypeError function object is not subscriptable 二解决方法问题代码如下 bias tf Variable tf
深度学习（9）：Inception危险物品检测

目标基于Inception网络实现对危险物品检测将危险物品图片或视频经过图像预处理后输入模型推理最后将检测结果进行可视化输出一原理 Google的Inception网络介绍 Inception为Google开源的CNN模型至今已
Java的变量

1 Java 变量类型答在Java语言中所有的变量在使用前必须声明声明变量的基本格式如下 type identifier value identifier value 格式说明 type为Java数据类型 identifier是变量
Java实现生成csv文件并导入数据

一需求下载列表在没有过滤之前下载列表所有数据点击过滤之后下载过滤之后对数据生成csv文件二思路先根据条件是否过滤了数据筛选出数据将数据导入csv文件生成文件并返回三代码实现 1 controller层文件下载
Gbase 8s存储结构简介及空间管理

Gbase 8s实例可以创建多个dbspace 一个dbspace可以包含多个物理chunk 一个chunk分成多个连续扩展区extent 一个表或者索引占用的空间被称为一个tablespace 一个extent包含多个物理页page 其中
利用多线程来实现一个简单的服务器，来实现处理多个用户的请求

服务器来实现接受多个客户的请求并且处理响应服务器采用了多线程代码如下服务器 package cn kgc basic tcpthread import java io IOException import java net Serve
BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果

a 是句子对的分类任务 b 是单个句子的分类任务 c 是问答任务 d 是序列标注任务首先我自己最常用的就是文本分类序列标注和文本匹配这四个都是比较简单的我们来看d 序列标注其实就是把所有的token输出做了一个softmax

BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果

BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果 的相关文章

随机推荐

热门标签

BERT从零详细解读：如何微调BERT，提升BERT在下游任务中的效果的相关文章