用自己的数据增量训练预训练语言模型

2023-11-07

预训练模型给各类NLP任务的性能带来了巨大的提升，预训练模型通常是在通用领域的大规模文本上进行训练的。而很多场景下，使用预训练语言模型的下游任务是某些特定场景，如金融，法律等。这是如果可以用这些垂直领域的语料继续训练原始的预训练模型，对于下游任务往往会有更大的提升。

以BERT为例，利用huggingface的tranformers介绍一下再训练的方式：

1. 定义tokenizer

bert的预训练模式一般分为，Masked language model (MLM)与 next sentence prediction(NSP)，主要利用MLM在自己的语料上进行预训练

from transformers import RobertaConfig,BertTokenizer
from transformers import BertForMaskedLM as Model
from transformers import MaskedLMDataset,Split
from transformers import DataCollatorForLanguageModeling
from transformers.trainer_utils import get_last_checkpoint

# 定义tokenizer
tokenizer = BertTokenizer.from_pretrained(retrained_bert_path, max_len=max_seq_length)

2. 定义预训练模型的参数

# 定义预训练模型的参数
config = RobertaConfig(
    vocab_size=tokenizer.vocab_size,
    max_position_embeddings=max_seq_length,
    num_attention_heads=12,
    num_hidden_layers=12,
    type_vocab_size=2,
)

预训练的模式为MLM，直接调用 DataCollatorForLanguageModeling API即可方便得以自己的语料定义生成器。

retrained_model = Model(config=config)
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15)

3. 加载MLM训练数据

train_data = MaskedLMDataset(data_file=train_file,
                                 tokenizer=tokenizer,
                                 tag=train_tags,
                                 max_seq_length=max_seq_length,
                                 mode=Split.train,
                                 overwrite_cache=overwrite_cache)
train_data = [feature.convert_feature_to_dict() for feature in train_data]

4. 开始预训练

这里可以设置的参数有，输入端的batch_size、语料文件、tokenizer，训练过程方面则有训练轮数epochs、batch_size 以及保存频率。经过这些简单的即可成功训练好一个基于MLM的bert模型了（损失loss降到0.5左右就可以了），也可以通过MLM模型所带的接口来做MLM预测，当然我们这里需要的只是bert的权重。

设置训练参数

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
        output_dir=out_model_path,
        overwrite_output_dir=True,
        num_train_epochs=train_epoches,
        per_device_train_batch_size=batch_size,
        save_steps=2000,
        save_total_limit=2,
        prediction_loss_only=True,
    )

训练

trainer = Trainer(
        model=retrained_model,
        args=training_args,
        train_dataset=train_data,
        data_collator=data_collator,
    )

last_checkpoint = get_last_checkpoint(training_args.output_dir)
if last_checkpoint is not None:
    train_result = trainer.train(resume_from_checkpoint=last_checkpoint)
else:
    train_result = trainer.train()

保存模型

trainer.save_model()  # Saves the tokenizer too for easy upload

本篇介绍了增量训练预训练语言模型的方法，下一篇将介绍fine-tunning再训练好的语言模型的使用方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用自己的数据增量训练预训练语言模型的相关文章

二维数组的按行 numpy.isin [重复]

这个问题在这里已经有答案了我有两个数组 A np array 3 1 4 1 1 4 B np array 0 1 5 2 4 5 2 3 5 是否可以使用numpy isin二维数组按行排列我想检查一下是否A i j is in B
RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
将 CNN Pytorch 中的预训练权重传递到 Tensorflow 中的 CNN

我在 Pytorch 中针对 224x224 大小的图像和 4 个类别训练了这个网络 class CustomConvNet nn Module def init self num classes super CustomConvNet s
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
LSTM 错误：AttributeError：“tuple”对象没有属性“dim”

我有以下代码 import torch import torch nn as nn model nn Sequential nn LSTM 300 300 nn Linear 300 100 nn ReLU nn Linear 300 7
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
如何使用Python计算多类分割任务的dice系数？

我想知道如何计算多类分割的骰子系数这是计算二元分割任务的骰子系数的脚本如何循环每个类并计算每个类的骰子先感谢您 import numpy def dice coeff im1 im2 empty score 1 0 im1 numpy
Pytorch 损失为 nan

我正在尝试用 pytorch 编写我的第一个神经网络不幸的是当我想要得到损失时遇到了问题出现以下错误信息 RuntimeError Function LogSoftmaxBackward0 returned nan values in
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
在requirements.txt中包含.whl安装

如何将其包含在requirements txt 文件中对于Linux pip install http download pytorch org whl cu75 torch 0 1 12 post2 cp27 none linux x8

随机推荐

Java RMI 解析

1 什么是RMI Java RMI 即远程方法调用 Remote Method Invocation 一种用于实现远程过程调用 RPC Remote procedure call 的Java API 能直接传输序列化后的Java对象和分布
GD32替换STM32后写片上闪存(flash)失败的解决方法

目录型号问题解决办法下载gd的fmc操作库修改fmc文件使用擦除一页写一页型号使用的GD32C103CB等引脚替换STM32F103CB 问题使用hal库的flash操作接口片上flash可以正常擦除但是无法写入
Flash Player 10 中的RTMFP协议(实现P2P技术)

RTMFP是Adobe公司开发的一套新的通信协议该协议可以让使用Adobe Flash Player的终端用户之间进行直接通信用Adobe AIR框架开发的程序也可以用此协议来发布直播实时信息通过使用RTMFP 那些以来直播实时通
03多线程之间通讯

线程之间的通信一为什么要线程通信 1 多个线程并发执行时在默认情况下CPU是随机切换线程的当我们需要多个线程来共同完成一件任务并且我们希望他们有规律的执行那么多线程之间需要一些协调通信以此来帮我们达到多线程共同操作一份数据 2
linux内存文件系统

写文件时太耗内存的话可以使用dma拷贝或者使用内存文件系统的方式但首先要搞清楚一点正常的文件操作多久会真正保存到磁盘中去呢参考浅谈Linux系统写磁盘机制 http blog sina com cn s blog 96757
mybatis通用mapper的Example查询

mybatis的通用mapper 多用于单表查询接口内部为我们提供了单表查询的基础查询语法可以极大地帮助我们简化编程接下来让我们动手试一试我建的是springboot项目先导依赖
词云下载jieba成功后仍然报错

下载jieba终端 pip install i https pypi tuna tsinghua edu cn simple jieba 成功下载后仍然报错 TransposedFont object has no attribute ge
牛顿-拉夫逊法潮流计算matlab程序,牛顿—拉夫逊法潮流计算MATLAB程序.doc

牛顿拉夫逊法潮流计算程序By Yuluo 牛顿拉夫逊法进行潮流计算 n input 请输入节点数 n n1 input 请输入支路数 n1 isb input 请输入平衡母线节点号 isb pr input 请输入误差精度 pr B1
python之struct详解

python之struct详解醉小义的博客 CSDN博客 python struct 尊重原创
Unity中，在按钮的处理事件中，显示UI（Panel）的一些问题

问题来源自己遇到的 32条消息 Unity SetActive True 滞后严重游戏 CSDN问答简单概括就是点击按钮开始处理某个事件这个事件需要花费较长时间我的想法是加入一个加载中界面方便告知用户当前程序没有卡住在完成
kodi刮削器中文_手把手教你用Kodi，搭建最强私人娱乐/学习中心！（小白篇）...

喜欢本篇内容请给我们点个在看什么是KODI 简单的说 Kodi 就是一个功能强大且免费的媒体播放器支持全平台如Windows Linux iOS Android Xbox 以及树莓派等可播放电影电视剧音乐电视直播电台等等特
JS逆向解析---某知名小说网站内容加密

该小说网站的全部内容都是经过一个JS的加密要想爬取这个网站那么将其内容解析是不可避免的本文将讲解如何对其进行JS的逆向解析网站 shuqi 随便点开一本书打开浏览器自带的抓包工具点击第一个包但是在这里找不到我们想要的数据说明不
实现ListView中每行显示进度条，并且各自显示自己的进度

package com sagaware process list import java util ArrayList import java util HashMap import java util List import java
Web2.0网站一些通用业务采用NoSql的解决方案

首先理解NoSql的划分 Often NoSQL databases are categorized according to the way they store the data and fall under categories su
MySQL生产环境高可用架构实战

分布式技术MongoDB 1 MySQL高可用集群介绍 1 1 数据库主从架构与分库分表 1 2 MySQL主从同步原理 2 动手搭建MySQL主从集群 2 1 基础环境搭建 2 2 安装MySQL服务 2 2 1 初始化MySQL 2 2
仿射密码 affine

参考链接 https www cnblogs com 0yst3r 2046 p 12172757 html 仿射加密法在仿射加密法中字母表的字母被赋予一个数字例如 a 0 b 1 c 2 z 25 仿射加密法的密钥为0 25直接的数
Incorrect integer value: '' for column 'id' at row 1 错误解决办法

最近一个项目在本地php环境里一切正常 ftp上传到虚拟空间后当执行更新操作我的目的是为了设置id为空 set id 时提示 Incorrect integer value for column id at row 1 解决办法方法
广工人福利，openwrt+gduth3c通过inode认证，妈妈再也不用担心我要用电脑开wifi了

刚开校园网的时候天天都只能用电脑开wifi 用类似于360wifi 猎豹wifi之类的软件要经常开着电脑而且电脑网卡发射功率又小上个厕所wifi就断了睡觉前在床上还没wifi用超级不爽于是从家里面拿来了放在自己房间挂迅雷百度云的
x86下的C函数调用惯例

1 从汇编到C 1 1 汇编语言的局限性汇编语言是一种符号化了的机器语言 machine code 即用指令助记符符号地址标号等符号书写程序的语言汇编语句与机器语句一一对应它只是把每条指令及数据用便于记忆的符号书写而已汇编语言
用自己的数据增量训练预训练语言模型

预训练模型给各类NLP任务的性能带来了巨大的提升预训练模型通常是在通用领域的大规模文本上进行训练的而很多场景下使用预训练语言模型的下游任务是某些特定场景如金融法律等这是如果可以用这些垂直领域的语料继续训练原始的预训练模型对于下

用自己的数据增量训练预训练语言模型

用自己的数据增量训练预训练语言模型 的相关文章

随机推荐

热门标签

用自己的数据增量训练预训练语言模型的相关文章