在PyTorch里面利用transformers的Trainer微调预训练大模型

2023-11-03

背景

transformers提供了非常便捷的api来进行大模型的微调，下面就讲一讲利用Trainer来微调大模型的步骤

第一步：加载预训练的大模型

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

第二步：设置训练超参

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="path/to/save/folder/",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
)

比如这个里面设置了epoch等于2

第三步：获取分词器tokenizer

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

第四步：加载数据集

from datasets import load_dataset

dataset = load_dataset("rotten_tomatoes")  # doctest: +IGNORE_RESULT

第五步：创建一个分词函数，指定数据集需要进行分词的字段：

def tokenize_dataset(dataset):
    return tokenizer(dataset["text"])

第六步：调用map()来将该分词函数应用于整个数据集

dataset = dataset.map(tokenize_dataset, batched=True)

第七步：使用DataCollatorWithPadding来批量填充数据，加速填充过程：

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

第八步：初始化Trainer

from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    tokenizer=tokenizer,
    data_collator=data_collator,
)  # doctest: +SKIP

第九步：开始训练

trainer.train()

总结：

利用Trainer提供的api，只需要简简单单的九步，十几行代码就能进行大模型的微调，你要不要动手试一试？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

Pytorch

自然语言处理

Transformer

train

在PyTorch里面利用transformers的Trainer微调预训练大模型的相关文章

在 Pytorch 中获取负片（倒置）图像

我想直接从数据加载器获取图像的负片并将其作为张量提供有我可以使用的库吗我试过火炬transforms并没有找到任何不要费力只需使用255 image它会给你一个负面的形象试试吧
在 Pytorch 中执行优化时如何对变量应用界限？

我正在尝试使用 Pytorch 进行非凸优化试图最大化我的目标因此在 SGD 中最小化我想限制因变量 x gt 0 并且 x 值的总和小于 1000 我认为我已经以斜坡惩罚的形式正确实施了惩罚但我正在努力解决 x 变量的边界问题在
推导 pytorch 网络的结构

对于我的用例我需要能够采用 pytorch 模块并解释模块中的层序列以便我可以以某种文件格式在层之间创建连接现在假设我有一个简单的模块如下所示 class mymodel nn Module def init self input
无法使用 torch.Tensor 创建张量

我试图创建一个张量如下所示 import torch t torch tensor 2 3 我收到以下错误类型错误回溯最近调用最后在 gt 1 a torch tensor 2 3 类型错误 tensor 需要 1 个位置参数但
PyTorch - 参数不变

为了了解 pytorch 的工作原理我尝试对多元正态分布中的一些参数进行最大似然估计然而它似乎不适用于任何协方差相关的参数所以我的问题是为什么这段代码不起作用 import torch def make covariance ma
pytorch通过易失性变量反向传播错误

我试图通过多次向后传递迭代来运行它并在每个步骤更新输入从而最小化相对于某个目标的一些输入第一遍运行成功但在第二遍时出现以下错误 RuntimeError element 0 of variables tuple is volatile
二维数组的按行 numpy.isin [重复]

这个问题在这里已经有答案了我有两个数组 A np array 3 1 4 1 1 4 B np array 0 1 5 2 4 5 2 3 5 是否可以使用numpy isin二维数组按行排列我想检查一下是否A i j is in B
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
LSTM 错误：AttributeError：“tuple”对象没有属性“dim”

我有以下代码 import torch import torch nn as nn model nn Sequential nn LSTM 300 300 nn Linear 300 100 nn ReLU nn Linear 300 7
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
PyTorch 中的连接张量

我有一个张量叫做data形状的 128 4 150 150 其中 128 是批量大小 4 是通道数最后 2 个维度是高度和宽度我有另一个张量叫做fake形状的 128 1 150 150 我想放弃最后一个list array从第 2 维
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行

随机推荐

blender 贴图导入与连接学习日志

1 下载贴图推荐贴图网站ambientCG Public Domain Resources for Physically Based Renderinghttps ambientcg com 选定心仪的贴图进行下载下载格式的选择 JPG
进程虚拟地址空间以及三种内存管理方式分页式/分段式/段页式

平时我们都知道地址是内存单元的编号指针则是存储变量地址的变量那么程序是否会有地址呢程序是不占用内存的存储在磁盘中只有当运行时才会将数据载入内存中进程的狭义概念是一个正在运行中的程序进程详解看上一篇博客因此进程是有地址空间的
软件测试入门知识，jmeter系统基础课程———带你由浅入深学性能（三)

给各位想学软件测试的同学们准备了一些自学资料打开方式戳我并且输入暗号 CSDN 整理不易希望对各位学习软件测试能带来帮助 2 XPath 提取 Xpath 基础语法 class A href 从根目录下定位所有 class A 的 hr
ORB_line_SLAM的编译及报错处理

马上就要毕业了搜索csdn没有关于ORB line SLAM的运行在此记录一下为学习SLAM的小伙伴们做个参考码字不易动手点个赞 1 编译过程同ORBSLAM2一致看此帖ORBSLAM2安装 2 编译过程报错处理 error1 W
代码随想录算法训练营第二十七天｜ 131.分割回文串

131 分割回文串本题较难大家先看视频来理解分割问题明天还会有一道分割问题先打打基础代码随想录视频讲解带你学透回溯算法分割回文串对应力扣题目 131 分割回文串回溯法精讲哔哩哔哩 bilibili List
Oracle 使用总结（四）

1 查看表是哪个模式下的 SELECT SELECT dba tables WHERE table name LIKE CUX TP TP MENU 中的是表名 2 with as 创建临时表 with tmp as select fro
2019/9/18Java复习课02

练习自加运算符 public class Test2 public static void main String args boolean x true boolean y false int z 40 if z 40 y true z
transformer综述汇总与变形分析（持续更新）

Note 本文收集transformer领域的较流行的综述文章将认为比较重要的内容整理在一起用于学习和提供思路 1 谷歌 Efficient Transformers A Survey 2020年9月新手不建议阅读该综述关注各种 X
LeetCode·每日一题·2455. 可被三整除的偶数的平均值·模拟

作者小迅链接 https leetcode cn problems average value of even numbers that are divisible by three solutions 2289199 mo ni zh
opencv+tkinter来在GUI内读取视频或摄像头

在TK中读取视频主要是使用tkinter中的tkinter after这个函数相当于一个定时器当然使用threading多线程也是能够达到同样的效果 video cv2 VideoCapture 0 def imshow global
log4j MDC用户操作日志追踪配置

原文地址 http blog csdn net userwyh article details 52862216 一 MDC介绍 MDC Mapped Diagnostic Context 映射调试上下文是 log4j 和 logback
Qt实现UDP通信简例

参考目标特点 Tips 源码发送端 maincpp 接收端 UdpReceiverh UdpReceivercpp maincpp 截图工程 qmake 效果参考 QT实现UDP通信原版例子 Singals Slots 官方文档
linux系统中MongoDB数据库安装及分片集群搭建

史上最全的mongodb分片集群搭建从介绍安装到集群搭建授权你再也找不到比他更加详细的资料了未经允许禁止转载一简介 MongoDB是一个便于开发和扩展设计的文档数据库属于NoSQL数据库的一种 MongoDB中的记录是一个由字段
vulnhub blogger: 1

渗透思路 nmap扫描端口 gobuster扫描网站目录 wpscan发现wordpress漏洞插件利用插件wpdiscuz的未授权的任意文件上传漏洞 CVE 2020 24186 getshell 弱密码提权环境信息靶机 192 1
FFmpeg音视频流媒体开发（C++小白入门与大牛实战）

疫情让音视频技术变得更重要但机会是留给那些有准备的人的 CSDN学院的视频课程 https edu csdn net combo detail 2046 站在音视频行业风口 CSDN学院的视频课程 https edu csdn net c
小白入门之gRPC helloword

一安装gRPC 1 安装相关工具 sudo apt get install build essential autoconf libtool pkg config OpenSSL sudo apt get install cmake su
Failed to register @ServerEndpoint class

在使用websocket的项目中当上线的时候打成war包部署到tomcat下时启动项目报错解决办法1 删除WebSocketConfig class类即可解决办法 2 删除 Component注解再打包就可以了 websocket上
MATLAB算法实战应用案例精讲-【语音识别】语音合成（附python代码实现）

目录前言什么是语音合成拼接法参数法 1 传统方法基于信号处理
免费源码和免费教程，有需要的收藏（第一期）

注本文有一些推广但保证全免费绝对没有收费的情况免费资源 CI框架PHP漫画小说二合一CMS网站系统源码 WordPress导航主题 Haoz1234导航主题v1 2版本上传即可使用的在线人工智能对话机器人源码搭建属于自己的情侣博
在PyTorch里面利用transformers的Trainer微调预训练大模型

背景 transformers提供了非常便捷的api来进行大模型的微调下面就讲一讲利用Trainer来微调大模型的步骤第一步加载预训练的大模型 from transformers import AutoModelForSequence

在PyTorch里面利用transformers的Trainer微调预训练大模型

背景

在PyTorch里面利用transformers的Trainer微调预训练大模型 的相关文章

随机推荐

热门标签

在PyTorch里面利用transformers的Trainer微调预训练大模型的相关文章