Huggingface 的“resume_from_checkpoint”有效吗？

2024-01-08

我目前将我的教练设置为：

training_args = TrainingArguments(
    output_dir=f"./results_{model_checkpoint}",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=2,
    weight_decay=0.01,
    push_to_hub=True,
    save_total_limit = 1,
    resume_from_checkpoint=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_qa["train"],
    eval_dataset=tokenized_qa["validation"],
    tokenizer=tokenizer,
    data_collator=DataCollatorForMultipleChoice(tokenizer=tokenizer),
    compute_metrics=compute_metrics
)

训练结束后，在我的output_dir我有培训师保存的几个文件：

['README.md',
 'tokenizer.json',
 'training_args.bin',
 '.git',
 '.gitignore',
 'vocab.txt',
 'config.json',
 'checkpoint-5000',
 'pytorch_model.bin',
 'tokenizer_config.json',
 'special_tokens_map.json',
 '.gitattributes']

来自文档 https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Trainer.train.resume_from_checkpoint看起来resume_from_checkpoint将从最后一个检查点继续训练模型：

resume_from_checkpoint (str or bool, optional) — If a str, local path to a saved checkpoint as saved by a previous instance of Trainer. If a bool and equals True, load the last checkpoint in args.output_dir as saved by a previous instance of Trainer. If present, training will resume from the model/optimizer/scheduler states loaded here.

但当我打电话时trainer.train()它似乎删除了最后一个检查点并开始一个新的检查点：

Saving model checkpoint to ./results_distilbert-base-uncased/checkpoint-500
...
Deleting older checkpoint [results_distilbert-base-uncased/checkpoint-5000] due to args.save_total_limit

它是否真的从最后一个检查点（即 5000）继续训练，并从 0 开始新检查点的计数（保存 500 步后的第一个检查点 - “checkpoint-500”），或者它只是不继续训练？我还没有找到测试它的方法，文档对此也不清楚。

是的，它有效！当您调用 trainer.train() 时，您隐式地告诉它覆盖所有检查点并从头开始。您应该调用 trainer.train(resume_from_checkpoint=True) 或将resume_from_checkpoint 设置为指向检查点路径的字符串。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Huggingface 的“resume_from_checkpoint”有效吗？的相关文章

如何在 PyTorch 数据加载器中将 RGB 图像转换为灰度图像？

我已经从 MNIST 数据集中下载了一些示例图像 jpg格式现在我正在加载这些图像来测试我的预训练模型 transforms to apply to the data trans transforms Compose transforms
“您必须指定 input_ids 或 input_embeds”，但我确实指定了 input_ids

我训练了一个基于 BERT 的编码器解码器模型 EncoderDecoderModel named ed model使用 HuggingFace 的变压器模块我用的是BertTokenizer命名为input tokenizer 我用以下
在 Pytorch 中执行优化时如何对变量应用界限？

我正在尝试使用 Pytorch 进行非凸优化试图最大化我的目标因此在 SGD 中最小化我想限制因变量 x gt 0 并且 x 值的总和小于 1000 我认为我已经以斜坡惩罚的形式正确实施了惩罚但我正在努力解决 x 变量的边界问题在
PyTorch 中的截断反向传播（代码检查）

我正在尝试在 PyTorch 中实现随时间截断的反向传播对于以下简单情况K1 K2 我下面有一个实现可以产生合理的输出但我只是想确保它是正确的当我在网上查找 TBTT 的 PyTorch 示例时它们在分离隐藏状态将梯度归零以及这些
PyTorch：tensor.cuda（）和tensor.to（torch.device（“cuda：0”））之间有什么区别？

在 PyTorch 中以下两种将张量或模型发送到 GPU 的方法有什么区别 Setup X np array 1 3 2 3 2 3 5 6 1 2 3 4 X model X torch DoubleTensor X Method
在微调 GPT-2 模型时如何处理堆栈期望每个张量具有相同大小的误差？

我尝试用我的个人信息微调模型所以我可以创建一个聊天框人们可以通过聊天 gpt 了解我但是我得到了错误 RuntimeError 堆栈期望每个张量大小相等但在条目 0 处得到 47 在条目 1 处得到 36 因为我有不同的输入长度
BERT 问答中长文本的滑动窗口

我读过解释滑动窗口如何工作的帖子但我找不到有关其实际实现方式的任何信息据我了解如果输入太长可以使用滑动窗口来处理文本如果我错了请纠正我说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万给定一些s
无法使用 torch.Tensor 创建张量

我试图创建一个张量如下所示 import torch t torch tensor 2 3 我收到以下错误类型错误回溯最近调用最后在 gt 1 a torch tensor 2 3 类型错误 tensor 需要 1 个位置参数但
无法将 cuda:0 设备类型张量转换为 numpy。首先使用 Tensor.cpu() 将张量复制到主机内存

我试图展示 GAN 网络在某些指定时期的结果打印当前结果的功能之前是在 TF 中使用的我需要换成pytorch def show result G net z num epoch show False save False path r
Cuda和pytorch内存使用情况

我在用Cuda and Pytorch 1 4 0 当我尝试增加batch size 我遇到以下错误 CUDA out of memory Tried to allocate 20 00 MiB GPU 0 4 00 GiB total c
使用 pytorch 获取可用 GPU 内存总量

我正在使用 google colab 免费 Gpu 进行实验并想知道有多少 GPU 内存可供使用 torch cuda memory allocated 返回当前占用的 GPU 内存但我们如何使用 PyTorch 确定总可用内存 PyT
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
为什么我在这里遇到被零除的错误？

所以我正在关注这个文档中的教程 https pytorch org tutorials beginner data loading tutorial html在自定义数据集上我使用的是 MNIST 数据集而不是教程中的奇特数据集这是D
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc

随机推荐

C++ math.h abs() 与我的 abs() 相比有什么不同

我目前正在用 C 编写一些像向量数学类的 glsl 并且我刚刚实现了一个abs 像这样的函数 template
如何使用 Python 模块 Dragonfly 识别语音？

我一直在试图弄清楚如何使用 Dragonfly 模块我查看了文档但似乎不知道如何使用它我只想能够识别一些短语并根据这些短语采取行动是的这个例子将终止我已经看过这个特定的例子很多了它缺少一些关键功能首先是 pythoncom
Apache Spark join 操作的扩展能力较差

我在 Apache Spark 上运行 join 操作发现没有弱可扩展性如果有人能解释这一点我将不胜感激我创建两个数据帧 a b 和 a c 并通过第一列连接数据帧我为一对一连接生成数据帧值另外我使用相同的分区器来避免随机
文本字段在 iOS 模拟器上不显示键盘

我试图使用基本文本字段在这里构建一个简单的登录屏幕但我无法让键盘出现在模拟器中通过物理键盘输入效果很好但在 iOS 模拟器中没有可见的键盘我必须明确打开它还是什么感觉我在这里错过了一些非常基本的东西 buildLoginScree
封闭件损坏 - 请帮我修复它

in a 相关问题 https stackoverflow com questions 4584397 javascript countdown clock 4584501我已经发布了这段代码它几乎可以工作但计数器却不能我们可以修复它
如何在 OpenVDB 中对网格进行下采样

OpenVDB中有什么好的方法可以对体素网格进行下采样吗例如我有体素大小为 1 0 的网格 8x8x8 我想要获得体素大小为 2 0 的网格 4x4x4 each voxel of new grid is some interpolat
CoreAudio - 如何确定播放aac文件的结尾

我正在 iPhone 上使用 CoreAudio 但我无法找到如何知道歌曲何时播放完毕我放了一个属性监听器kAudioQueueProperty IsRunning 它在开始播放时有效但在文件结尾时无效当我停止 AudioQueue
如何显示api函数的输出？

抱歉问基本问题我正在尝试在 QPlainTextWidget 中显示 json 我有 api 函数它有控制台输出并包含所有需要的数据看起来像这样 int iperf run server struct iperf test test
npm 错误！ 403 403 禁止 npm 发布

我尝试在 npm 上发布公共包但出现此错误 npm ERR code E403 npm ERR 403 403 Forbidden PUT https registry npmjs org clem b 2fweather Forbidd
OSX (XNU) 系统调用的实际记录在哪里？

我正在浏览系统调用 master https opensource apple com source xnu xnu 4570 71 2 bsd kern syscalls master文件在这里但根本没有记录系统调用的文档是否存在如
谁能解释为什么这种排序不起作用？

例如如果我有一个这样的列表 List1 7 6 9 List1 List1 sort list sort 对列表进行就地排序并返回None 所以你实际上将该返回值分配给List1 i e None gt gt gt List1 7 6 9
Android Viewpager Tinder 类似 UI，具有 3D 卡堆栈外观

我正在尝试使用 ViewPager 在 android 中创建一个类似火种的用户界面我看过这个图书馆 https github com kikoso Swipeable Cards 但我希望在向右滑动后能够看到上一张卡片因此首选 Vie
如何在 IE 的 google chrome 框架插件中启用文件协议

我想在带有 chrome 框架的 IE 中打开一个 Html5 页面但只支持 http 协议我无法从磁盘打开 html 文件在注册表路径中HKCU 软件 Google ChromeFrame添加这个键允许不安全URL 1 DWORD
使用 jQuery 和 AJAX 加载部分页面

我在页面 A 和 div 上有一个动态链接列表我希望在其中加载基于 PHP 变量的另一个动态生成的页面 B 的内容 a href loader php id 1 Link 1 a a href loader php id 2 Link 2
如何将 Amazon Redshift 连接到 python

这是我的 python 代码我想将我的 Amazon Redshift 数据库连接到 Python 但它在主机中显示错误谁能告诉我正确的语法我是否正确传递了所有参数 con psycopg2 connect dbname pg tab
如何获取 CSV 文本文件中特定字段的最大值？

我的每一行文本文件示例 CSV 逗号分隔如下 2016 01 10 23 56 07 10 71 47 可以看出字段 3 4 和 5 是numeric价值观对于每一行我只想得到maximum字段值3 and 4 就像是 awk F
如何从命名空间实现函数？

本质上这是我的源代码 namespace name int func void int main void name int func void body return 0 现在我想在不同的地方编写该函数声明为 int 命名空间您不
从 multiprocessing.Process 继承的 Python 类的设置值问题

为什么这段代码 import multiprocessing import time class Bot multiprocessing Process def init self self val 0 multiprocessing Pr
寻找 Expression Blend 设计师 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于寻找 Expression Blend WPF 设计师来执行合同工作有哪些建议我认为本地自由设计师的价格可能是最合理的但我什至
Huggingface 的“resume_from_checkpoint”有效吗？

我目前将我的教练设置为 training args TrainingArguments output dir f results model checkpoint evaluation strategy epoch learning rat

Huggingface 的“resume_from_checkpoint”有效吗？

Huggingface 的“resume_from_checkpoint”有效吗？ 的相关文章

随机推荐

热门标签

Huggingface 的“resume_from_checkpoint”有效吗？的相关文章