如何使用 Huggingface Trainer 微调 gpt-j

2024-01-08

我正在尝试使用 Huggingface 训练器微调 gpt-j 但惨败。我遵循了引用 bert 的示例，但是当然，gpt-j 模型并不完全类似于 bert 模型。

该错误表明模型没有产生损失，这很好，但我不知道如何让它产生损失或如何改变训练者的期望。

我正在使用变形金刚 4.22.2。在尝试使用 GPU 在 Paperspace 上执行任何操作之前，我希望先在 CPU 上实现此功能。我确实使用 GPU 进行了初步尝试，但收到了相同的错误，使用 cuda 的代码略有不同。

我怀疑我的做法是完全错误的。我发现了一个使用 8 位量化微调 gpt-j 的非常古老的示例，但即使该存储库也表示它已被弃用。

我不确定我的错误是否在于使用了 bert 示例中找到的compute_metrics()，或者是否是其他原因。任何意见，将不胜感激。或者，也许这是我提供配置的标签的问题，但我尝试了不同的排列。

我了解损失函数是什么，但我不知道在这种情况下应该如何配置它。

My Code:

from transformers import Trainer, TrainingArguments, AutoModelForCausalLM
from transformers import GPTJForCausalLM, AutoTokenizer
from datasets import load_dataset
import time
import torch
import os
import numpy as np
import evaluate
import sklearn

start = time.time()

GPTJ_FINE_TUNED_FILE = "./fine_tuned_models/gpt-j-6B"

print("Loading model")
model = GPTJForCausalLM.from_pretrained("EleutherAI/gpt-j-6B", low_cpu_mem_usage=True)
model.config.pad_token_id = model.config.eos_token_id

print("Loading tokenizer")
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
tokenizer.pad_token = tokenizer.eos_token

print("Loading dataset")
current_dataset = load_dataset("wikitext", 'wikitext-103-v1')
current_dataset['train'] = current_dataset['train'].select(range(1200))


def tokenize_function(examples):
    current_tokenizer_result = tokenizer(examples["text"], padding="max_length", truncation=True)
    return current_tokenizer_result


print("Splitting and tokenizing dataset")
tokenized_datasets = current_dataset.map(tokenize_function, batched=True)
small_train_dataset = tokenized_datasets["train"].select(range(100))

print("Preparing training arguments")

training_args = TrainingArguments(output_dir=GPTJ_FINE_TUNED_FILE,
                                  report_to='all',
                                  logging_dir='./logs',
                                  per_device_train_batch_size=1,
                                  label_names=['input_ids', 'attention_mask'],  # 'logits', 'past_key_values'
                                  num_train_epochs=1,
                                  no_cuda=True
                                  )

metric = evaluate.load("accuracy")


def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)


trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset
)

print("Starting training")
trainer.train()
print(f"Finished fine-tuning in {time.time() - start}")

这会导致错误和堆栈跟踪：

  File "xxx\ft_v3.py", line 66, in <module>
  File "xxx\venv\lib\site-packages\transformers\trainer.py", line 1521, in train
    return inner_training_loop(
  File "xxx\venv\lib\site-packages\transformers\trainer.py", line 1763, in _inner_training_loop
    tr_loss_step = self.training_step(model, inputs)
  File "xxx\venv\lib\site-packages\transformers\trainer.py", line 2499, in training_step
    loss = self.compute_loss(model, inputs)
  File "xxx\venv\lib\site-packages\transformers\trainer.py", line 2544, in compute_loss
    raise ValueError(
ValueError: The model did not return a loss from the inputs, only the following keys: logits,past_key_values. For reference, the inputs it received are input_ids,attention_mask.

我找到了似乎有效的方法，尽管现在我的内存不足并正在研究处理它的方法。

data_collator 参数似乎解决了我遇到的确切问题。

data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
    data_collator=data_collator,
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

Pytorch

huggingfacetransformers

Huggingface

如何使用 Huggingface Trainer 微调 gpt-j 的相关文章

用顶点之间的渐变填充 matplotlib 多边形

我正在使用 matplotlib 的 Poly3DCollection 绘制多边形三角形的集合三角形位于具有与其关联的颜色的顶点之间我目前正在用通过平均三个顶点的颜色确定的纯色填充每个三角形绘制三角形以形成 3D 表面网格 I w
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample
ImportError：尝试在没有已知父包的情况下进行相对导入[重复]

这个问题在这里已经有答案了我正在学习使用 python 编程并且在从包中的模块导入时遇到问题我正在使用 Visual Studio 代码和 Python 3 8 2 64 位我的项目目录 https i stack imgur co
如何从字符串读取 NumPy 二维数组？

如何从字符串中读取 Numpy 数组取一个像这样的字符串 0 5544 0 4456 0 8811 0 1189 并将其转换为数组 a from string 0 5544 0 4456 0 8811 0 1189 where a成为对象
pip 中的新彩色终端进度条

我发现新版本的pip Python的包安装程序有一个彩色进度条来显示下载进度我怎样才能做到这一点 Like this pip 本身正在使用rich https pypi org project rich 包裹特别是他们的进度条文档
TypeError：PyQt4.QtCore.QVariantAnimation 表示 C++ 抽象类，无法实例化

我有这个 PyQt5 片段我正在尝试将其转换为 PyQt4 PyQt5 版本运行得很好但是当我尝试转换为 PyQt4 时出现此错误我删除了QtWidgets但我仍然收到此错误我也尝试过实例化self animation QtCor
将ast节点转换为python对象

给定一个ast可以自行计算的节点但字面意义不够ast literal eval例如列表理解 src i 2 for i in range 10 a ast parse src Now a body 0 is an ast Expr and
在 ReportLab 中向画布元素添加超链接的最简单方法是什么？

我正在使用 ReportLab 使用 Python 制作 pdf 我想向画布添加一个形状并让该形状充当超链接使以下示例中的矩形链接到 google com 的最简单方法是什么 from reportlab pdfgen import c
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
在 virtualenv 中安装 Python-Dbus

我正在虚拟环境中运行一个应用程序需要访问 DBus 主要是与网络管理器交互我尝试使用 easyinstall 和 pip 安装 Dbus Python 但都失败了当我尝试这样做时 myvirtualenv borrajax borra
重命名 TensorFlow 中保存模型的变量范围

是否可以在张量流中重命名给定模型的变量范围例如我根据教程创建了 MNIST 数字的逻辑回归模型 with tf variable scope my first scope NUM IMAGE PIXELS 784 NUM CLASS B
pip 安装与本地包具有相同命名空间的包

我使用的是 Python 3 6 5 通过 miniconda 安装我的问题是由于我正在安装一个与本地包具有相同命名空间的包 pip 安装此包后我无法再从本地包导入我收到一个ModuleNotFoundError错误如果可能的话命
Numpy - 两个矩阵的行之间的协方差

我需要计算两个不同矩阵的每一行之间的协方差即第一个矩阵的第一行与第二个矩阵的第一行之间的协方差依此类推直到两个矩阵的最后一行我可以在没有 NumPy 的情况下使用下面附加的代码来完成此操作我的问题是是否可以避免使用 for 循环
将数据导入 Django 的好方法

我想定期将数据导入 Django 项目我需要告诉我的数据提供者我想要以什么格式接收数据我应该以 Json XML CSV 格式请求吗在 Django 中通常如何处理这个问题 Django 有一个用于导入数据的完整框架称为 Fixtu
如何在关心 NaN 值的同时获取数据框中值的百分比变化？

我有以下数据框 Date A 2015 01 01 10 2015 01 02 14 2015 01 05 NaN 2015 01 06 NaN 2015 01 07 5 2015 01 10 1 2015 01 11 NaN 2015 0
如何在 Python 中将列表变量传递给 subprocess.call 命令

我有一个清单 apps apps append wq35a5huqlja45jsyukrpmwuiayovrmh apps append q7mimvgduueernwvw4y22t5huemykntw apps append pmudbp
Python 中字典的 enumerate()

我知道我们用enumerate用于迭代列表但我在字典上尝试过但没有给出错误 CODE enumm 0 1 1 2 2 3 4 4 5 5 6 6 7 7 for i key in enumerate enumm print i key
连接字符串：两个字符串列表的“乘法”[重复]

这个问题在这里已经有答案了对于字符串列表将乘法运算定义为连接 l1 aa bb cc l2 11 22 l3 l1 op l2 预期输出 l3 aa11 aa22 bb11 bb22 cc11 cc22 我们可以简单地使用 for l
App Engine、PIL 和叠加文本

我正在尝试在 GAE 上的图像上覆盖一些文本现在他们公开了 PIL 库这应该不是问题这就是我所拥有的它有效但我不禁认为我应该直接写入背景图像而不是创建单独的覆盖图像然后合并我可以用吗Image frombuffer http
为什么这个多处理代码会失败？ [复制]

这个问题在这里已经有答案了 def sample pass Process target sample start Process target sample start 上面的代码失败并出现错误已尝试在当前进程之前启动新进程进程已完成

随机推荐

Google Cloud SQL 上的 1290 错误

我今天在使用 MySQL Workbench 时才开始收到此错误并注意到它早在周六就出现在我的应用程序中还有人收到吗知道可能是什么原因造成的吗 ERROR错误代码 1290 MySQL 服务器正在使用 read only 选项运行因
Microsoft Visual Studio 2017 依赖于每个 Xamarin 操作

我最近安装了 Visual Studio 2017 当我创建 Xamarin android 项目或单击 xamarin 设置时它会挂起当单击任意位置时它会显示 Microsoft Visual Studio 正忙 Xamarin 版
如何将 setOnFocusChangeListener 与 RecyclerView 结合使用？

我在 RecyclerView 的适配器类中的 onBindViewHolder 上有以下内容 holder answerEditText setOnFocusChangeListener new View OnFocusChangeLis
在 VS2010 中将设计器与 WPF 的 XAML 窗口分离

我在 Visual Studio 2010 中没有看到用于将设计器窗口与 WPF 的 XAML 窗口分开的按钮我有三个屏幕我想要一个全屏 XAML 窗口和一个全屏设计器窗口像往常一样打开 XAML 文件在解决方案资源管理器中右键单
我如何打开不同的linux终端以在python中输出不同类型的调试信息？

我需要将不同的信息输出到不同的终端实例而不是在同一输出流中打印它们例如 std err 或 std out 例如我有 5 种信息说 A E 需要显示在同一桌面上的不同终端窗口上看起来像终端1 终端2 端子3 端子4 端子5 我知道
用前导 0 填充计数器到 9，然后用 php 删除前导零

尝试用前导 0 填充最多 9 个然后删除 01 02 03 04 05 06 07 08 09 10 11 12 14 到目前为止我有这个您还可以使用str pad http us php net manual en function
Firefox 和 Opera 中的 Webfont 平滑和抗锯齿

我的网站上使用了定制的网络字体为了设置渲染输出的样式我使用了以下代码 webkit text stroke width 05px webkit text stroke color white webkit font smoothing
如何只加载某些层的权重？

我想获取某些层的权重不是全部因为架构不同来自model trained并初始化model untrained用它我怎样才能用 Keras 做到这一点如果你有一个函数create model 它返回一个 Keras 模型 examp
如何将QMainWindow设置为模态窗口？

我正在使用 QMainWindow 进行项目的 GUI 开发我遇到的一个问题是当一个窗口正在运行时阻止所有其他可见窗口获取输入我不能使用QDialog 因为需要QMainWindow的丰富功能如何将特定窗口声明为模态窗口我尝试过QW
BeanPostProcessor 混乱

我试图理解 Spring 中的 BeanPostProcessor 但不明白它的作用 BeanPostProcessor 定义了在这些点调用的两个方法是否正确在初始化之前 init 方法或 afterPropertiesSet 但实例已创
Camel Splitter并行处理数组列表-并发访问问题

使用 Camel 拆分 ArrayList 并最多 10 个线程并行处理每个项目以下是配置线程池配置文件设置为最大线程数 10
计算闰年的Java代码

我正在关注 Java 的艺术与科学一书它展示了如何计算闰年本书使用了ACM Java Task Force 的库这是本书使用的代码 import acm program public class LeapYear extends C
C# Thread.Sleep(0) 是什么意思？

意思是没有延迟吗一本书上说如下 Thread Sleep 0 放弃线程的当前时间片立即主动将CPU交给其他线程这是否意味着即使应该执行一条语句给 sleep 0 也会暂时跳过执行 0表示没有minimum控制权将返回给线程之前的时
使用Python列表作为队列的效率

一位同事最近编写了一个程序其中使用 Python 列表作为队列换句话说他用了 append x 当需要插入物品时 pop 0 当需要移除物品时我知道Python有collections deque http docs python
如何让 TProgressBar 停止滞后？

我有一个运行大量操作的应用程序并且我正在尝试使用 TProgressBar 来跟踪正在发生的情况我设置了多个步骤并调用 StepIt 来增加进度条问题是它并没有很好地跟上它似乎不喜欢直接跳到正确的位置而是逐渐滑动到正确的位置
如何获取调用别名方法的名称？

我正在调用方法link to admin然后我给另一个方法起了别名simple link to def link to admin name url options My stuff here link to name url option
使 Http DefaultClient 的execute()非常慢

我的 HttpDefaultClient 的 execute 方法的执行方法存在大量性能问题我目前正在使用它来将数据发布到服务器接收 JSON 并反序列化数据我的手机打电话需要 8 到 30 秒如果我切换到 Wifi 速度相当快在
Wix：安装过程中忽略对话框中的属性更改

我在 Wix 文件中有一个属性该属性公开用于在对话框中进行编辑在下面的示例中它是 MyProperty 该属性用于创建注册表项但是如果在对话框中更改属性则不会使用更改后的值而是默认值 SomeProperty 但是如果我在另
Python 多处理问题？

我有一个包含 500 个输入文件的文件夹所有文件的总大小约为 500 MB 我想写一个python执行以下操作的脚本 1 将所有输入文件加载到内存中 2 初始化一个空的python稍后将使用的列表参见项目符号 4 3 启动 15 个不同
如何使用 Huggingface Trainer 微调 gpt-j

我正在尝试使用 Huggingface 训练器微调 gpt j 但惨败我遵循了引用 bert 的示例但是当然 gpt j 模型并不完全类似于 bert 模型该错误表明模型没有产生损失这很好但我不知道如何让它产生损失或如何改变训练者

如何使用 Huggingface Trainer 微调 gpt-j

如何使用 Huggingface Trainer 微调 gpt-j 的相关文章

随机推荐

热门标签