使用新标签微调模型的分类器层

2024-02-22

我想使用仅包含 1 个模型之前未见过的附加标签的新数据集来微调已经微调的 BertForSequenceClassification 模型。

这样，我想向模型当前能够正确分类的标签集添加 1 个新标签。

此外，我不希望随机初始化分类器权重，我想保持它们完整，只根据数据集示例更新它们，同时将分类器层的大小增加 1。

用于进一步微调的数据集可能如下所示：

sentece,label
intent example 1,new_label
intent example 2,new_label
...
intent example 10,new_label

我的模型当前的分类器层如下所示：

Linear(in_features=768, out_features=135, bias=True)

我怎样才能实现它？
这是一个好的方法吗？

您可以使用新值扩展模型的权重和偏差。请看下面评论的例子：

#This is the section that loads your model
#I will just use an pretrained model for this example
import torch
from torch import nn
from transformers import AutoModelForSequenceClassification, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("jpcorb20/toxic-detector-distilroberta")
model = AutoModelForSequenceClassification.from_pretrained("jpcorb20/toxic-detector-distilroberta")
#we check the output of one sample to compare it later with the extended layer
#to verify that we kept the previous learnt "knowledge"
f = tokenizer.encode_plus("This is an example", return_tensors='pt')
print(model(**f).logits)

#Now we need to find out the name of the linear layer you want to extend
#The layers on top of distilroberta are wrapped inside a classifier section
#This name can differ for you because it can be chosen randomly
#use model.parameters instead find the classification layer
print(model.classifier)

#The output shows us that the classification layer is called `out_proj`
#We can now extend the weights by creating a new tensor that consists of the
#old weights and a randomly initialized tensor for the new label 
model.classifier.out_proj.weight = nn.Parameter(torch.cat((model.classifier.out_proj.weight, torch.randn(1,768)),0))

#We do the same for the bias:
model.classifier.out_proj.bias = nn.Parameter(torch.cat((model.classifier.out_proj.bias, torch.randn(1)),0))

#and be happy when we compare the output with our expectation 
print(model(**f).logits)

Output:

tensor([[-7.3604, -9.4899, -8.4170, -9.7688, -8.4067, -9.3895]],
       grad_fn=<AddmmBackward>)
RobertaClassificationHead(
  (dense): Linear(in_features=768, out_features=768, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (out_proj): Linear(in_features=768, out_features=6, bias=True)
)
tensor([[-7.3604, -9.4899, -8.4170, -9.7688, -8.4067, -9.3895,  2.2124]],
       grad_fn=<AddmmBackward>)

请注意，您应该微调您的模型。新权重是随机初始化的，因此会对性能产生负面影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

huggingfacetransformers

使用新标签微调模型的分类器层的相关文章

max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

我正在处理文本分类问题我想使用 BERT 模型作为基础然后使用密集层我想知道这 3 个参数是如何工作的例如如果我有 3 个句子 My name is slim shade and I am an aspiring AI Engin
无法使用 torch.Tensor 创建张量

我试图创建一个张量如下所示 import torch t torch tensor 2 3 我收到以下错误类型错误回溯最近调用最后在 gt 1 a torch tensor 2 3 类型错误 tensor 需要 1 个位置参数但
无法将 cuda:0 设备类型张量转换为 numpy。首先使用 Tensor.cpu() 将张量复制到主机内存

我试图展示 GAN 网络在某些指定时期的结果打印当前结果的功能之前是在 TF 中使用的我需要换成pytorch def show result G net z num epoch show False save False path r
Pytorch 数据加载器：错误的文件描述符和 EOF > 0

问题描述在使用由自定义数据集制作的 Pytorch 数据加载器进行神经网络训练期间我遇到了奇怪的行为数据加载器设置为workers 4 pin memory False 大多数时候训练都顺利完成有时训练会随机停止并出现以下错误
PyTorch - 参数不变

为了了解 pytorch 的工作原理我尝试对多元正态分布中的一些参数进行最大似然估计然而它似乎不适用于任何协方差相关的参数所以我的问题是为什么这段代码不起作用 import torch def make covariance ma
如何使用 torch.stack？

我该如何使用torch stack将两个张量与形状堆叠a shape 2 3 4 and b shape 2 3 没有就地操作堆叠需要相同数量的维度一种方法是松开并堆叠例如 a size 2 3 4 b size 2 3 b torc
二维数组的按行 numpy.isin [重复]

这个问题在这里已经有答案了我有两个数组 A np array 3 1 4 1 1 4 B np array 0 1 5 2 4 5 2 3 5 是否可以使用numpy isin二维数组按行排列我想检查一下是否A i j is in B
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
为什么我在这里遇到被零除的错误？

所以我正在关注这个文档中的教程 https pytorch org tutorials beginner data loading tutorial html在自定义数据集上我使用的是 MNIST 数据集而不是教程中的奇特数据集这是D
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b

随机推荐

Laravel 4.2：将数据库记录从一个数据库复制到另一个数据库

我需要在 Laravel 4 2 中将记录子集从一个数据库复制到另一个数据库我编写了一个 artisan 任务加载需要从默认数据库连接复制的模型现在需要将它们保存到第二个数据库连接在 config database php 中定
Android - 顶部的操作栏和页面底部的选项卡

我是一名 Android 开发新手我刚刚开始学习Android编程我想知道是否可以在页面顶部添加带有操作图标的操作栏在页面底部添加选项卡如果是这样请有人指导我如何实现它的代码提前致谢乌迪 AFAIK 您可以在底部添加操作按钮
屏幕旋转导致 Android 应用程序崩溃 [重复]

这个问题在这里已经有答案了我是安卓开发新手我开发了一个应用程序现在的问题是每当我旋转屏幕时应用程序都会再次启动活动然后应用程序崩溃我在谷歌上找到了一些解决方案可以使用android configChanges 方向它工作正常
如何在 Laravel 5.1 中使用 NOT FIND_IN_SET？

当我们使用 FIND IN SET 在 Laravel 中搜索逗号分隔值时如下所示 gt whereRaw FIND IN SET 2 sent mail ids 但现在我想得到那些不存在于逗号分隔值中的结果为此我们在 MySQL 中
Spring 3.2内容协商类强制转换异常

我们使用 Spring MVC 开发一个标准的 Java Web 应用程序最近尝试从 3 0 6 升级到 3 2 0 我们几乎所有的 servlet 响应都是 JSP 或 Json 视图但也有一些是 pdf 请求扩展名为 pdf 春季
OpenCV cv::Mat 显示空灰色图像？找不到原因

我只想在 C 项目中显示此 img1 jpg 图像并使用 opencv 库进行将来的处理但它只显示一个空的灰色窗口这是什么原因呢这段代码有错误吗请帮忙这是代码 Mat img1 char imagePath 256 img1 j
JSON.parse 嵌套JSON字符串属性解析

我从 API 模块获取以下字符串 value Id 100 OrganizationName Arizona Grower Automation 当我在客户端使用 JSON parse 时我得到 Uncaught SyntaxError
当请求具有不受支持的内容类型时，如何配置 ASP.NET Web API 服务返回的状态代码？

如果向我的 Web API 服务发出的请求具有Content Type标头包含该服务不支持的类型它返回500 Internal Server Error带有类似以下消息的状态代码 Message An error has occurred
为什么在添加 Microsoft.Bcl.Async 包后，app.config 文件中会添加“bindingRedirect”？

我想知道为什么 nuget 将以下代码添加到我的应用程序中app config文件安装后Microsoft Bcl Async
JBoss [类加载器管理器] 意外错误...无法访问超类？

尝试部署到 JBoss 6 0 0 Final 容器并一直在与以下堆栈跟踪作斗争也许有一个已知的解决方案 14 36 08 218 INFO AbstractJBossASServerBase Server Configuration J
QDockWidget导致qt崩溃

我有 ubuntu 11 10 中内置的 Qt 版本我正在尝试使用QDockWidget实际上无法停靠基本上我只想要一个浮动的窗口我不想只使视图成为顶级视图因为那样我就会将操作系统窗口栏放在那里这是我不想要的并且如果我隐藏它
在封闭网络中安装powershell模块

我有一个简单的问题但我找不到任何答案我正在使用 powershell 5 我在封闭环境中工作无法连接到互联网我想在我的机器上手动安装模块基本上是任何可下载的模块例如 posh ssh 能做到吗可以说在这里保存模块并安装吗由于
使用 Join、Group By 和having 进行更新

select 语句执行时没有错误或警告更新语句抛出错误关键字 group 附近的语法不正确 select sSVsys textUniqueWordCount count as actCount from docSVsys as sSV
使用 -jdkinternals 时 jdeps 没有输出

我正在尝试使用Java依赖分析工具 jdeps https wiki openjdk java net display JDK8 Java Dependency Analysis Tool 首先我尝试在没有参数的情况下执行此操作如下所示
Rails 3 的 Bundler“bundle install --deployment”到底是做什么的？

正式文档中描述的东西有点复杂它是否只是添加以下行 bundle config BUNDLE PATH vendor bundle 然后执行bundle install 就这样安装后会将所有宝石安装到vendor bundle 然后当应用
生成 EC Diffie-Hellman 公钥和私钥对

我需要生成 EC Diffie Hellman 密钥对我正在使用名为 curve 的 secp256r1 和 OpenSSL 到目前为止这就是我所拥有的 unsigned char ecdh size t secret len EVP
如何使用 .Net 读取 .cds 数据库 (TClientDataSet)

我有一个来自用 Delphi 编写的应用程序的旧数据库文件我的任务是提取数据并将其移至 SQL 数据库我知道它是 cds 格式它使用 Delphi 的 TClientDataSet Class 问题是我没有 Delphi 没有文档
React-Redux 中“@@INIT”操作的目的是什么？

只是注意到它始终是打开页面时调度的第一个操作它是否用于使用减速器的默认状态来初始化存储我想这会回答你的问题 When a store is created an INIT action is dispatched so that eve
Java 正则表达式：分割逗号分隔值但忽略引号中的逗号

我的文字如下 text 1 more more text 3 谁能告诉我必须使用哪些正则表达式分隔符才能获得以下内容 text 1 more more text 3 我正在阅读 Sun 教程here http docs oracle com
使用新标签微调模型的分类器层

我想使用仅包含 1 个模型之前未见过的附加标签的新数据集来微调已经微调的 BertForSequenceClassification 模型这样我想向模型当前能够正确分类的标签集添加 1 个新标签此外我不希望随机初始化分类器权重我想

使用新标签微调模型的分类器层

使用新标签微调模型的分类器层 的相关文章

随机推荐

热门标签

使用新标签微调模型的分类器层的相关文章