Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

2024-05-14

我对 PyTorch 和 Huggingface-transformers 比较陌生，并对此尝试了 DistillBertForSequenceClassificationKaggle-数据集 https://www.kaggle.com/c/nlp-getting-started.

from transformers import DistilBertForSequenceClassification
import torch.optim as optim
import torch.nn as nn
from transformers import get_linear_schedule_with_warmup

n_epochs = 5 # or whatever
batch_size = 32 # or whatever

bert_distil = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
#bert_distil.classifier = nn.Sequential(nn.Linear(in_features=768, out_features=1), nn.Sigmoid())
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(bert_distil.parameters(), lr=0.1)

X_train = []
Y_train = []

for row in train_df.iterrows():
    seq = tokenizer.encode(preprocess_text(row[1]['text']),  add_special_tokens=True, pad_to_max_length=True)
    X_train.append(torch.tensor(seq).unsqueeze(0))
    Y_train.append(torch.tensor([row[1]['target']]).unsqueeze(0))
X_train = torch.cat(X_train)
Y_train = torch.cat(Y_train)

running_loss = 0.0
bert_distil.cuda()
bert_distil.train(True)
for epoch in range(n_epochs):
    permutation = torch.randperm(len(X_train))
    j = 0
    for i in range(0,len(X_train), batch_size):
        optimizer.zero_grad()
        indices = permutation[i:i+batch_size]
        batch_x, batch_y = X_train[indices], Y_train[indices]
        batch_x.cuda()
        batch_y.cuda()
        outputs = bert_distil.forward(batch_x.cuda())
        loss = criterion(outputs[0],batch_y.squeeze().cuda())
        loss.requires_grad = True
   
        loss.backward()
        optimizer.step()
   
        running_loss += loss.item()  
        j+=1
        if j == 20:   
            #print(outputs[0])
            print('[%d, %5d] running loss: %.3f loss: %.3f ' %
              (epoch + 1, i*1, running_loss / 20, loss.item()))
            running_loss = 0.0
            j = 0

[1, 608] 运行损失：0.689 损失：0.687 [1、1248]运行损失：0.693 损失：0.694 [1, 1888] 运行损失：0.693 损失：0.683 [1, 2528] 运行损失：0.689 损失：0.701 [1、3168]运行损失：0.690 损失：0.684 [1、3808]运行损失：0.689 损失：0.688 [1, 4448] 运行损失：0.689 损失：0.692 等等...

无论我尝试什么，损失从未减少，甚至增加，预测也没有变得更好。在我看来，我忘记了一些事情，所以权重实际上没有更新。有人有主意吗？氧

我尝试过什么

Different loss functions
- BCE
- 交叉熵
- 甚至MSE损失
One-Hot 编码与单个神经元输出
不同的学习率和优化器
我什至将所有目标更改为只有一个标签，但即便如此，网络也没有收敛。

关注运行损失和小批量损失很容易产生误导。您应该查看纪元损失，因为每个损失的输入都是相同的。

此外，您的代码中存在一些问题，修复所有这些问题并且行为符合预期：每个时期后损失缓慢减少，并且它也可能过度适合小批量。请看代码，改动包括：使用model(x)代替model.forward(x), cuda()只调用一次，较小的学习率等。

调整和微调 ML 模型是一项艰巨的工作。

n_epochs = 5
batch_size = 1

bert_distil = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(bert_distil.parameters(), lr=1e-3)

X_train = []
Y_train = []
for row in train_df.iterrows():
    seq = tokenizer.encode(row[1]['text'],  add_special_tokens=True, pad_to_max_length=True)[:100]
    X_train.append(torch.tensor(seq).unsqueeze(0))
    Y_train.append(torch.tensor([row[1]['target']]))
X_train = torch.cat(X_train)
Y_train = torch.cat(Y_train)

running_loss = 0.0
bert_distil.cuda()
bert_distil.train(True)
for epoch in range(n_epochs):
    permutation = torch.randperm(len(X_train))
    for i in range(0,len(X_train), batch_size):
        optimizer.zero_grad()
        indices = permutation[i:i+batch_size]
        batch_x, batch_y = X_train[indices].cuda(), Y_train[indices].cuda()
        outputs = bert_distil(batch_x)
        loss = criterion(outputs[0], batch_y)
        loss.backward()
        optimizer.step()
   
        running_loss += loss.item()  

    print('[%d] epoch loss: %.3f' %
      (epoch + 1, running_loss / len(X_train) * batch_size))
    running_loss = 0.0

Output:

[1] epoch loss: 0.695
[2] epoch loss: 0.690
[3] epoch loss: 0.687
[4] epoch loss: 0.685
[5] epoch loss: 0.684

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

Pytorch

textclassification

lossfunction

huggingfacetransformers

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？的相关文章

如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
Huggingface 长文档摘要

我预计摘要任务通常会假设长文档但是以下文档here https huggingface co course chapter1 3 fw pt 我所做的任何简单摘要调用都表示我的文档太长 gt gt gt summarizer pipel
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
从 Penn Treebank 格式的文本中提取子句

说我有一句话 After he had eaten the cheese Bill went to the grocery 在我的程序中我得到以下输出 PARSE TREE ROOT S SBAR IN After S NP PRP he
在requirements.txt中包含.whl安装

如何将其包含在requirements txt 文件中对于Linux pip install http download pytorch org whl cu75 torch 0 1 12 post2 cp27 none linux x8
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
Java文本输出中的UTF-8编码问题

我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案高棉语单词之间没有空格这使得拼写检查和语法检查变得困难以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码现在在线 http www white
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
BertForSequenceClassification 是否在 CLS 向量上进行分类？

我正在使用抱脸变压器 https huggingface co transformers index html使用 PyTorch 打包和 BERT 我正在尝试进行 4 向情感分类并正在使用BertFor序列分类 https hugging
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖

随机推荐

PHP函数：查找参数的变量名和函数调用行号

我想做这样的事情来简化日志操作知道我应该投入什么吗 1 and 2 function log var var line 1 var name 2 line filepath log date Y m d txt message line
如何求小于给定数的最大2次方

我需要找到小于给定数字的最大 2 次幂我陷入困境找不到任何解决方案 Code public class MathPow public int largestPowerOf2 int n int res 2 while res lt n
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance) 不添加额外的编码提供程序

我正在开发一个netcoreapp2 0控制台应用程序我需要从 NET 访问整个编码包我已经添加了System Text Encoding CodePages Version 4 4 0Nuget 包来自这一页 https www nu
展平嵌套结构会导致切片的切片

所以我有一个像这样的结构 type Bus struct Number string Name string DirectStations Station Station is another struct ReverseStations
如何使用 Python 与窗口的 GUI 交互？

假设您想打开myapp exe 打开第三个菜单然后选择第二个菜单项即像用户使用键盘或鼠标一样然后在对话框窗口中选择第二个按钮 pyahk https pyahk readthedocs io en latest and pyautog
函数执行后重新调用react hook

我是反应钩子的新手我有一个钩子函数它从 API 接收一系列数据并显示在列表中 function useJobs const jobs setJobs React useState const locations setLocations
Android 屏幕共享编程（Root）

在 Android gt 5 中是否可以从 root adb shell 进行屏幕共享而无需通过 miracast 或 chromecast 进行用户交互我正在寻找启用禁用此功能的命令https support google com
Java获取编译时安全方法名

在使用反射类和注释时我发现没有明确的方法以编译时安全的方式引用方法名称我真正想要的是能够在注释中引用方法可能看起来像 CallAfter method Foo class foo void Bar 目前您只能使用字符串来执行此操作
“正确的方式”导入 Hotmail 联系人？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Django 1.8 KeyError：关系上的“经理”

我的模型设置如下 class Post models Model name models CharField max length 10 class Comment models Model post models ForeignKey P
存储 PHP 数组的首选方法（json_encode 与序列化）

我需要将多维关联数据数组存储在平面文件中以进行缓存我偶尔可能会遇到需要将其转换为 JSON 以便在我的 Web 应用程序中使用的情况但绝大多数时候我会直接在 PHP 中使用该数组在此文本文件中将数组存储为 JSON 或 PHP 序列化
依赖注入的惰性解析

我有 net 课程我使用 Unity 作为 IOC 来解决我们的依赖关系它尝试在开始时加载所有依赖项 Unity中有没有一种方法设置允许在运行时加载依赖项还有更好的解决方案 Unity 2 0 中对 Lazy 和 IEnumera
LINQ WHERE 语句/忽略条件

如果参数为 null 或为空我需要忽略 WHERE 语句中的部分或全部条件 FE 我有简单的 LINQ 查询 var query from x in context a where x p param1 x i param2 select
防止隐藏的输入被更改

这一直让我压力很大我有一个隐藏的输入
当缩放元素在缩放之前大于容器时，CSS 变换比例（向下）不会使用 margin 0 auto 将元素居中

看来当缩小以前不适合其容器的元素时 margin 0 auto将不再使元素在其父元素中居中请注意使用transform origin center center并没有解决这个问题这是因为自动边距似乎在缩放之前而不是之后应用我期望后
Python 线程在 main 中调用一次时运行两次[重复]

这个问题在这里已经有答案了 if name main t threading Thread target authtarget t daemon True t start print running thread app run debug
如何使用存储在 Cocoa Touch 框架中的 Localized.strings？

我想为 CocoaTouch 框架添加多语言支持问题可本地化的字符串我创建的文件仅被使用NSLocalizedString当它是主应用程序及其目标的一部分时我想将其存储在框架内以将事物分开我怎样才能使用可本地化的字符串当放置在 Co
如何在 win 窗体项目中创建用户控件的 dll？

我在项目中创建了这个用户控件当我编译项目时我看到项目 dll 但是当我编译项目时我怎样才能做到这一点它也会创建一个用户控件的 dll 以便稍后在其他项目上我能够将此用户控件 dll 添加到我的工具箱中 Module Name Li
AttributeError：尝试在 python 中运行 sqlalchemy 来管理我的 SQL 数据库时，“Engine”对象没有属性“execute”

我有以下代码行不断给我一个错误即引擎对象没有对象执行我认为我一切都对但不知道接下来会发生什么似乎其他人也遇到了这个问题重新启动他们的笔记本电脑就可以了我正在使用 Pycharm 并已重新启动但没有任何解决方案任何帮助是极大的赞
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？ 的相关文章

随机推荐

热门标签

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？的相关文章