基于 BERT 的 NER 模型在反序列化时给出不一致的预测

2024-02-10

我正在尝试在 Colab 云 GPU 上使用 HuggingFace 变压器库训练 NER 模型，对其进行 pickle 并将模型加载到我自己的 CPU 上以进行预测。

Code

模型如下：

from transformers import BertForTokenClassification

model = BertForTokenClassification.from_pretrained(
    "bert-base-cased",
    num_labels=NUM_LABELS,
    output_attentions = False,
    output_hidden_states = False
)

我正在使用此代码片段将模型保存在 Colab 上

import torch

torch.save(model.state_dict(), FILENAME)

然后使用以下命令将其加载到我的本地 CPU 上

# Initiating an instance of the model type

model_reload = BertForTokenClassification.from_pretrained(
    "bert-base-cased",
    num_labels=len(tag2idx),
    output_attentions = False,
    output_hidden_states = False
)

# Loading the model
model_reload.load_state_dict(torch.load(FILENAME, map_location='cpu'))
model_reload.eval()

用于标记文本并进行实际预测的代码片段在 Colab GPU 笔记本实例和我的 CPU 笔记本实例上都是相同的。

预期行为

经过 GPU 训练的模型行为正确，并且可以完美地对以下标记进行分类：

O       [CLS]
O       Good
O       morning
O       ,
O       my
O       name
O       is
B-per   John
I-per   Kennedy
O       and
O       I
O       am
O       working
O       at
B-org   Apple
O       in
O       the
O       headquarters
O       of
B-geo   Cupertino
O       [SEP]

实际行为

当加载模型并使用它在我的 CPU 上进行预测时，预测完全错误：

I-eve   [CLS]
I-eve   Good
I-eve   morning
I-eve   ,
I-eve   my
I-eve   name
I-eve   is
I-geo   John
B-eve   Kennedy
I-eve   and
I-eve   I
I-eve   am
I-eve   working
I-eve   at
I-gpe   Apple
I-eve   in
I-eve   the
I-eve   headquarters
I-eve   of
B-org   Cupertino
I-eve   [SEP]

有谁知道为什么它不起作用？我错过了什么？

我修复了，有两个问题：

令牌的索引标签映射是错误的，由于某种原因list()函数在 Colab GPU 上的工作方式与我的 CPU 上的工作方式不同 (??)
用于保存模型的代码片段不正确，对于基于 Huggingface-transformers 库的模型，您无法使用model.save_dict()稍后加载它，您需要使用save_pretrained()模型类的方法，稍后使用from_pretrained().

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Pytorch

bertlanguagemodel

huggingfacetransformers

基于 BERT 的 NER 模型在反序列化时给出不一致的预测的相关文章

使用 Flask-restful RequestParser 进行嵌套验证

使用烧瓶宁静 http flask restful readthedocs org 微框架我在构建一个RequestParser这将验证嵌套资源假设预期的 JSON 资源格式为 a list obj1 1 obj2 2 obj3 3 o
Python lambda 函数没有在 for 循环中正确调用[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 中的 Tkinter 制作一个计算器我使用 for 循环来绘制按钮并且尝试使用 lambda 函数以便仅在按下按钮时调用按钮的操作而不是在程序启动时立即调用然而当我尝试这
缺少 python 配置

我正在安装一个程序需要安装 python config 唯一的问题是我目前没有 python config 而且我似乎不知道如何获取它经过搜索后我应该可以通过以下方式安装它 yum install python devel 然而这样
是否可以将名为“None”的值添加到枚举类型？

我可以将名为 None 的值添加到枚举中吗例如 from enum import Enum class Color Enum None 0 represent no color at all red 1 green 2 blue 3 co
日期/时间值的 Django URL 转换器

我正在尝试使用 Django 内置的 URL 转换器将 URL 中的日期时间字符串转换为视图中的日期对象如果我手动输入 URL 它们会按预期工作但尝试为其生成 URL 时找不到匹配项我的转换器很简单 from django utils
Python：如何删除圆括号内的文本？

我试过了但没用 return re sub myResultStats text 建议 thanks 尝试这个 return re sub myResultStats text 括号表示捕获组因此您必须转义它们
通过 pyodbc 连接到 Azure SQL 数据库

我使用 pyodbc 连接到本地 SQL 数据库该数据库工作正常 SQLSERVERLOCAL Driver SQL Server Native Client 11 0 Server localdb v11 0 integrated se
这是我尝试安装 pip3 时得到的结果

这是我尝试安装 pip3 时得到的结果 sudo apt get install python3 pip Reading package lists Done Building dependency tree Reading state i
Python - 使用 win32com.client 将 Excel 单元格范围格式化为表格

我正在尝试编写一个函数该函数选择工作表中的所有非空单元格根据内容调整列宽并将其格式化为表格我被困在最后一点这是我当前的代码 import win32com client from win32com client import co
可重用的 Tensorflow 卷积网络

我想重用来自Tensorflow 专业人士的 MNIST CNN 示例 http www tensorflow org tutorials mnist pros index md 我的图像尺寸为 388px X 191px 只有 2 个输出
Python 中 Goto 标签的替代方案？

我知道我不能使用 Goto 我也知道 Goto 不是答案我读过类似的问题但我只是想不出解决我的问题的方法所以我正在编写一个程序你必须在其中猜测一个数字这是我遇到问题的部分的摘录 x random randint 0 100 I
__subclasses__ 没有显示任何内容

我正在实现一个从适当的子类返回对象的函数如果我搬家SubClass from base py 没有出现子类 subclasses 它们必须在同一个文件中吗也许我从来没有直接导入subclass py对Python隐藏子类我能做些什么
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
使用 Beautifulsoup 解析时保持 XML 文件的缩进

我正在使用 BS4 解析 XML 文件并尝试将其写回新的 XML 文件输入文件
pip：证书失败，但curl 有效

我们在客户端安装了根证书 https 连接适用于curl 但如果我们尝试使用pip 它失败 Could not fetch URL https installserver 40443 pypi simple pep8 There was a
如何从 Selenium 获取元素的属性

我正在 Python 中使用 Selenium 我想得到 val of a
Tensorflow：提要字典错误：您必须为占位符张量提供值

我有一个错误我无法找出原因这是代码 with tf Graph as default global step tf Variable 0 trainable False images tf placeholder tf float32
使用 boto3 将 csv 文件保存到 s3

我正在尝试写入 CSV 文件并将其保存到 s3 中的特定文件夹存在这是我的代码 from io import BytesIO import pandas as pd import boto3 s3 boto3 resource s3 d
如何访问模板缓存？ - 姜戈

I am 缓存 HTML在几个模板内例如 cache 900 stats stats endcache 我可以使用以下方式访问缓存吗低级图书馆例如 html cache get stats 我确实需要对模板缓存进行一些细粒度的控制有任
用于获取有关 SVN 存储库信息的 Python 库？

我正在寻找一个可以从 SVN 存储库中提取至少以下信息的库 not工作副本修订号及其作者和提交消息每个修订版中的更改添加删除修改文件有Python库可以做到这一点吗对于作者和提交消息我可以解析 db revprops 0

随机推荐

Python 没有权限访问此服务器/从 ZIP 返回城市/州

我想做的是从邮政编码中检索城市和州这是我到目前为止所拥有的 def find city zip code zip code str zip code url http www unitedstateszipcodes org zip co
包含其他标头的单个标头

最近我遇到了这种管理标头的方法在互联网上找不到有关其问题的太多信息因此决定在这里询问想象一下你有一个程序main c 以及其他来源和标题例如 person c person h settings c settings h main
基音频率检测互相关函数的实现

对于我的声音处理项目特别是音调检测我需要实现互相关函数但我在结果方面遇到了麻烦我有 400 帧所有帧都有 512 个样本帧有 50 的重叠这是互相关的公式 https i stack imgur com yaUUj jpg我已经
如何从 lync 客户端 2013 通信中检索 IM 消息

我正在使用 lync 2013 sdk 我需要在通话结束时创建一个包含对话 IM 消息的任务我想要一些方法 conversation getIMmessage etc 我该如何实施呢因此假设您使用的是 Lync 客户端 SDK 您将需
首页加载缓慢 - ASP.NET MVC

我对我的页面使用了 miniprofiler 因为我认为我的第一页和其他一些页面的加载时间很长我从 miniprofiler 开始但我认为它是非常好的工具我有这个结果 http localhost 50783 192 2 0 0 从数
在实践中，对象构造是否保证所有线程都能看到初始化的非最终字段？

The Java内存模型 https docs oracle com javase specs jls se8 html jls 17 html jls 17 4保证对象的构造和终结器之间的发生之前关系从构造函数的末尾有一个发生在边缘对
jquery-ui 对话框显示关闭图标和错误文本

jquery ui 对话框显示关闭图标和关闭错误文本 jquery Ui 版本 1 12 1 和代码 function callDialog dialog confirm dialog closeOnEscape false resiz
带有管道模式的 IIS 7.0 = Integrated 不会在 ASP .NET 中加载任何图像/CSS

我有一个在 IIS 5 1 中工作的完整系统我使用经典管道模式迁移到 IIS 7 0 一切正常但使用管道集成时我的图像 css 未加载我正在将 ASP NET 3 5 与 Web 应用程序一起使用有什么帮助吗在 IIS 7 中
如何实现多行文本加载动画？

我正在尝试仅使用来实现文本加载动画CSS 我所拥有的是黑色文本然后当页面加载时文本将在几秒钟内开始填充红色我面临的问题是文本加载动画工作正常但是当文本结束并以新行开始时动画文本仍然在同一行上继续我怎样才能解决这个问题 body
通过显式排序避免死锁

我想明确提供有关 MySql InnoDB 应如何获取行锁的顺序如果可能的话就不应该出现任何死锁如果我们遵循惯例首先数据库应该按升序锁定表 models 中找到的所有行然后第二个表颜色中的所有行都应按升序锁定有没有办法控制
Numpy：多轴上的 argmax 无循环

我有一个 N 维数组名为 A 对于A的第一轴的每一行我想获得A的其他轴上的最大值的坐标然后我将返回一个二维数组其中包含第一轴的每一行的最大值的坐标A 的我已经使用循环解决了我的问题但我想知道是否有更有效的方法来做到这一点我当前
读取包含日期和时间的 csv

我正在 R 中工作并阅读 csv 其第一列中有日期和时间我想先在R中导入这个csv文件然后将其转换为zoo对象我正在使用 R 中的代码 EURUSD lt as xts read zoo myfile csv sep tz heade
优先选择同步而不是易失性

我读过这个answer https stackoverflow com a 3488771 2786156最后写下以下内容任何你能用易失性实现的事情都可以用同步完成但是反之则不然目前还不清楚 JLS 8 3 1 4 https
Swift 2 未使用的持续警告

我收到一条警告说我的常量未使用从未使用过不可变值 myConst 的初始化考虑替换为的赋值或将其删除 if someVal value nil let myConst someVal value 那么重命名会怎样let myCons
如何使用 C# API 将 BigQuery 行转换为 JSON？

我使用下面的 C 代码从 BigQuery 表中提取一些数据 BigQueryClient client BigQueryClient Create
Ruby on Rails - 搜索结果分页

我有 2 个模型 Post 和 Location 其中 location has many posts 和 post owns to location 搜索工作正常分页也工作正常除了total entries 结果显示超过 10 条查
以编程方式更改 UIImageView Xcode Swift 的高度和宽度

嘿出于某种原因我正在努力尝试设置我的图像视图之一的高度和宽度我想将其设置为高度仅占屏幕的 20 我知道要定期设置它您可以执行以下操作图像 0 0 50 50 但我需要高度不是一个静态数字像 image 0 0 frame hei
为什么 val_loss 和 val_acc 不显示？

训练开始时运行窗口中仅显示loss和acc 缺少val loss和val acc 仅在最后才会显示这些值 model add Flatten model add Dense 512 activation relu model add Dr
jQuery + Gravity Forms：在错误验证时执行 jQuery

我在当前的重力形式上使用了一些 jQuery 然而当我提交表单并返回错误验证时我丢失了一些 jQuery 目标我很好奇如何更换 document ready function 一旦字段因错误验证而重新加载就会调用我的 jQuery
基于 BERT 的 NER 模型在反序列化时给出不一致的预测

我正在尝试在 Colab 云 GPU 上使用 HuggingFace 变压器库训练 NER 模型对其进行 pickle 并将模型加载到我自己的 CPU 上以进行预测 Code 模型如下 from transformers import B

基于 BERT 的 NER 模型在反序列化时给出不一致的预测

基于 BERT 的 NER 模型在反序列化时给出不一致的预测 的相关文章

随机推荐

热门标签

基于 BERT 的 NER 模型在反序列化时给出不一致的预测的相关文章