预训练 Transformer 模型的配置更改

2024-03-28

我正在尝试为重整变压器实现一个分类头。分类头工作正常，但是当我尝试更改配置参数之一 - config.axis_pos_shape 即模型的序列长度参数时，它会抛出错误；

Reformer.embeddings.position_embeddings.weights.0 的大小不匹配：从检查点复制形状为 torch.Size([512, 1, 64]) 的参数，当前模型中的形状为 torch.Size([64, 1, 64] ）。 Reformer.embeddings.position_embeddings.weights.1 的大小不匹配：从检查点复制形状为 torch.Size([1, 1024, 192]) 的参数，当前模型中的形状为 torch.Size([1, 128, 192] ）。

配置：

{
  "architectures": [
    "ReformerForSequenceClassification"
  ],
  "attention_head_size": 64,
  "attention_probs_dropout_prob": 0.1,
  "attn_layers": [
    "local",
    "lsh",
    "local",
    "lsh",
    "local",
    "lsh"
  ],
  "axial_norm_std": 1.0,
  "axial_pos_embds": true,
  "axial_pos_embds_dim": [
    64,
    192
  ],
  "axial_pos_shape": [
    64,
    256
  ],
  "chunk_size_feed_forward": 0,
  "chunk_size_lm_head": 0,
  "eos_token_id": 2,
  "feed_forward_size": 512,
  "hash_seed": null,
  "hidden_act": "relu",
  "hidden_dropout_prob": 0.05,
  "hidden_size": 256,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "is_decoder": true,
  "layer_norm_eps": 1e-12,
  "local_attention_probs_dropout_prob": 0.05,
  "local_attn_chunk_length": 64,
  "local_num_chunks_after": 0,
  "local_num_chunks_before": 1,
  "lsh_attention_probs_dropout_prob": 0.0,
  "lsh_attn_chunk_length": 64,
  "lsh_num_chunks_after": 0,
  "lsh_num_chunks_before": 1,
  "max_position_embeddings": 8192,
  "model_type": "reformer",
  "num_attention_heads": 2,
  "num_buckets": [
    64,
    128
  ],
  "num_chunks_after": 0,
  "num_chunks_before": 1,
  "num_hashes": 1,
  "num_hidden_layers": 6,
  "output_past": true,
  "pad_token_id": 0,
  "task_specific_params": {
    "text-generation": {
      "do_sample": true,
      "max_length": 100
    }
  },
  "vocab_size": 320
}

Python代码：

config = ReformerConfig()
config.max_position_embeddings = 8192
config.axial_pos_shape=[64, 128]

#config = ReformerConfig.from_pretrained('./cnp/config.json', output_attention=True)

model = ReformerForSequenceClassification(config)
model.load_state_dict(torch.load("./cnp/pytorch_model.bin"))

我遇到了同样的问题，尝试将 Reformer 预训练中使用的默认最大序列长度 65536 (128*512) 的大小减半。

正如@cronoik 提到的，你必须：

负载预训练塑身机
通过删除不必要的重量来调整其大小以满足您的需要
保存这个新模型
加载这个新模型来执行您想要的任务

这些不必要的权重是来自位置嵌入层的权重。在 Reformer 模型中，使用轴向位置编码策略来学习位置嵌入（而不是像 BERT 这样的固定嵌入）。轴向位置编码以一种内存有效的方式存储位置嵌入，使用两个小张量而不是一个大张量。

然而，位置嵌入的思想仍然完全相同，即为每个位置获得不同的嵌入。

也就是说，理论上（如果我在某个地方误解了，请纠正我），删除最后一个位置嵌入以匹配您的自定义最大序列长度不会损害性能。你可以参考这个帖子来自 HuggingFace https://huggingface.co/blog/reformer查看轴向位置编码的更详细描述并了解在哪里截断位置嵌入张量。

我已成功调整大小并使用自定义最大长度为 32768 (128*256) 的 Reformer，代码如下：

# Load intial pretrained model
model = ReformerForSequenceClassification.from_pretrained('google/reformer-enwik8', num_labels=2)

# Reshape Axial Position Embeddings layer to match desired max seq length       
model.reformer.embeddings.position_embeddings.weights[1] = torch.nn.Parameter(model.reformer.embeddings.position_embeddings.weights[1][0][:256])

# Update the config file to match custom max seq length
model.config.axial_pos_shape = 128, 256
model.config.max_position_embeddings = 128*256 # 32768

# Save model with custom max length
output_model_path = "path/to/model"
model.save_pretrained(output_model_path)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

预训练 Transformer 模型的配置更改的相关文章

TF 对象检测 Zoo 模型没有可训练变量？

中的模型TF 异议检测动物园 https github com tensorflow models blob master research object detection g3doc detection model zoo md有met
如何在 PyTorch 中的特定新维度中重复张量

如果我有一个张量A有形状 M N 我想重复张量 K 次以便结果B有形状 M K N 和每片B k 应该具有相同的数据A 这是没有 for 循环的最佳实践 K可能在其他维度 torch repeat interleave and tenso
在 Pytorch 中获取负片（倒置）图像

我想直接从数据加载器获取图像的负片并将其作为张量提供有我可以使用的库吗我试过火炬transforms并没有找到任何不要费力只需使用255 image它会给你一个负面的形象试试吧
PyTorch：如何使用 DataLoaders 自定义数据集

如何利用torch utils data Dataset and torch utils data DataLoader根据您自己的数据不仅仅是torchvision datasets 有没有办法使用内置的DataLoaders他们使用的
pytorch - “conv1d”在哪里实现？

我想看看 conv1d 模块是如何实现的https pytorch org docs stable modules torch nn modules conv html Conv1d https pytorch org docs stabl
为什么将模型上传到 HuggingFace 存储库的速度如此之慢？

我有一个问题我正在尝试将模型推送到 HuggingFace 存储库问题是它说上传过去 16 小时而这只是 pytorch model bin 文件大约 850MB 我用的是LFS 我尝试手动将文件添加到存储库这需要很长时间我不愿
Pytorch 数据加载器：错误的文件描述符和 EOF > 0

问题描述在使用由自定义数据集制作的 Pytorch 数据加载器进行神经网络训练期间我遇到了奇怪的行为数据加载器设置为workers 4 pin memory False 大多数时候训练都顺利完成有时训练会随机停止并出现以下错误
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
为什么测试时一定要用DataParallel？

在GPU上训练 num gpus设置为1 device ids list range num gpus model NestedUNet opt num channel 2 to device model nn DataParallel m
`enforce_stop_tokens` 如何在 LangChain 中与 Huggingface 模型一起工作？

当我们查看 HuggingFaceHub 模型的使用情况时langchain有这部分作者不知道如何停止生成 https github com hwchase17 langchain blob master langchain llms hu
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
PyTorch 教程错误训练分类器

我刚刚开始 PyTorch 教程使用 PyTorch 进行深度学习 60 分钟闪电战我应该补充一点我之前没有编写过任何 python 但其他语言如 Java 现在我的代码看起来像 import torch import torchvi
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
如何在pytorch中查看DataLoader中的数据

我在 Github 上的示例中看到类似以下内容如何查看该数据的类型形状和其他属性 train data MyDataset int 1e3 length 50 train iterator DataLoader train data b
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc

随机推荐

在 php 中集成 payfort api 时遇到问题

我正在关注 https docs start payfort com references api https docs start payfort com references api 实施 Payfort 付款 Api 的文档但我遇到
Kendo 自动完成显示两个建议列表

我的 Kendo 自动完成控件成功检索 Json 列表不幸的是它调用了 MVC 控制器方法两次并创建了两个建议列表重复列表直接显示在第一个列表后面当从第一个建议列表中选择一个值时该列表会消失但重复列表仍然可见我正在使用自动完成
Angular“=”范围不适用于驼峰命名法

我是指令的范围属性我使用时效果很好show作为属性名称 span span
如何在 pip 安装期间编译 C++ 依赖项？

我想让我的 python 代码可以使用 pip 但是我的代码依赖于另一个不可 pip 的库所以当用户调用时我需要以某种方式编译源代码pip install 我怎样才能做到这一点我无法通过简单的谷歌搜索找到好的参考资料我建议看看 l
使用请求对象 Flask 获取 json 响应

网络服务 app route get details def getDetails cur execute select from employee rows cur fetchall columns desc 0 for desc in
CSS / HTML 导航和徽标位于同一行

我不知道如何将它们放在同一条线上 http codepen io anon pen dovZdQ http codepen io anon pen dovZdQ div class navigation bar div img src lo
如何修复/调整 ggplot geom_tile 中每个带的宽度

这是我的问题的示例数据 sampledata lt matrix c 1 60 1 60 rep 0 1 each 60 sample 1 3 120 replace T ncol 3 colnames sampledata lt c Ti
如何进行递归子文件夹搜索并返回列表中的文件？

我正在编写一个脚本以递归方式遍历主文件夹中的子文件夹并构建特定文件类型的列表我的脚本有问题目前设置如下 for root subFolder files in os walk PATH for item in files if ite
Jquery AJAX：服务器端验证失败时如何显示Flash错误消息？

我正在使用 Jquery 表单插件通过 ajax 提交表单我已经在我的模型中的服务器端设置了验证现在当验证失败时我想使用 ajax 向用户显示相同的 flash error 消息如果验证成功我可以显示 flash notice
Xcode 卡在索引上

我已经工作了两个月的项目无缘无故停止工作因为 Xcode 卡在索引上我无法再构建该项目了如果我尝试构建 Xcode 就会冻结我必须强制退出这种情况仅发生在该项目中我尝试清理所有派生数据但没有帮助我正在使用 Xcode 4
jqgrid 更改单元格值并保持编辑模式

我在网格中使用内联编辑在某些情况下我想更改列内单元格的值我用 setCell 更改它效果很好我的问题是更改后单元格失去了编辑模式而该行的所有其他单元格都处于编辑模式我想在更改单元格后将其保持在编辑模式现在我所做的是保存该行
种子中的 DHT

我正在编写一个 P2P 实现我希望将其去中心化然而我在掌握如何做时遇到了一些困难DHT https en wikipedia org wiki Distributed hash table在像 BitTorrent 这样的协议中是有效的
帮助正确计算atan2

我需要计算线之间的角度我需要计算atan 所以我正在使用这样的代码 static inline CGFloat angleBetweenLinesInRadians2 CGPoint line1Start CGPoint line1End
python中“追加”和“+”有什么区别？ [复制]

这个问题在这里已经有答案了我不知道有什么区别f and g 功能中f 每当调用函数时列表 L 就会累积但在功能上g 它不是 def f a L L append 2 print L def g a L L L 2 print L pr
SQL Server 2008中的递归同表查询

我在 SQL Server 2008 数据库中有下表 Id Name ParentFolder 1 Europe NULL 2 Asia NULL 3 Germany 1 4 UK 1 5 China 2 6 India 2 7 Scotl
echo 函数跳转到 Div 之外

我创建了一个用于 gettext 翻译的函数该函数位于头文件中 function ex text echo gettext text 当我使用函数 ex 时它会翻译该函数中的任何文本效果很好尽管当我在另一个内部有 div 的函数中使用
使用 Apache Lucene 对 MySQL 数据库建立索引，并保持它们同步

当MySQL中添加一个新项目时它也必须被Lucene索引当现有项目从 MySQL 中删除时它也必须从 Lucene 的索引中删除这个想法是编写一个脚本通过调度程序例如 CRON 任务每 x 分钟调用一次这是保持 MySQL
简单的 Perl websocket 客户端

我正在尝试用 Perl 编写一个简单的 websocket 客户端 use Protocol WebSocket Client my client Protocol WebSocket gt new url gt ws myserver p
使用多核的 Numpy np.einsum 数组乘法

我用MKL编译了numpy 1 6 2和scipy 希望有更好的性能目前我有一个严重依赖 np einsum 的代码并且我被告知 einsum 不适用于 MKL 因为几乎没有矢量化所以我想用 np dot 和切片重新编写一些代码只是
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin

预训练 Transformer 模型的配置更改

预训练 Transformer 模型的配置更改 的相关文章

随机推荐

热门标签

预训练 Transformer 模型的配置更改的相关文章