Transformers PreTrainedTokenizer add_tokens 功能

2023-11-29

参考文档在 Huggingface 的很棒的变形金刚库中，我发现了add_tokens功能。

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
num_added_toks = tokenizer.add_tokens(['new_tok1', 'my_new-tok2'])
model.resize_token_embeddings(len(tokenizer))

我通过在默认词汇表中添加以前缺少的单词来尝试上述操作。然而，在保持其他所有不变的情况下，我注意到使用此更新的微调分类器的准确性有所下降tokenizer。即使只添加了 10% 之前缺失的单词，我也能够复制类似的行为。

我的问题

我错过了什么吗？
不是整个单词，而是add_tokens函数需要屏蔽标记，例如：'##ah', '##red', '##ik', '##si'， ETC。？如果是，是否有生成此类屏蔽令牌的程序？

任何帮助，将不胜感激。

提前致谢。

如果你向分词器添加标记，你确实会让分词器以不同的方式对文本进行分词，但这不是 BERT 训练时使用的分词，所以你基本上是在向输入添加噪声。词嵌入未经训练，网络的其余部分从未在上下文中看到过它们。您需要大量数据来教 BERT 处理新添加的单词。

还有一些方法可以计算单个词嵌入，这样就不会像下面那样损害 BERT这张纸但这看起来很复杂，应该没有什么区别。

BERT 使用基于单词片段的词汇表，因此单词是否作为单个标记出现在词汇表中或拆分为多个单词片段并不重要。该模型可能在预训练期间看到了分割词，并且知道如何处理它。

关于##-前缀标记，这些标记只能作为另一个单词的后缀。例如。，walrus被分成['wal', '##rus']你需要这两个单词都在词汇表中，但不需要##wal or rus.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformers PreTrainedTokenizer add_tokens 功能的相关文章

RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
在 C++ API 中将一个张量的一大块复制到另一个张量中

我需要复制一行一个张量在c API 转换为另一个张量的某些部分其中开始和结束索引可用在 C 中我们可以使用类似的东西 int myints 10 20 30 40 50 60 70 std vector
为什么测试时一定要用DataParallel？

在GPU上训练 num gpus设置为1 device ids list range num gpus model NestedUNet opt num channel 2 to device model nn DataParallel m
Model() 获得参数“nr_class”的多个值 - SpaCy 多分类模型（BERT 集成）

您好我正在致力于使用新的 SpaCy 模型实现多分类模型 5 类 en pytt bertbaseuncased lg 新管道的代码在这里 nlp spacy load en pytt bertbaseuncased lg textcat
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
如何平衡 GAN 中生成器和判别器的性能？

这是我第一次使用 GAN 我面临着判别器多次优于生成器的问题我正在尝试重现PA模型来自本文 http openaccess thecvf com content ICCV 2017 papers Sajjadi EnhanceNet Si
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
PyTorch 中的连接张量

我有一个张量叫做data形状的 128 4 150 150 其中 128 是批量大小 4 是通道数最后 2 个维度是高度和宽度我有另一个张量叫做fake形状的 128 1 150 150 我想放弃最后一个list array从第 2 维
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Pytorch RuntimeError：“host_softmax”未针对“torch.cuda.LongTensor”实现

我正在使用 pytorch 来训练模型但是在计算交叉熵损失时我遇到了运行时错误 Traceback most recent call last File deparser py line 402 in
在requirements.txt中包含.whl安装

如何将其包含在requirements txt 文件中对于Linux pip install http download pytorch org whl cu75 torch 0 1 12 post2 cp27 none linux x8

随机推荐

新添加的列的数据未保存到数据库

我在 Rails 4 应用程序中使用 Devise 进行用户身份验证最近我向用户模型添加了两个新列他们是first name and last name 然后我使用这两个属性的字段更新了登录表单但是当我测试创建新用户时两者都没
PHP 标头函数的替代方案

我正在开发一个具有许多样式表的网站所有这些样式表都需要作为 PHP 脚本服务器端进行处理我的 htaccess文件看起来像这样
使用 R 进行网页抓取：尽管在程序中使用了长时间暂停，但仍出现 HTTP 错误 503

我正在尝试搜索ProQuest 存档器使用 R 我有兴趣查找包含特定关键字的报纸的文章数量通常使用它效果很好rvest工具然而该程序有时会崩溃看这个最小的例子 library xml2 library rvest Retrieve
如何将 Data Fusion 连接到 Cloud SQL 代理

我正在尝试使用私有 IP 将 Data Fusion 与 Cloud SQL MySQL 连接起来我读过很多资源似乎这是可能的至少我仍然不相信这是不可能的到目前为止我所拥有的具有私有 IP 的 Data Fusion 私有实例具
将新输入的行与另一列值相乘并在 SQL 中查找总和

我这里有 4 个表我需要将表中新输入的行值与另一行相乘并使用CustomerId 客户表 CustomerId Name EmailId 1 Paul email protected 2 John email protected 忠诚度
将图表从 dojo 图表导出/转换为图像

谁能告诉我是否可以将 dojo 图表对象转换为 mage 文件我需要这个因为我想从包含一些数据和表示图表的网页导出 Excel 文件我唯一发现的是http dojotoolkit org reference guide dojox g
使用 Jenkins DSL 插件进行稀疏结账？

有谁有正确的代码示例 configure Jenkins DSL 插件中需要块来设置 git 稀疏结帐吗 config xml 部分看起来像这样
适用于 Windows 的 CoffeeScript IDE - 尝试过 Titanium Studio 和 RubyMine

我正在尝试找到一种在 Windows 上使用 CoffeeScript 的好方法并且能够在 IDE 中将这些文件快速处理为 JavaScript RubyMine 如果我只是在 RubyMine 中打开一个 coffee 文件这似乎可以
在 UIPopover 内显示 UIDatePicker

我正在使用以下代码来显示UIDatePicker在一个UIPopover当用户单击时显示UIButton 问题是它显示在一个尴尬的位置我想添加一个UIToolBar上面的datePicker有额外空间的地方这将会有cancel and
如何在 JavaFX Canvas 上禁用抗锯齿功能？

目前我正在使用 JavaFX 开发一款 2D 游戏该游戏是像素艺术的不幸的是由于抗锯齿像素艺术变得模糊有什么方法可以禁用 JavaFX 画布上的抗锯齿功能吗我尝试过使用 SceneAntialiasing DISABLED 但它
Facade 和 Mediator 设计模式的区别？

外观设计模式和中介设计模式有什么区别我想了解在哪种情况下在这两种设计模式之间选择哪种设计模式我浏览了以下链接发现两者在用例方面都是相同的立面设计模式 http www tutorialspoint com design patter
Java 使用 XStream 读取 XML

我正在尝试使用 XStream 反序列化此 XML 文件但收到此错误 Exception in thread main com thoughtworks xstream converters ConversionException Aut
创建二维列表矩阵

如何创建基于列表的矩阵1具有给定的行数和列数例如像 row 3 column 4 gt 1 1 1 1 1 1 1 1 1 1 1 1 这是使用列表理解的替代方法让我们看一下基础知识 Prelude gt 2 x x lt 1 4 2
Asp.net MVC Razor如何显示两个模型字段的分组单选按钮

我有一个简单的测验模型我试图让用户从强类型视图中分组的两个单选按钮中选择正确答案替代答案但我使用的 lambda 表达式不起作用我得到两个空白的单选按钮我在这里和网上查看了几个问题但我的模型是 IList 并且我找不到合适的示例
如何根据下拉框 #1 的输入更改下拉框 #2？

我有两个下拉菜单
在 Eclipse 中运行 gtkmm 项目时出现“Gtk-WARNING **：无法打开显示：”

我正在尝试在 Eclipse CDT 在 Ubuntu 上中运行 gtkmm 项目该项目编译正常没有报告错误但是当我尝试运行该项目时控制台打印出此消息 Gtk WARNING cannot open display 如果我转到可执
Leaflet - 将控件放在 div 地图之外

我制作了以下应用程序 http lae2 alwaysdata net carte exppng 我想将我的两个控件 leaflet control zoom 和 leaflet control layers 放在 div 地图之外例如
如何通过 C# 获取 Azure Log Analytics 工作区的工作区 ID

如何通过 C 获取 Azure 中 Log Analytics 工作区的工作区 ID 从那以后我发现OperationalInsightsManagementClient也可以使用类 var client new OperationalIn
如何在 mule 4 中将 ManagedCursorStreamProvider 转换为 JSOn 对象

如何在 mule 中将 ManagedCursorStreamProvider 转换为 Json 对象我写了一个java方法它将Json对象作为输入 Request Payload a one b two 调用静态 arg0 paylo
Transformers PreTrainedTokenizer add_tokens 功能

参考文档在 Huggingface 的很棒的变形金刚库中我发现了add tokens功能 tokenizer BertTokenizer from pretrained bert base uncased model BertModel

Transformers PreTrainedTokenizer add_tokens 功能

Transformers PreTrainedTokenizer add_tokens 功能 的相关文章

随机推荐

热门标签

Transformers PreTrainedTokenizer add_tokens 功能的相关文章