Huggingface 保存标记器

2024-01-28

我正在尝试将标记生成器保存在 Huggingface 中，以便稍后可以从不需要访问互联网的容器中加载它。

BASE_MODEL = "distilbert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.save_vocabulary("./models/tokenizer/")
tokenizer2 = AutoTokenizer.from_pretrained("./models/tokenizer/")

然而，最后一行给出了错误：

OSError: Can't load config for './models/tokenizer3/'. Make sure that:

- './models/tokenizer3/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer3/' is the correct path to a directory containing a config.json file

变形金刚版本：3.1.0

如何从 Pytorch 中的预训练模型加载保存的分词器 https://stackoverflow.com/questions/58417374/how-to-load-the-saved-tokenizer-from-pretrained-model-in-pytorch不幸的是没有帮助。

Edit 1

感谢@ashwin 下面的回答，我尝试过save_pretrained相反，我收到以下错误：

OSError: Can't load config for './models/tokenizer/'. Make sure that:

- './models/tokenizer/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer/' is the correct path to a directory containing a config.json file

the contents of the tokenizer folder is below:

我尝试重命名tokenizer_config.json to config.json然后我得到了错误：

ValueError: Unrecognized model in ./models/tokenizer/. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: retribert, t5, mobilebert, distilbert, albert, camembert, xlm-roberta, pegasus, marian, mbart, bart, reformer, longformer, roberta, flaubert, bert, openai-gpt, gpt2, transfo-xl, xlnet, xlm, ctrl, electra, encoder-decoder

save_vocabulary()，仅保存分词器的词汇文件（BPE 分词列表）。

要保存整个分词器，您应该使用save_pretrained()

因此，如下：

BASE_MODEL = "distilbert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.save_pretrained("./models/tokenizer/")
tokenizer2 = DistilBertTokenizer.from_pretrained("./models/tokenizer/")

Edit:

由于某种未知的原因：代替

tokenizer2 = AutoTokenizer.from_pretrained("./models/tokenizer/")

using

tokenizer2 = DistilBertTokenizer.from_pretrained("./models/tokenizer/")

works.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

huggingfacetransformers

huggingfacetokenizers

Huggingface 保存标记器的相关文章

Huggingface 转换器模型返回字符串而不是 logits

我正在尝试从 Huggingface 网站运行这个示例 https huggingface co transformers task summary html 模型似乎返回两个字符串而不是 logits 这会导致 torch argmax
使用 HuggingFace 微调 T5 进行汇总时出现关键错误

我正在尝试微调 T5 变压器进行汇总但收到一条关键错误消息 KeyError Indexing with integers to access backend Encoding for a given batch index is not
估计给定句子的标记概率/逻辑，而不计算整个句子

我有这样一句话 I like sitting in my new chair and about life 我有一组特定的令牌例如 watch run think apple light 我想计算每个标记作为该不完整句子中的下一个单词出现
类型错误：“torch.device”和“int”实例之间不支持“<”

2023 01 25 08 21 21 659 ERROR Traceback most recent call last File home xyzUser project queue handler document queue lis
TFCamemBERT 模型训练但测试没有结果

目前我正在使用 Camembert 进行医学领域的命名实体识别精确地使用以下模型 TF卡芒贝尔 https huggingface co jplu tf camembert base 然而我在对任务模型进行微调时遇到了一些问题因为我使
Huggingface 的“resume_from_checkpoint”有效吗？

我目前将我的教练设置为 training args TrainingArguments output dir f results model checkpoint evaluation strategy epoch learning rat
具有多个 bert 输入的 SMOTE

我正在使用 Keras 和 Bert HuggingFace 构建多类文本分类模型但我有一个非常不平衡的数据集我使用了 Sklearn 中的 SMOTE 来为欠平衡类生成额外的样本我总共有 45 个当我使用 Bert Tokeniz
该模型没有从输入中返回损失 - LabSE 错误

我想使用小队数据集微调 LabSE 以进行问答我收到这个错误 ValueError The model did not return a loss from the inputs only the following keys last
“正在使用bos_token，但尚未设置”是什么意思？

当我运行 demo py 时 from transformers import AutoTokenizer AutoModel tokenizer AutoTokenizer from pretrained distilbert base
如何从预训练模型加载保存的分词器

我使用 Huggingface 转换器在 Pytorch 中微调了预训练的 BERT 模型所有训练验证都是在云中的 GPU 上完成的训练结束时我保存模型和分词器如下所示 best model save pretrained sav
合并多个 BatchEncoding 或从 BatchEncoding 对象列表创建张量流数据集

在标记标记任务中我使用转换器标记生成器它输出 BatchEncoding 类的对象我分别对每个文本进行标记因为我需要从文本中提取标签并在标记后重新排列它们由于子标记但是我找不到一种方法可以从 BatchEncoding 对象列
为什么评估集会耗尽 pytorch 拥抱中的内存？

我使用的是相当大的 GPU 大约 80 GB 训练纪元运行良好但由于某种原因在评估时训练集和验证集或多或少具有相同的长度我内存不足并收到此错误 File home transformers trainer pt utils py li
“您必须指定 input_ids 或 input_embeds”，但我确实指定了 input_ids

我训练了一个基于 BERT 的编码器解码器模型 EncoderDecoderModel named ed model使用 HuggingFace 的变压器模块我用的是BertTokenizer命名为input tokenizer 我用以下
在微调 GPT-2 模型时如何处理堆栈期望每个张量具有相同大小的误差？

我尝试用我的个人信息微调模型所以我可以创建一个聊天框人们可以通过聊天 gpt 了解我但是我得到了错误 RuntimeError 堆栈期望每个张量大小相等但在条目 0 处得到 47 在条目 1 处得到 36 因为我有不同的输入长度
为什么将模型上传到 HuggingFace 存储库的速度如此之慢？

我有一个问题我正在尝试将模型推送到 HuggingFace 存储库问题是它说上传过去 16 小时而这只是 pytorch model bin 文件大约 850MB 我用的是LFS 我尝试手动将文件添加到存储库这需要很长时间我不愿
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有
`enforce_stop_tokens` 如何在 LangChain 中与 Huggingface 模型一起工作？

当我们查看 HuggingFaceHub 模型的使用情况时langchain有这部分作者不知道如何停止生成 https github com hwchase17 langchain blob master langchain llms hu
如何使用 Huggingface 变压器加载基于 llama 的微调 pef/lora 模型？

我已经关注了this https www youtube com watch v Us5ZFp16PaU教程 Colab笔记本 https colab research google com drive 14xo6sj4dARk8lXZbO

随机推荐

变量声明与变量绑定相同吗？

MDN 文档 https developer mozilla org en US docs Web JavaScript Reference Statements let状态 let 绑定是在包含的块范围的顶部创建的该声明通常称为吊
Matlab - 加速嵌套 For 循环

一个简单的问题但我不太擅长 MATLAB 我有向量x n 1 y 米 1 和w x y 我想定义M n m x 1 as M i x 中小于或等于 w i 的元素数量 w 已排序这只是没有削减它 N n m M zeros N 1 fo
ARMv8 AArch32模式是否向后兼容armv4、armv5或armv6？

众所周知 ARMv8 AArch32 位模式完全向后兼容 ARMv7 架构并且ARMv7向后兼容ARMv4 ARMv5te和ARMv6 从上面的说法我们可以说ARMv8 AArch32模式也向下兼容ARMv4 ARMv5te和ARMv6
如何手动打开休眠会话？

我有一个相当大的项目涉及 spring 和 hibernate 现在我正在将某些对象从休眠状态恢复到内存中但我遇到了一些障碍我有以下设置 A 类包含多个基元和一个 B 类 B 包含基元和一个 C 类以前是惰性加载现在我有这个服
如何阻止嵌套列表与父列表重叠？

看这里 http jsfiddle net wHztz 67 http jsfiddle net wHztz 67 在此示例中颜色是背景图像的占位符我注意到当嵌套列表停止重叠时display block被移除自 innerLeft ul
部署后 ASP.NET 网站看起来有所不同

我已经用谷歌搜索了这个问题的答案但还没有找到任何答案也许我使用的搜索词太通用了无论如何这里是我发现了网页设计和 ASP NET 的乐趣也发现了尝试在 IE 和所有其他浏览器中以相同方式显示内容的噩梦我正在 VS2010 中工作
使用R语言进行冒泡排序？

我是编程新手刚刚开始学习R语言我正在尝试进行冒泡排序但它显示以下错误消息谁能帮我解决这个问题吗 x lt sample 1 100 10 n lt length x example lt function x for i in 1
如何只显示 1 条得分最低的记录？

我只想显示 DL 列表中的 1 条记录该记录具有所有 DL 中的最低分数目前它正在显示所有记录在 stackblitz 的示例中您可以看到第一条记录的 DL 分数为 54 20 并已更新我不想显示所有 3 条记录而是只想显示 1
缺少 Idlj 编译器 (Linux/JDK 11)

找不到idlj编译工具 idl文件已检查 usr bin and usr lib jvm java 11 jdk 它不是和JDK捆绑在一起的吗如何添加idlj编译器附我更喜欢Python 不太使用Java 如果这是一个愚蠢的问题我
从 facebookomniauth 获取名字和姓氏字段

我现在正在我的应用程序中实现omniauth 功能一切正常除了我无法从 Facebook 上获取名字和姓氏这是我的模型代码 def self from omniauth auth user User where email auth
在 Python 3 中未显式打开文件时处理从字节到字符串的转换

我使用 Requests 模块进行授权然后从 Web API 中提取 csv 内容并使其在 Python 2 7 中正常运行我现在想在 Python 3 5 中编写相同的脚本但遇到一些问题 iterator should retur
使用注释来注入依赖项是否会消除依赖项注入（外部配置）的主要好处？

我正在使用 Spring 这是一个控制器 Controller public class PersonController Resource name PersonService private PersonService personSe
如何以编程方式获得 Scenekit 关卡编辑器的优势

我刚刚运行了一些测试比较了加载创建场景的不同方式的性能以了解性能影响该测试只是渲染一个 32x32 的立方体网格并观察 CPU 使用率内存能源和渲染时间不是很科学但有一些明确的结果这四项测试包括 Load a dae e
ItemTouchHelper：防止越界拖动

我有一个带有 ItemTouchHelper 的回收器视图它允许拖动项目我想将拖动限制在回收器视图的边界内即您不能只将视图拖动到容器之外从而使其消失我尝试像这样检查绝对坐标 Override public void onChil
Java：计算时区差异

如何在 Java 中获取特定日期和时区与 GMT 的时差确定特定时区是否处于夏令时非常简单 boolean isIsraelInDST TimeZone getTimeZone Israel inDaylightTime new Date
如何在extjs中的网格视图列中添加按钮？

创建新行时一个字段应包含一个在扩展 JS 中动态创建的按钮 Each button should contain different name and action listener The column should like give
Excel VBA 将项目添加到组合框而不重复项目

我想将以下项目添加到组合框中但如果有重复的项目则只应添加一个 A 1 john 2 john 3 marry 4 marry 5 john 6 lisa 7 frank 8 marry 我希望组合框结果是john marry lisa
使用特定方法控制XML序列化格式

我有一个 DateTime 和一个子类我想要专门针对 XML 序列化对其进行格式化通常在不指定任何内容的情况下 DateTime 的序列化只会遵循当前的区域性但我希望 DateTime 以某种方式格式化即使不可反序列化子类也是如
Pip 无法再从 https 克隆 - 错误 128

我有一个使用标准 https 克隆语法的项目已经有一段时间了就在今天下午它工作得很好现在我得到error code 128每次我尝试克隆时 Obtaining myproject from git git myurl myuser
Huggingface 保存标记器

我正在尝试将标记生成器保存在 Huggingface 中以便稍后可以从不需要访问互联网的容器中加载它 BASE MODEL distilbert base multilingual cased tokenizer AutoTokenize

Huggingface 保存标记器

Edit 1

Huggingface 保存标记器 的相关文章

随机推荐

热门标签

Huggingface 保存标记器的相关文章