训练新的 AutoTokenizer 拥抱脸部

2024-04-06

收到此错误：AttributeError：“GPT2Tokenizer”对象没有属性“train_new_from_iterator”

与拥抱面部文档非常相似。我更改了输入，就是这样（不应该影响它）。有一次就成功了。 2小时后回来查看，发现并没有……什么都没有改变。文档指出 train_new_from_iterator 仅适用于“快速”分词器，并且 AutoTokenizer 默认情况下应该选择“快速”分词器。我最好的猜测是，它在这方面遇到了一些麻烦。我还尝试降级变压器并重新安装，但没有成功。 df 只是一列文本。

from transformers import AutoTokenizer
import tokenizers

def batch_iterator(batch_size=10, size=5000):
    for i in range(100): #2264
        query = f"select note_text from cmx_uat.note where id > {i * size} limit 50;"
        df = pd.read_sql(sql=query, con=cmx_uat)

        for x in range(0, size, batch_size):
            yield list(df['note_text'].loc[0:5000])[x:x + batch_size]

old_tokenizer = AutoTokenizer.from_pretrained('roberta')
training_corpus = batch_iterator()
new_tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 32000)

有两件事需要记住：

First: The train_new_from_iterator仅适用于快速分词器。 (在这里您可以阅读更多内容 https://github.com/huggingface/transformers/issues/15077)

Second：训练语料库。应该批量文本的生成器，例如，列表的列表如果您已经记住了所有内容，请发短信。 (官方文件 https://huggingface.co/docs/transformers/main_classes/tokenizer)

def batch_iterator(batch_size=3, size=8):
        df = pd.DataFrame({"note_text": ['fghijk', 'wxyz']})
        for x in range(0, size, batch_size):
            yield df['note_text'].to_list()

old_tokenizer = AutoTokenizer.from_pretrained('roberta-base')
training_corpus = batch_iterator()
new_tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 32000)
print(old_tokenizer( ['fghijk', 'wxyz']))
print(new_tokenizer( ['fghijk', 'wxyz']))

output:

{'input_ids': [[0, 506, 4147, 18474, 2], [0, 605, 32027, 329, 2]], 'attention_mask': [[1, 1, 1, 1, 1], [1, 1, 1, 1, 1]]}
{'input_ids': [[0, 22, 2], [0, 21, 2]], 'attention_mask': [[1, 1, 1], [1, 1, 1]]}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

训练新的 AutoTokenizer 拥抱脸部的相关文章

Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我

随机推荐

如何在自定义 CMS 中嵌入或重新创建 Google Analytics 图表

我想知道如何使用 Google Analytics 创建图表也许使用 api 但我不确定是否已经有插件或教程介绍如何执行此操作 Google com 上的 Javascript API 参考很糟糕另外任何有关如何创建折线图画布元素
了解 Python 位运算符、算术运算符和布尔运算符

我是Python新手无法理解这一点有人可以帮我分解一下这个陈述吗 n 和奇偶校验都是整数 n parity n 1 表达式计算为n parity n 1 结果是 n 1 is a bitmask 它掩盖了整数n直至最低有效位如果n是奇
Java - Google App Engine - 当我更改存储在会话范围中的类时出现 InvalidClassException

我更新了我的 User 类现在每当在其会话范围中存储了旧版本 User 类的人访问我的网站时我都会收到InvalidClassException javax servlet ServletException java lang Runt
ApplicationBar 始终为 NULL

我有以下 XAML 代码
Random.nextFloat 不适用于浮点数？

float minX 50 0f float maxX 100 0f Random rand new Random float finalX rand nextFloat maxX minX 1 0f minX Random 类型中的 ne
使用dimplejs创建组合条形图/折线图并使用自定义颜色

我正在尝试使用 dimplejs 创建基于简单数据集列国家 index1 index2 index3 的组合条形图折线图 Index1 将是条形图 index2 向上应动态根据用户交互添加和删除索引在顶部显示为折线图我发现我似乎
如何向 Stripe 客户申请优惠券

我找不到任何方法将优惠券折扣应用于重复付款的现有客户我正在使用stripe宝石我继续在 Stripe 仪表板上创建了优惠券我在他们的 API 页面上没有看到如何添加优惠券我已经尝试过下面的解决方案但没有成功 cu Stripe
read_excel（来自 readxl 包）将 1899-12-30 之前的日期读取为 NA，如何解决此问题？

我有一个包含 130 场足球比赛的数据集这些比赛的历史可以追溯到 1893 年当我从 Excel 导入数据集时 1900 年的日期与 R RStudio 中应有的日期相同但是 1900 年之前的日期以 NA 形式出现我该如何解决这个
指向常量字符的指针

下面的代码指向a中的第一个字符字符数组可在只读存储器中使用是对的吗 const char ptr String one 现在当ptr开始指向另一个内存位置 ptr String two 第一个会发生什么字符数组执行结束时该内存位置是否
是否有跨设备的 CNContact 标识符？

CNContact 是否有任何 icloud 标识符可以让我在设备上保留并重复使用这个想法是能够从不同的 iOS 设备再次拉取 CNContact 文档对此没有任何说明我知道以前的 ABAddressbook 框架也没有这个功能但我希
如何从 python/scipy/numpy 等中的步骤函数中采样？

如果我有每个箱的箱边和计数是否有一种很好的简洁方法可以从这意味着的概率密度函数中进行采样这是我的意思的一个例子 bin edges 0 2 1 6 3 23 5 counts 5 2 10 概率密度函数是一个阶跃函数其步长为 0 2
在 iPhone 键盘顶部添加文本框和按钮

我想在它旁边添加一个文本框和一个按钮它们将位于窗口的底部然后当我触摸文本框输入内容时键盘将出现整行带有文本框和按钮向上滚动键盘将位于它们的正下方你能让我知道我该怎么做吗有示例程序吗 Thanks 马特加拉格尔 Ma
每个用户“类型”的 PHP 子文件夹

我有 3 个子文件夹upload文件夹我的代码如下所示 if isset SESSION u type SESSION u type 3 files scandir path 3 path is set somewhere above 它
$scopeProvider <- $scope/ 未知提供者

我用茉莉花测试我的角度应用程序 http jasmine github io 2 0 http jasmine github io 2 0 并出现下一个错误未知提供者 scopeProvider testModule controller
C#：锚定面板无法正确调整大小

关于用户控件中面板的自动调整大小我遇到了一个奇怪的问题该面板固定在用户控件的所有 4 个侧面但锚定并不总是按其应有的方式起作用如果通过调整窗体大小来调整用户控件的大小则右侧和底部锚点不起作用但是如果使用表单中的拆分器调整控件的
尝试在空对象引用上调用虚拟方法“java.lang.Object android.content.Context.getSystemService(java.lang.String)”

我正在尝试检查我的应用程序是否是第一次启动如果是则要求用户输入然后检查 Wi Fi 是否已连接如果连接了 Wi Fi 我将使用用户提供的输入来加载 WebView 但是该应用程序在启动时崩溃并出现错误尝试在空对象引用上调用虚拟
显示来自 javascript Chrome 书签的提示

我想创建一个 chrome 书签提示用户输入一个值然后在 cookie 中设置该值我无法显示提示有没有办法做到这一点当前代码 javascript function var days window prompt Number of
在 Woocommerce 中显示特定产品类别的产品

我的 WordPress 网站中有这段代码它显示了我拥有的产品 ul li h3 a href a h3 li ul
ValidateRequest=“false” 和 .NET 4 问题

NET 4 崩溃了ValidateRequest false 因为某些原因解决方案是只需将
训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有

训练新的 AutoTokenizer 拥抱脸部

训练新的 AutoTokenizer 拥抱脸部 的相关文章

随机推荐

热门标签

训练新的 AutoTokenizer 拥抱脸部的相关文章