max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

2024-03-14

我正在处理文本分类问题，我想使用 BERT 模型作为基础，然后使用密集层。我想知道这 3 个参数是如何工作的？例如，如果我有 3 个句子：

'My name is slim shade and I am an aspiring AI Engineer',
'I am an aspiring AI Engineer',
'My name is Slim'

那么这 3 个参数会做什么呢？我的想法如下：

max_length=5将严格保留长度为 5 之前的所有句子
padding=max_length将为第三句添加 1 的填充
truncate=True将截断第一句和第二句，使其长度严格为 5。

如果我错了，请纠正我。

下面是我使用过的代码。

! pip install transformers==3.5.1

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

tokens = tokenizer.batch_encode_plus(text,max_length=5,padding='max_length', truncation=True)
  
text_seq = torch.tensor(tokens['input_ids'])
text_mask = torch.tensor(tokens['attention_mask'])

您的假设几乎是正确的，但是几乎没有差异。

max_length=5, the max_length 指定的长度标记化文本。默认情况下，BERT 执行单词片段标记化。例如，单词“playing”可以分为“play”和“##ing”（这可能不是很精确，但只是为了帮助您理解单词片段标记化），然后添加[CLS]句子开头的标记，以及[SEP]句子末尾的标记。因此，它首先对句子进行标记，将其截断为max_length-2 (if truncation=True），然后在前面加上[CLS]在开始时和[SEP]令牌在末尾。（所以总长度为max_length)

padding='max_length'，在这个例子中，第三个例子将被填充并不是很明显，因为长度超过5追加后[CLS] and [SEP]代币。但是，如果您有max_length共 10 个。标记化文本对应于[101, 2026, 2171, 2003, 11754, 102, 0, 0, 0, 0]，其中 101 是 id[CLS]102 是 id[SEP]代币。因此，用零填充以使所有文本的长度为max_length

同样地，truncate=True将确保严格遵守 max_length，即较长的句子被截断为max_length除非truncate=True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？的相关文章

Python lambda 函数没有在 for 循环中正确调用[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 中的 Tkinter 制作一个计算器我使用 for 循环来绘制按钮并且尝试使用 lambda 函数以便仅在按下按钮时调用按钮的操作而不是在程序启动时立即调用然而当我尝试这
数据操作 startdate enddate python pandas

我有一个促销描述数据集其中包含有关正在运行的各种促销活动及其开始日期结束日期的信息 promo item start date end date Buy1 get 1 A 2015 01 08 2015 01 12 Buy1 get 1
如何在cvxpy中编写多个约束？

我想在 cvxpy 下的优化问题中添加许多约束在 matlab 中我可以通过添加一行 subject to 然后使用 for 循环来生成约束我怎样才能在 cvxpy 中做同样的工作因为 cvxpy 中没有服从概念有什么建议吗
这是我尝试安装 pip3 时得到的结果

这是我尝试安装 pip3 时得到的结果 sudo apt get install python3 pip Reading package lists Done Building dependency tree Reading state i
将图像转换为二进制流

我的应用程序有两个方面一方面我使用 C 来使用 Pleora 的 EBUS SDK 从相机读取帧当第一次接收到该流时在将缓冲区转换为图像之前我能够一次读取 16 位流以便对每个像素执行一些计算即每个像素都存在一个 16 位数据块
从文件中读取单词并放入列表中

本质上我有一个巨大的文件所有文件包含每行多个单词每个单词用空格分隔有点像这样 WORD WORD WORD WORD ANOTHER WORD SCRABBLE BLAH YES NO 我想要做的是将文件中的所有单词放入一个巨大的列
在Python中随机化列表[重复]

这个问题在这里已经有答案了我想知道是否有一个好方法来震动 Python 中的项目列表例如 1 2 3 4 5 可能会被动摇随机化 3 1 4 2 5 任何顺序都同样可能 from random import shuffle list
如何将 Jinja 与 Twisted 一起使用？

我正在计划使用 Python 与 Twisted Storm 和 Jinja 一起开发一个讨论软件问题是 Jinja 不是为 Twisted 或异步套接字库而设计的并且使用 Twisted 提供的性能是我不打算使用 Flask 的原因
__subclasses__ 没有显示任何内容

我正在实现一个从适当的子类返回对象的函数如果我搬家SubClass from base py 没有出现子类 subclasses 它们必须在同一个文件中吗也许我从来没有直接导入subclass py对Python隐藏子类我能做些什么
Python、cPickle、酸洗 lambda 函数

我必须像这样腌制一组对象 import cPickle as pickle from numpy import sin cos array tmp lambda x sin x cos x test array tmp tmp tmp tm
使用 Beautifulsoup 解析时保持 XML 文件的缩进

我正在使用 BS4 解析 XML 文件并尝试将其写回新的 XML 文件输入文件
captureWarnings 设置为 True 不会捕获警告

我想记录所有警告我以为这样的设定captureWarnings to True应该可以解决问题但事实并非如此代码 import logging import warnings from logging handlers import
按多索引的一级对 pandas DataFrame 进行排序

我有一个多索引 pandas DataFrame 需要按索引器之一进行排序这是数据片段 gene VIM treatment dose time TGFb 0 1 2 0 158406 1 2 0 039158 10 2 0 052608
带回溯的 Dijkstra 算法？

In a 相关主题 https stackoverflow com questions 28333756 finding most efficient path between two nodes in an interval graph
如何点击 Google Trends 中的“加载更多”按钮并通过 Selenium 和 Python 打印所有标题

这次我想单击一个按钮来加载更多实时搜索这是网站的链接该按钮位于页面末尾代码如下 div class feed load more button Load more div 由于涉及到一些 AngularJS 我不知道该怎么做有什么提
在 python 中计时时，我应该如何考虑 subprocess.Popen() 开销？

编码社区的成员比我更聪明我有一个 python 问题要问你们我正在尝试优化一个 python 脚本该脚本除其他外返回子进程执行和终止的挂钟时间我想我已经接近这样的事情了 startTime time time process s
如何在特定时间启动Tornado周期性回调？

目前在我的 Tornado 应用程序中我正在使用定期调用回调PeriodicCallback每隔一小时像这样 import tornado ioloop from tornado ioloop import PeriodicCallba
mypy 错误：赋值中的类型不兼容（表达式的类型为“Dict[, ]”，目标的类型为“List[str]”）

我尝试过了实例化一个空字典在现有字典的第二层上然后为其分配一个键值对但 MyPy 会抛出错误这是一个最小的示例当激活 MyPy 检查时它将重现它 result Test something result key result key
每行中最后一次出现 True 的索引

我有一个二维数组 a False False False False False True True True True True True True True True True True True True True True True
如何访问模板缓存？ - 姜戈

I am 缓存 HTML在几个模板内例如 cache 900 stats stats endcache 我可以使用以下方式访问缓存吗低级图书馆例如 html cache get stats 我确实需要对模板缓存进行一些细粒度的控制有任

随机推荐

我们如何在 python 中将 JSON 凭证存储到 ENV 变量中？

type service account project id project id private key id private key id private key BEGIN PRIVATE KEY n client email em
控件之间的标准边距和标准控件尺寸

例如 Windows 窗体设计器允许将控件放置在窗体上窗体边框和控件边框之间有 12 个像素对我来说似乎太多了是标准值吗另外据我了解标准按钮高度应该是 23 像素我对吗有没有文件说明这一切我可以在 Visual Studio
PlayFramework 2.0 内存不足

如何增加 Play 环境可用的内存运行测试一段时间后我的内存不足了特别是我收到此错误 java lang OutOfMemoryError PermGen 空间我通过添加以下内容解决了这个问题 javaOptions Seq Xm
如何让旋转角度统一平滑？ [复制]

这个问题在这里已经有答案了我计算无人机需要转向的角度以便它能够看到玩家我明白了但是无人机可以改变目标并且在目标改变期间它会突然改变其旋转如何才能让这个过渡顺利进行 var finalAngle Vector3 Angle tar
实现任意类型擦除的小缓冲区优化的简单方法（例如在 std::function 中）。

我倾向于使用很多类型擦除技术它通常看起来像这样 class YetAnotherTypeErasure public interface redirected to pImpl private Adapting function temp
对一定范围内的灰度图像进行阈值处理

有OpenCV吗cv InRange函数仅适用于 RGB 图像我可以使用此函数对灰度图像进行阈值处理吗我收到错误以下是我的代码 import cv2 image cv2 imread disparitySGB jpg thresh c
使用泰勒展开式计算正弦的程序不起作用？

我正在尝试编写一些代码使用泰勒展开计算 sin 0 75 的值并打印每次迭代直到使用展开计算的值与使用 Fortran 的内在 sin 函数计算的值之间的绝对差为小于1E 6 这是我的代码 program taylor implici
已弃用数据 URI 正文中未转义的“#”字符；如何在项目中查找？

我在 Angular 2 应用程序中从 Chrome 收到此警告好的那么我应该如何在具有如此多数据 URI 的项目中找到此问题发生的位置呢等待它失败我想哎呀弃用在数据 URI 正文中使用未转义的字符是已弃用并将在 2018
Firebase 登录的授权错误列表

我需要的是所有不同登录错误的 FirebaseAuthentication 代码的完整列表以及所有这些错误的列表到目前为止我已经通过反复试验找到了一些但不能冒错过一些的风险我正在使用 Firebase 简单登录通过电子邮件密码
将自定义函数绑定到原型中的 DOM 事件？

Jquery 有一个很棒的语言结构如下所示 document ready function a click function alert Hello world 正如您可能猜到的那样一旦文档加载完毕就会将自定义函数绑定到所有文档的 o
Fabric.js - 从画布 API 的 ImageData 对象创建 Image 对象

我想在 Fabric js 中创建一个图像对象ImageData对象我们可以从中获取 ImageData var imgData ctx getImageData 10 10 50 50 ctx putImageData imgData
Javascript，正则表达式 - 我需要获取括号中包含的字符串的每个部分

这是我需要的我想顺序一定是正确的需要提取并存储方括号中包含的字符串的每个部分的内容每个部分都必须跟在原始字符串的其余部分之后并且返回没有它们的原始字符串如果在给定提取部分的开头有一个可识别的字符串后跟一个冒号那么我需要识别并删
React检测iframe的src的变化

我有一个iframe我的组件中的元素我需要以某种方式检测该 iframe 的 URL 何时发生变化到目前为止我已经尝试过 Added onLoad回调但这不会在我每次在 iframe 中重定向时触发 Used React useCal
如何使用 Twilio 解决 java.lang.NoClassDefFoundError UserAgentConfig$Callbacks

我正在使用 Twilio Client Android sdk 但在尝试运行它时失败并出现此错误 Caused by java lang NoClassDefFoundError Class Lcom twilio client impl
如何在 PHP 的自定义函数中添加可选参数？

例如这是一个总结它的快速虚拟函数 function dummy func optional if isset optional optional World output Hello optional return output 但是如
处理 Android 5.0 Lollipop 中的媒体按钮

在 API 21 之前我使用的是这样的调用audioManager registerMediaButtonEventReceiver receiver 当用户按下耳机上的按钮时处理媒体按钮事件从 API 21 开始似乎MediaSes
确定对象是否是数组的最佳方法是什么

据我所知有三种方法可以判断一个对象是否是数组 by isArray功能如果已实现 Array isArray by toString Object prototype toString apply obj object Array an
C# - 将变量传递给 Matlab

典型的谷歌搜索结果是空的我呼吁你们的伟大思想如何将变量从我正在编写的 C 类传递到 Matlab 我通过 NET addAssembly 函数与其交互我应该在 C 代码中引用 dll 文件吗如果是的话它在哪里是否有一些文档和示例
访问 getSymbols 返回的奇数名称对象

我正在使用雅虎下载数据quantmod gt getSymbols HNZ A TO 1 HNZ A TO Warning message In download file paste yahoo URL s Symbols name a
max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

我正在处理文本分类问题我想使用 BERT 模型作为基础然后使用密集层我想知道这 3 个参数是如何工作的例如如果我有 3 个句子 My name is slim shade and I am an aspiring AI Engin

max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？ 的相关文章

随机推荐

热门标签

max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？的相关文章