target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

2024-04-26

根据这个链接 https://www.tensorflow.org/datasets/api_docs/python/tfds/features/text/SubwordTextEncoder#build_from_corpus, target_vocab_size:int，要创建的词汇表的大致大小。该声明对我来说相当含糊。据我所知，编码器会将每个词汇映射到一个唯一的 ID。如果语料库有会发生什么vocab_size大于target_vocab_size?

The 文档 https://www.tensorflow.org/datasets/api_docs/python/tfds/features/text/SubwordTextEncoder says:

编码是完全可逆的，因为所有词汇外的单词都是字节编码的

这意味着未知的单词片段将一次编码一个字符。通过一个例子最好理解。假设您构建了一个SubwordTextEncoder使用非常大的英语文本语料库，以便大多数常见单词都在词汇表中。

vocab_size = 10000
tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
    corpus_sentences, vocab_size)

假设您尝试标记以下句子。

tokenizer.encode("good badwords badxyz")

它将被标记为：

good
bad
words
bad
x
y
z

正如您所看到的，由于单词“xyz”不在词汇表中，因此它被标记为字符。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

NLP

target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？的相关文章

AngularJS 和 Django 的 DOM、JavaScript 和服务器端数据库之间是否存在三向数据绑定框架？

AngularJS 爱好者兜售的功能之一是该框架提供的 DOM 内容和 JavaScript 数据之间的双向数据绑定我目前正在开发几个集成 AngularJS 和 Django 的学习项目其中一个痛点是 AngularJS 解决的 Ja
python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
Python 有哪些重要的语言特性（习语）需要尽早学习[重复]

这个问题在这里已经有答案了我有兴趣了解 StackOverflow 社区认为 Python 的重要语言特性习语是什么将程序员定义为 Pythonic 的特征 Python pythonic 习语 Python 语言自然的或特有的代
TensorFlow 未编译为使用 SSE（等）指令，但这些指令是可用的

我第一次使用一些示例代码运行 TensorFlow 运行代码时我收到以下警告有谁知道为什么会发生这种情况以及如何解决它 2017 03 31 02 12 59 346109 W c tf jenkins home workspace re
使用 openCV 和 python 检测物体

我正在尝试使用 OpenCV 和 Python 检测下图中的白点我尝试使用函数 cv2 HoughCircles 但没有成功我需要使用不同的方法吗这是我的代码 import cv2 cv import numpy as np impo
Apache2 mod_wsgi 403 禁止错误

我已经正确配置了它但后来我决定重新安装我的 Debian 顺便从 wheezy 切换到 jessie 版本问题是这样的我有一个 python mod wsgi 应用程序 mnt doc Python www index py ls l
Python NET 调用具有返回值和输出参数的 C# 方法

我有以下静态 C 方法 public static bool TryParse string s out double result 我想使用 Python NET 包从 Python 调用它 import clr from System
Pandas 多索引数据框删除行

我的多索引 DF 如下 tuples list zip a a b b c d c d index pd MultiIndex from tuples tuples names i1 i2 df pd DataFrame 5 6 7 8 i
如何使用 OpenCV 检测图像帧中的对象？

我正在使用 Raspberry Pi 开发一个漫游器它将清扫房间并捡起掉落在地上的物体为了检测物体我使用了在流动站操作开始时拍摄的参考图像以及每 10 秒单击一次的图像新图像为了确定图像帧是否发生变化我在参考图像和新图像之间进
您忽略了哪些 PEP 8 准则，哪些是您坚持的？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案多年来我编写的 Python 越多我就越发现自己同意大多数准则尽管我出于自己的原因始终有意地违反了一些准则我很想知道 PEP 8 也可能
如何让 list_blobs 表现得像 gsutil

我只想获得 GCS 上假文件夹结构的第一级如果我运行例如 gsutil ls gs gcp public data sentinel 2 tiles 我得到一个这样的列表 gs gcp public data sentinel 2 til
在 Python 中删除表达式树及其每个子表达式树中第一个元素周围的括号

目标是实现简化操作删除表达式树及其每个子表达式树中第一个元素周围的括号其中表达式作为括在各个括号中的字符串输入给出这必须适用于任意数量的括号例如 12 3 45 6 gt 123 45 6 删除 12 周围的括号然后删除 45 周
hashlib 和 urandom 哪个更随机？

我正在和一个朋友一起开发一个项目我们需要生成随机哈希在我们有时间讨论之前我们都提出了不同的方法并且因为他们使用不同的模块我想问你们大家什么会更好如果有这样的事情的话 hashlib sha1 str random random
Python：使用 FOR 循环插入字典

我已经在论坛中进行了搜索但不明白是否可以使用以下构造将新条目插入到我的 Python 字典中而不将其转换为列表 for x in range 3 pupils dictionary new key input Enter new key
Python Shutil.copy 如果我有重复文件，它会复制到新位置吗

我正在与shutil copypython 中的方法我找到了下面列出的定义 def copyFile src dest try shutil copy src dest eg src and dest are the same file
如何使用 Google Drive API 通过服务帐户访问域中的共享文件？

我一直在尝试从 Python 3 7 脚本访问有关 Google Shared Drive 文件的一些简单信息上次修改共享云端硬盘上的 Google 表格文件的时间我创建了一个服务帐户在 GCP Drive API 菜单中它可以通过
Django - 在启动时执行代码

我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目我想在项目启动时更新其中一个应用程序的表用例例如假设我想在我的网站上销售商品我有一个包含模型项目的应用程序我在 Django 之外有一个网络服务它提供服务 g
Seaborn 分组条形图，使用总值而不是平均值

我有一个关于如何组织数据以使用 seaborn 制作条形图的问题我的数据输入如下所示 influencer platform reach person a instagram 10000 person b instagram 5000 p
使用按钮从 Django 项目根下载文件

So this is the webpage I m creating atm with Django 1 8 希望用户能够将数据导出为 csv 当用户在框中写下 Reddit 子版块名称按下获取数据按钮会发生什么它创建了一个

随机推荐

将百分位数传递给 pandas agg 函数

我想通过 numpypercentile 通过pandas的功能agg 正如我下面对各种其他 numpy 统计函数所做的那样现在我有一个如下所示的数据框 AGGREGATE MY COLUMN A 10 A 12 B 5 B 9 A 84
找不到变量：URLSearchParams

在 React Native 中我想对 URLSearchParams 进行抽象所以我编写了这个类 export class HttpSearchParamsAdapter extends URLSearchParams impleme
与 data.frame 长度不等的字符向量列表

我有一个如下所示的命名列表 gt head pathways
如何在android中获取listview的高度？

我需要使用自定义 ListVAdapter 找到 android ListView 的高度每个 ListView 项目的高度都可以不同我尝试过在这里找到的以下代码 public static void setListViewHeight
C# assembly，朋友汇编

C 内部访问修饰符的定义是内部只能在包含程序集或友元程序集中访问所以我的问题是什么是 C 汇编位于包含程序集或友元程序集内意味着什么这是否意味着在同一名称空间或项目中程序集通常是单个 dll or exe file C 项目
如何在将数据存储到对象数组或包含对象数组的列表之前在java中按日期对数据进行排序[可以吗？有什么线索吗..？

我从文件 ID 公司名称和日期中获取三个不同的子字符串在检索时我需要将按日期值排序的值存储到对象中我已检索字符串并将其转换为我需要并存储的日期格式与其每次使用 sql 排序再次拉取不如尝试在插入之前存储按日期排序 class Re
Dockerfile“RUN chmod”未生效

其他一切都生效但权限没有改变我错过了什么吗 FROM joomla 3 9 php7 2 apache RUN apt get update apt get install y apt utils vim curl COPY jooml
如何实现加密的共享偏好设置

如何在我的 android java 应用程序中实现加密的共享首选项https developer android google cn reference androidx security crypto EncryptedSharedPr
即使支持，speechSynthesis 也无法在移动 Safari 上运行

我正在尝试使用speechSynthesis API 它适用于桌面浏览器和移动 Chrome 但不适用于移动 Safari const msg new SpeechSynthesisUtterance Hello World window
PyTorch LSTM：运行时错误：无效参数 0：张量的大小必须匹配，维度 0 除外。维度 1 为 1219 和 440

我有一个基本的 PyTorch LSTM import torch nn as nn import torch nn functional as F class BaselineLSTM nn Module def init self su
Java Enum 与 C++ 和其他传统 Enum 有何不同？

我们从 java 1 5 获得的枚举与 C 和其他传统枚举类型有何不同在 Java 中枚举是复杂的对象而在 C 中每个枚举对象都与单个整数值相关联在 java 中您可以将多个属性与单个枚举值关联 enum MyCategory
使用 AVAssetWriter 录制无缝音频

我正在尝试录制音频片段并重新组合它们而不产生音频间隙最终的目标是也有视频但我发现音频本身在与ffmpeg f concat i list txt c copy out mp4 如果我将音频放入 HLS 播放列表中也会有间隙所以我认
提交表单（jquery）并在彩盒中显示结果

我有一个想要提交的表单该表单正在发布到 php 脚本来处理表单数据我需要做的是点击提交后有一个彩色框弹出窗口其中包含 php 结果这可以做到吗这就是我一直在尝试的 buildForm click function buildFor
如何向 Rails 中的表追溯添加主键？

我创建了一个没有主键的表 id gt false 但现在它又回来了我的应用程序已经投入生产我不能只是放弃它并重新创建另一个应用程序有没有办法运行迁移以将另一个自动增量主键列添加到我的表中在迁移中添加主键的命令是 add column
如何使用 File#flock 发出非阻塞独占锁请求？

如何申请非阻塞锁为什么 Ruby 没有文件 flock http www ruby doc org core 2 0 File html method i flock当单独尝试锁定文件时是否按预期工作将文件锁定在块中并不是此问题的正确解
Rails：记录异常的整个堆栈跟踪

我一直在试图找出记录堆栈跟踪的正确方法我碰到this https stackoverflow com questions 228441 how do i log the entire trace back of a ruby except
iOS - 从代码和故事板推送 viewController

我有这个代码 PlaceViewController newView self storyboard instantiateViewControllerWithIdentifier PlaceView self presentViewCon
在 chrome/safari 中使用滚动高度调整 iframe 大小

我正在尝试根据 iframe 的内容调整其大小变大或变小单击每个页面后将调用一个方法来调整大小在 Chrome 中我可以使 iframe 更大但不能更小 document body scrollHeight 始终是最大值因此
为什么 perl2exe 抱怨“无法解析的符号：Perl_Gthr_key_ptr”？

在 Perl 中这个错误是什么意思 Unresolved symbol Perl Gthr key ptr 我在 HP UX PA RISC 计算机上使用 perl2exe 将 Perl 文件转换为二进制文件时遇到此错误 usr lib
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target

target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？ 的相关文章

随机推荐

热门标签

target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？的相关文章