批处理、重复和洗牌对 TensorFlow 数据集有什么作用？

2024-03-22

我目前正在学习 TensorFlow，但我在下面的代码片段中遇到了困惑：

dataset = dataset.shuffle(buffer_size = 10 * batch_size) 
dataset = dataset.repeat(num_epochs).batch(batch_size)
return dataset.make_one_shot_iterator().get_next()

我知道首先数据集将保存所有数据，但是什么shuffle(),repeat(), and batch()对数据集做什么？请帮我举个例子和解释。

Update: Here https://colab.research.google.com/drive/1VS6-dYk3YAzoRmALhgTK7bb2_tBPrB4c?usp=sharing是一个小型协作笔记本，用于演示这个答案。

想象一下，您有一个数据集：[1, 2, 3, 4, 5, 6], then:

ds.shuffle() 的工作原理

dataset.shuffle(buffer_size=3)将分配一个大小为 3 的缓冲区来选择随机条目。该缓冲区将连接到源数据集。我们可以这样想象：

Random buffer
   |
   |   Source dataset where all other elements live
   |         |
   ↓         ↓
[1,2,3] <= [4,5,6]

我们假设该条目2是从随机缓冲区中取出的。可用空间由源缓冲区中的下一个元素填充，即4:

2 <= [1,3,4] <= [5,6]

我们继续阅读，直到什么都没有剩下：

1 <= [3,4,5] <= [6]
5 <= [3,4,6] <= []
3 <= [4,6]   <= []
6 <= [4]     <= []
4 <= []      <= []

ds.repeat() 的工作原理

一旦从数据集中读取了所有条目并且您尝试读取下一个元素，数据集就会抛出错误。那就是那里ds.repeat()发挥作用。它将重新初始化数据集，使其再次如下所示：

[1,2,3] <= [4,5,6]

ds.batch() 会产生什么

The ds.batch()将采取第一个batch_size条目并从中制作一批。因此，我们的示例数据集的批量大小为 3 将生成两个批量记录：

[2,1,5]
[3,6,4]

因为我们有一个ds.repeat()在批量之前，数据的生成将继续。但元素的顺序会有所不同，因为ds.random()。应该考虑的是6由于随机缓冲区的大小，永远不会出现在第一批中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

Dataset

批处理、重复和洗牌对 TensorFlow 数据集有什么作用？的相关文章

如何在 Tensorflow 2.0 中使用嵌入投影仪

随着 tf contrib 模块从 Tensorflow 中消失并且 tf train Saver 也消失我无法找到一种方法来存储一组嵌入及其相应的缩略图以便 Tensorboard Projector 可以读取它们 The 张量板文
tf.sign 如何与反向传播一起工作？

我从 TensorFlow 开始尝试创建一个二进制网络更具体地说我正在寻找一个哈希网络它将图像编码为大小为 n 的二进制向量所以我有一个经典的网络我对softmax之前的最后一层进行二值化 TensorFlow 提供了一个tf
tensorflow conv2d偶数步长和奇数步长之间的不同起始索引

据我了解从tf nn conv2d 文档 https www tensorflow org api docs python tf nn conv2d对于相同的卷积无论步幅如何第一个点积应以 0 0 为中心正如您在下面看到的当步幅为奇
键盘中断张量流运行并在此时保存

有没有办法通过键盘中断来中断张量流会话并可以选择在此时保存模型我目前让会话运行过夜但需要停止它以便我可以释放内存供电脑在白天使用随着训练的进行每个时期都会变慢因此有时我可能需要等待几个小时才能进行程序中的下一个计划保存我想要
如何在C++中的cudaDeviceReset()之后重用tensorflow？

我正在使用 C 开发一个大型 CUDA 应用程序该应用程序运行各种模型需要完全释放所有 GPU 内存否则其他操作将失败我能够在关闭所有 tf 会话并运行 cudaDeviceReset 后释放所有内存但之后我无法运行任何新的张量流
如何在 Automapper 中使用数据集？

我目前使用数据读取器作为源但我想改用数据集 datareader AutoMapper Mapper CreateMap
如何在网络工作者中运行handpose tfjs模型

我想使用网络摄像头获取帧并运行张量流模型 handpose 来估计手部可见度众所周知手势模型有点慢所以我尝试将估计转移到网络工作人员问题是HTMLVideoElement object could not be cloned 我需要
TensorFlow Lite 量化无法改善推理延迟

TensorFlow 网站声称量化可将移动设备上的延迟降低多达 3 倍 https www tensorflow org lite performance post training quantization https www tenso
如何在 Tensorflow 上测试自己的图像到 Cifar-10 教程？

我训练了 Tensorflow Cifar10 模型我想为其提供自己的单个图像 32 32 jpg png 我想将标签和每个标签的概率视为输出但我对此遇到了一些麻烦搜索堆栈溢出后我发现了一些帖子this https stackove
如何在运行 Tensorflow 推理会话之前批处理多个视频帧

我做了一个项目基本上使用谷歌对象检测 API 和张量流我所做的就是使用预先训练的模型进行推理这意味着实时对象检测其中输入是网络摄像头的视频流或使用 OpenCV 的类似内容现在我得到了相当不错的性能结果但我想进一步提高 FPS
在Tensorflow中，sampled_softmax_loss和softmax_cross_entropy_with_logits有什么区别

在张量流中有一些方法称为softmax cross entropy with logits https www tensorflow org versions master api docs python tf nn softmax cr
ASP.NET 数据集与业务对象/ORM

我正在考虑 ASP NET 应用程序的数据访问来自一家使用大量带有客户端数据集的 Windows 应用程序的公司自然而然地倾向于使用数据集方法来处理数据我更热衷于业务对象方法并且不喜欢在会话中缓存数据集然后应用更新的想法有谁有任何
TensorFlow：张量不是该图的元素

file for inputing the data for testing from scipy import ndimage image file test png image data ndimage imread image fil
使用 load_model 加载经过训练的tensorflow.keras模型会返回JSON解码错误，而未经训练的模型加载正常

我有一个训练有素的 Keras 模型使用 tensorflow keras API 构建和训练并使用tf keras save model 没有可选参数的方法 Tensorflow 是最新的我的 Python 版本是 3 8 根据我的
导入错误：无法导入名称“transpose_shape”

我正在学习 Coursera Andrew Ng 的深度学习课程使用 YOLO 算法进行对象检测我尝试使用 Windows 和 Anaconda Navigator 在我的 PC 上运行该算法我安装了 Keras 以在 TensorF
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
在 jupyter 中找不到 Tensorboard 作为魔法函数

我想使用最新的tensorflow 2 0 0a0在jupyter中运行tensorboard 使用tensorboard版本1 13 1和python 3 6 using tensorboard logdir logs base dir
tensorflow SavedModel - 如何迭代保存

我正在采用新的SavedModel据我所知 API 是未来应该优先于tf train Saver 我想要实现的目标是每次保存一个模型N批次数我想最多保留 20 个已保存的模型显然我可以自己监控这一点但如果tf train Save
分布式张量流中的并行进程

我有带有训练参数的张量流神经网络它是代理的策略网络正在核心程序的主张量流会话的训练循环中进行更新在每个训练周期结束时我需要将该网络传递给几个并行进程工作人员这些进程将使用它来从代理策略与环境的交互中收集样本我需要并行执行因
如何将“实例键”添加到 keras 模型输入以在 gcloud ai-platform 中进行批量预测？

我正在尝试添加键以匹配 Google AI Platform 的批量预测输出但是我的模型输入只允许一个输入看起来像这样 input tf keras layers Input shape max len x tf keras lay

随机推荐

更改 SQL Server 中的用户定义类型

我在数据库中创建了一些用户定义的类型如下所示 CREATE TYPE dbo StringID FROM nvarchar 20 NOT NULL 并将它们分配到不同的表中我的数据库中的表具有各种模式不仅dbo 但我意识到我需要更大的
使用jquery打开文件浏览器

我有以下代码 p Select a file p
使用 NavigationLink 将信息传递到另一个视图

我有以下视图我需要通过item内容到另一个视图 DetailsEvent swift 我正在使用NavigationLink 我使用的是 Xcode 11 GM struct Events View ObservedObject var
HDFS如何计算可用块？

假设块大小为 128MB 则集群有 10GB 因此大约 80 个可用块假设我创建了 10 个小文件这些文件总共占用磁盘上 128MB 块文件校验和复制和 10 个 HDFS 块如果我想向HDFS添加另一个小文件那么HDFS使用
谷歌地图API可以进行语音导航吗？

如何使用 google 地图 api v3 激活基于语音的方向我已经实现了给出从起点到终点的方向的地图但现在我想听听我当前所在位置的名称请帮忙我在 ios UIWebView 中实现了它所以我从 GPS 获取当前位置现在我每 2
JavaScript - for循环问题中变量递增

我试图创建一个 for 循环递增数字 1 4 并打印它们但是当我在循环后打印 i 的值时我的代码输出 5 for i 1 i lt 5 i document write i br Outputs numbers 1 4 documen
Kinect 1.8 颜色帧和深度帧不协调

我的程序存在深度和彩色图像之间协调不佳的问题玩家面具与人物不在同一位置见下图 void AllFreamReady object sender AllFramesReadyEventArgs e using ColorImageFram
等待 5 秒再执行下一行

下面这个函数并没有像我想要的那样工作作为一个 JS 新手我不明白为什么我需要它等待 5 秒钟然后再检查是否newState is 1 目前它不会等待而是立即检查 function stateChange newState set
将 zip 文件导入为库 - Eclipse Java

我在导入 google http 库时陷入困境我在链接中做了一些研究例如 Eclipse Java 如何导入 zip 格式的库 https stackoverflow com questions 14375810 eclipse jav
将 Java 对象转换为 Java Map

我在用org eclipse jetty util ajax JSON解析 JSON 文本但是JSON parse 字符串方法生成一个对象我需要它作为映射在内部它正是所提到的类的对象但是如何在不构造新对象或收到未经检查的转换警
如何配置 Webpack 开发服务器来为特定文件夹提供服务，同时通过不同的服务器运行站点的其余部分？

一些简单的背景知识我公司的站点运行 CMS 并由 CMS 处理所有路由没有 html 文件只有 razor 文件 cshtml 虽然我更愿意从头开始重做网站但这不是一个选择因此我尝试通过将 vue js 与 webpack 开发工
gcc *有时*以一种奇怪的方式解决重载歧义

在回答之前这不是一个关于如何让这段代码做我想做的事情的问题我已经知道该怎么做参见这个问题的结尾这是一个关于理解编译器为什么要做它所做的事情的问题请考虑以下简化的代码 include
Javascript：带有尾随字符的 parseInt()

parseInt 7em 10 回报7在我测试过的所有浏览器中但我可以依靠这个吗我问的原因是我想根据 em 执行一些计算例如 elem1 style top uses em units elem2 style top parseIn
什么是“准实施”？

有时在搜索会员的推荐信时我会收到此弹出窗口这通常需要很长时间所以我倾向于取消但我想知道我错过了什么什么是准实施根据resharper 支持的这个答案 https resharper support jetbrains co
读取 RDS AWS 中的副本

我是亚马逊 RDS 的新手我已经在RDS中设置了一个数据库实例我想尝试 RDS 只读副本功能我有几个疑问只读副本适合什么样的应用只读副本将数据同步还是异步复制到其他只读副本它是多可用区部署的替代品吗与MYSQL中的主从或主主复
Javascript 中的 try-catch 语句可以捕获哪些类型的错误？

如果我写 try null foobar catch e alert e 没有任何警报但ReferenceError已登录到控制台然而 try barfoo foobar catch e alert e 显示带有以下内容的警报Refer
如何从Windows任务管理器检测程序java强制关闭？

如果我问了这样一个菜鸟问题冒犯了某人大家很抱歉因为我看到有人因不恰当而标记了问题这是我第一次在这里提问所以如果有什么不合适的地方请原谅我如果我的英语不是很好请原谅当我的程序通过任务管理器关闭时我试图创建一个临时文件但我
将大型数据集加载到 R 中的最快方法和最快格式是什么[重复]

这个问题在这里已经有答案了我有一个很大的数据集未压缩时大约 13GB 我需要重复加载它第一次加载并保存为不同的格式可能非常慢但此后的每次加载都应该尽可能快加载数据集的最快方式和最快格式是什么我怀疑最佳选择是这样的 saveR
Yang 的 XPath current()

这是我的后续问题Yang 中的 Xpath current https stackoverflow com questions 55888566 xpath current in yang经过前面的讨论我为 libxml2 实现了一个自定
批处理、重复和洗牌对 TensorFlow 数据集有什么作用？

我目前正在学习 TensorFlow 但我在下面的代码片段中遇到了困惑 dataset dataset shuffle buffer size 10 batch size dataset dataset repeat num epochs

批处理、重复和洗牌对 TensorFlow 数据集有什么作用？

批处理、重复和洗牌对 TensorFlow 数据集有什么作用？ 的相关文章

随机推荐

热门标签

批处理、重复和洗牌对 TensorFlow 数据集有什么作用？的相关文章