如何从 tfrecords 目录创建 tf.data.dataset？

2023-12-08

我的数据集有不同的目录，每个目录对应一个类。每个目录中有不同数量的 .tfrecord。我的问题是如何从每个目录中采样 5 个图像（每个 .tfrecord 文件对应一个图像）？我的另一个问题是如何对其中 5 个目录进行采样，然后从每个目录中采样 5 个图像。

我只想用 tf.data.dataset 来做。所以我想要一个数据集，从中获得一个迭代器，并且 iterator.next() 为我提供了一批 25 个图像，其中包含来自 5 个类的 5 个样本。

EDIT:如果类的数量大于5，那么你可以使用新的tf.contrib.data.sample_from_datasets()API（当前可用tf-nightly并将在 TensorFlow 1.9 中提供）。

directories = ["class_0/*", "class_1/*", "class_2/*", "class_3/*", ...]

CLASSES_PER_BATCH = 5
EXAMPLES_PER_CLASS_PER_BATCH = 5
BATCH_SIZE = CLASSES_PER_BATCH * EXAMPLES_PER_CLASS_PER_BATCH
NUM_CLASSES = len(directories)


# Build one dataset per class.
per_class_datasets = [
    tf.data.TFRecordDataset(tf.data.Dataset.list_files(d)) for d in directories]

# Next, build a dataset where each element is a vector of 5 classes to be chosen
# for a particular batch.
classes_per_batch_dataset = tf.contrib.data.Counter().map(
    lambda _: tf.random_shuffle(tf.range(NUM_CLASSES))[:CLASSES_PER_BATCH]))

# Transform the dataset of per-batch class vectors into a dataset with one
# one-hot element per example (i.e. 25 examples per batch).
class_dataset = classes_per_batch_dataset.flat_map(
    lambda classes: tf.data.Dataset.from_tensor_slices(
        tf.one_hot(classes, num_classes)).repeat(EXAMPLES_PER_CLASS_PER_BATCH))

# Use `tf.contrib.data.sample_from_datasets()` to select an example from the
# appropriate dataset in `per_class_datasets`.
example_dataset = tf.contrib.data.sample_from_datasets(per_class_datasets,
                                 class_dataset)

# Finally, combine 25 consecutive examples into a batch.
result = example_dataset.batch(BATCH_SIZE)

如果您正好有 5 个类，则可以为每个目录定义一个嵌套数据集并使用Dataset.interleave():

# NOTE: We're assuming that the 0th directory contains elements from class 0, etc.
directories = ["class_0/*", "class_1/*", "class_2/*", "class_3/*", "class_4/*"]
directories = tf.data.Dataset.from_tensor_slices(directories)
directories = directories.apply(tf.contrib.data.enumerate_dataset())    

# Define a function that maps each (class, directory) pair to the (shuffled)
# records in those files.
def per_directory_dataset(class_label, directory_glob):
  files = tf.data.Dataset.list_files(directory_glob, shuffle=True)
  records = tf.data.TFRecordDataset(records)
  # Zip the records with their class. 
  # NOTE: This part might not be necessary if the records contain information about
  # their class that can be parsed from them.
  return tf.data.Dataset.zip(
      (records, tf.data.Dataset.from_tensors(class_label).repeat(None)))

# NOTE: The `cycle_length` and `block_length` here aren't strictly necessary,
# because the batch size is exactly `number of classes * images per class`.
# However, these arguments may be useful if you want to decouple these numbers.
merged_records = directories.interleave(per_directory_dataset,
                                        cycle_length=5, block_length=5)
merged_records = merged_records.batch(25)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

tensorflowdatasets

如何从 tfrecords 目录创建 tf.data.dataset？的相关文章

从tensorflow_cc和tensorflow_framework生成静态库

据我了解使用 bazel 我只能生产libtensorflow cc so and libtensorflow framework so 我需要生产静态库与位置无关 fPIC 因为稍后我会将它们链接到我自己的动态库 I found 这个答
如何在google colab中降级到tensorflow-gpu版本1.12

我正在运行一个仅与旧版本的tensorflow GPU兼容的GAN 因此我需要将google colab中的tensorflow gpu从1 15降级到1 12 我尝试使用本中建议的以下命令thread https stackoverflo
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 Tensorflow 对象检测 API 中绘制验证损失

我正在使用 Tensorflow 对象检测 API 来检测和定位图像中的一类对象为了这些目的我使用预先训练的faster rcnn resnet50 coco 2018 01 28 model 我想在训练模型后检测拟合不足过度拟合我
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
pip：需要将包名称tensorflow-gpu更改为tensorflow

我正在尝试将具有 GPU 支持的张量流安装到 conda 环境中我使用命令 pip install ignore installed upgrade https storage googleapis com tensorflow linu
无法获取未知等级的 Shape 长度

我有一个神经网络来自tf data数据生成器和tf keras模型如下简化版本因为太长 dataset A tf data Dataset反对与next x方法调用get next为了x train迭代器和next y方法调用get
Tensorflow 中的图像叠加图像卷积

假设我有两组图像 A 和 B 每个图像都是 11X5x5x3 其中 11 是示例数量 5x5x3 是图像尺寸 Tensorflow 中是否有一种简单的方法可以对 A i 中的每个图像应用 B i 上的卷积即 B i 扮演过滤器角色 A i
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
TensorFlow HVX 加速支持

我成功构建并运行了测试应用程序https github com tensorflow tensorflow tree master tensorflow contrib hvx https github com tensorflow ten
为什么我的结果仍然无法重现？

我想要为 CNN 获得可重复的结果我使用带有 GPU 的 Keras 和 Google Colab 除了建议插入某些代码片段这应该允许再现性之外我还在层中添加了种子 This is the first code snipped to
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
精度类型

使用 keras 库获得的精度如下 model compile optimizer sgd loss mse metrics tf keras metrics Precision sklearn 计算出的哪种精度与 keras 计算出的精度
AttributeError：模块“tensorflow.python.summary.summary”没有属性“FileWriter”

我收到此错误尽管我到处都看过file writer tf summary FileWriter path to logs sess graph 被提到为正确的实施this https github com tensorflow tenso
MultiHeadAttention Attention_mask [Keras、Tensorflow] 示例

我正在努力掩盖 MultiHeadAttention 层的输入我正在使用 Keras 文档中的 Transformer Block 进行自我关注到目前为止我在网上找不到任何示例代码如果有人能给我一个代码片段我将不胜感激变压器块来
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
TensorFlow 2.0：在自定义训练循环中显示进度条

我正在为音频分类任务训练 CNN 并且使用带有自定义训练循环的 TensorFlow 2 0 RC 如中所述本指南 https www tensorflow org beta guide keras training and evaluat
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L

随机推荐

在网页中嵌入 Windows 窗体用户控件的步骤

我正在 Visual Studio 2005 中开发一个 Windows 窗体用户控件它是一个文件上传控件仅使用 2 个元素显示 openfiledialog 的按钮打开文件对话框我已经在 html 页面中添加了一个带有类 id
Hibernate EntityManager.merge() 不更新数据库

我有一个使用 Hibernate 的 Spring MVC Web 应用程序我的问题是em merge拨打电话后没有回复这是我的控制器 RequestMapping value updDep method RequestMethod P
从 Mysql DB 填充 JFreechart TimeSeriesCollection？

我正在尝试在我的应用程序中制作一个图表该图表可以返回几个月内各天的温度该图表是 JFreechart TimeSeriesCollection 我无法让该图表从数据库读取正确的数据它显示了一些值但不是全部并且不显示正确的时间为了
为什么 gc() 不释放内存？

我在一个上运行模拟Windows 64 位计算机 with 64 GB 内存内存使用达到55 完成模拟运行后我通过以下方式删除工作空间中的所有对象rm list ls 后面跟着一个double gc 我认为这将为下一次模拟运行释放足够的
如何使用特定网络接口（或特定源 IP 地址）进行 Ping？

根据这个链接使用 System Net NetworkInformation 有没有办法将 ping 绑定到特定接口 ICMP 不能绑定到网络接口与基于套接字的东西不同 ICMP 不是基于套接字的 ping 将根据路由表发送到适当的端口
列表视图滚动不平滑

我有一个自定义列表视图显示用户和照片我从 API 检索数据它提供 JSON 输出我的问题是列表视图滚动不顺畅它挂起一秒钟并滚动它重复相同的操作直到我们到达末尾我认为这可能是因为我正在 UI 线程上运行与网络相关的操作但即使在
实体框架能否在保存时自动将日期时间字段转换为 UTC？

我正在使用 ASP NET MVC 5 编写一个应用程序我要存储在数据库中的所有日期时间必须首先从本地时区转换为 UTC 时区我不确定在请求周期内最好的地方在哪里我可以在控制器中通过 ViewModel 规则后将每个字段转换为 UTC
JS 中的猜数字游戏

我想创建一个数字游戏用户输入 1 100 之间的数字脚本将尝试猜测 10 次用户的输入如果猜对的数字在 10 以内则用户获胜否则用户获胜到目前为止我让它正常工作除了我在尝试让它显示游戏结束时的猜测数量时遇到问题例如如果进
如何使用模型/视图/控制器方法制作 GUI？

我需要理解模型视图控制器方法背后的概念以及如何以这种方式编写 GUI 这只是一个非常基本简单的 GUI 有人可以向我解释如何使用 MVC 重写这段代码吗 from tkinter import class Application Fr
使用 Button Jupyter Notebook 终止循环？

我想要从串口读取无限循环当按下 STOP 按钮时 gt 停止读取并绘制数据 From 如何通过按键终止 while 循环我以使用键盘中断为例这有效但我想使用一个按钮键盘中断示例 weights times open port
将 ACE 与 WT 结合使用

UPDATE 3最终工作代码如下您需要 src 文件夹中的 ace js 它无法从库中运行您需要从他们的站点获得预打包版本 WText editor new WText root editor gt setText function n
在 Kubernetes Python 客户端中使用 create_namespaced_secret API

我必须创建一个像这样的秘密但是使用Python kubectl create secret generic mysecret n mynamespace from literal etcdpasswd echo n PASSWORD ba
为什么我的坐标区对象的 ButtonDownFcn 回调在绘制某些内容后停止工作？

我正在图中创建一组轴并为其分配回调 ButtonDownFcn 像这样的财产 HRaxes axes Parent Figure Position 05 60 9 35 XLimMode manual ButtonDownFcn HR Bu
在 unicode 中填充“o”字符或通过 CSS 模仿

我需要用 HTML 编写此文本我尝试使用一些 unicode 字符例如Unicode字符集黑圈 U 25CF or Unicode字符集黑色大圆圈 U 2B24 但它们需要一些样式即尺寸与实际尺寸不同 o 并且在某些系统和字体上显
如何更改 stackplot、matplotlib 的调色板？

我希望更改 stackplot 的调色板使大区域具有浅色较小区域具有明亮颜色 import numpy as np import pandas as pd import matplotlib pyplot as plt import s
循环总结大于 R 中主题的观察结果

我有一个看起来像这样的数据集 set seed 100 da lt data frame exp c rep A 4 rep B 4 diam runif 8 10 30 对于数据集中的每一行我想总结大于特定行中的直径并包含在级别 exp
如何在空手道中使用特定于环境的测试数据

我想知道在各种环境中执行测试时如何在运行时使用不同的数据集我已阅读文档但无法找到针对这种情况的最佳解决方案要求在 QA 环境中执行测试然后在 SIT 中执行相同的测试但是在请求中使用不同的数据例如 customerIds 这
如何在AngularJS中渲染之前编译过滤器的结果

我有一个网络应用程序用户可以在其中输入富文本内容 tinymce 并可能输入超链接在我的角度应用程序中我使用 ng bind html unsafe 在 div 中渲染它以保留所有格式我想将 ng click 附加到该内容中的任
哪个事件被触发？（javascript，输入字段历史记录）

我有一个空的文本字段但是当您单击它时它会显示以前输入的一些建议如果我用鼠标选择其中一个 JavaScript 事件会触发哪个 JavaScript 事件我正在使用 jquery 1 6 2 来绑定侦听器 view textRegi
如何从 tfrecords 目录创建 tf.data.dataset？

我的数据集有不同的目录每个目录对应一个类每个目录中有不同数量的 tfrecord 我的问题是如何从每个目录中采样 5 个图像每个 tfrecord 文件对应一个图像我的另一个问题是如何对其中 5 个目录进行采样然后从每个目录中采样

如何从 tfrecords 目录创建 tf.data.dataset？

如何从 tfrecords 目录创建 tf.data.dataset？ 的相关文章

随机推荐

热门标签

如何从 tfrecords 目录创建 tf.data.dataset？的相关文章