Tensorflow：在CPU上的多个线程中加载数据

2024-01-14

我有一个 python 课程SceneGenerator它有多个用于预处理的成员函数和一个生成器函数generate_data()。基本结构是这样的：

class SceneGenerator(object):
    def __init__(self):
       # some inits

    def generate_data(self):
        """
        Generator. Yield data X and labels y after some preprocessing
        """
        while True:
            # opening files, selecting data
            X,y = self.preprocess(some_params, filenames, ...)            

            yield X, y

我使用keras model.fit_generator()函数中的类成员函数sceneGenerator.generate_data()从磁盘读取数据，对其进行预处理并产生它。在 keras 中，这是在多个 CPU 线程上完成的，如果workers的参数model.fit_generator()设置为 > 1。

我现在想用同样的SceneGenerator张量流中的类。我目前的做法是这样的：

sceneGenerator = SceneGenerator(some_params)
for X, y in sceneGenerator.generate_data():

    feed_dict = {ops['data']: X,
                 ops['labels']: y,
                 ops['is_training_pl']: True
                 }
    summary, step, _, loss, prediction = sess.run([optimization_op, loss_op, pred_op],
                                                  feed_dict=feed_dict)

然而，这很慢并且不使用多线程。我找到了tf.data.Dataset https://www.tensorflow.org/versions/master/api_docs/python/tf/data/Datasetapi 与一些文档 https://www.tensorflow.org/versions/master/programmers_guide/datasets，但我未能实现这些方法。

Edit:请注意，我不处理图像，因此带有文件路径等的图像加载机制在这里不起作用。我的SceneGenerator从 hdf5 文件加载数据。但不是完整的数据集，而是 - 根据初始化参数 - 仅数据集的一部分。我很想保持生成器功能不变，并了解如何将该生成器直接用作张量流的输入并在 CPU 上的多个线程上运行。将 hdf5 文件中的数据重写为 csv 并不是一个好的选择，因为它会重复大量数据。

Edit 2:：我认为类似的东西可能会有所帮助：并行化 tf.data.Dataset.from_generator https://stackoverflow.com/questions/47086599/parallelising-tf-data-dataset-from-generator

假设您使用的是最新的 Tensorflow（撰写本文时为 1.4），您可以保留生成器并使用tf.data.* https://www.tensorflow.org/api_docs/python/tf/dataAPI如下（我为线程数、预取缓冲区大小、批量大小和输出数据类型选择任意值）：

NUM_THREADS = 5
sceneGen = SceneGenerator()
dataset = tf.data.Dataset.from_generator(sceneGen.generate_data, output_types=(tf.float32, tf.int32))
dataset = dataset.map(lambda x,y : (x,y), num_parallel_calls=NUM_THREADS).prefetch(buffer_size=1000)
dataset = dataset.batch(42)
X, y = dataset.make_one_shot_iterator().get_next()

为了表明它实际上是从生成器中提取的多个线程，我修改了您的类，如下所示：

import threading    
class SceneGenerator(object):
  def __init__(self):
    # some inits
    pass

  def generate_data(self):
    """
    Generator. Yield data X and labels y after some preprocessing
    """
    while True:
      # opening files, selecting data
      X,y = threading.get_ident(), 2 #self.preprocess(some_params, filenames, ...)            
      yield X, y

这样，创建一个 Tensorflow 会话并获取一批即可显示获取数据的线程的线程 ID。在我的电脑上，运行：

sess = tf.Session()
print(sess.run([X, y]))

prints

[array([  8460.,   8460.,   8460.,  15912.,  16200.,  16200.,   8460.,
         15912.,  16200.,   8460.,  15912.,  16200.,  16200.,   8460.,
         15912.,  15912.,   8460.,   8460.,   6552.,  15912.,  15912.,
          8460.,   8460.,  15912.,   9956.,  16200.,   9956.,  16200.,
         15912.,  15912.,   9956.,  16200.,  15912.,  16200.,  16200.,
         16200.,   6552.,  16200.,  16200.,   9956.,   6552.,   6552.], dtype=float32),
 array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])]

Note：您可能想尝试删除map调用（我们仅用于多线程）并检查是否prefetch的缓冲区足以消除输入管道中的瓶颈（即使只有一个线程，输入预处理通常比实际图形执行速度更快，因此缓冲区足以使预处理尽可能快地进行）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow：在CPU上的多个线程中加载数据的相关文章

尝试写一个无锁的单链表，麻烦去除

我正在尝试编写一个无锁单链表最终一致性不是问题有人遍历可能包含不正确项目的列表我认为我正确添加了项目循环和Interlocked CompareExchange 但我不知道如何删除节点列表中的任何位置因为我必须获取前一个项目并设
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
在 Python 中使用 sec 函数的反函数

我正在创建一个程序用于计算从一定高度范围和设定初始速度发射射弹的最佳角度在我需要使用的最终方程中存在一个反 sec 函数它导致了一些麻烦我已经导入了数学并尝试使用 asec 无论如何但是数学似乎无法计算反秒函数我也明白 sec
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
如何使用 openpyxl 对工作簿中的 Excel 工作表/选项卡进行排序

我需要按字母数字对工作簿中的选项卡工作表进行排序我在用openpyxl https openpyxl readthedocs io en default 操作工作表您可以尝试排序workbook sheets list workboo
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
多线程——更快的方法？

我有一堂有吸气剂的课程getInt 和一个二传手setInt 在某个领域比如说领域 Integer Int 一个类的一个对象比如说SomeClass The setInt 这里是同步的 getInt isn t 我正在更新的值Int来自
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
从BackgroundWorker线程更新图像UI属性

在我正在编写的 WPF 应用程序中我有一个 TransformedBitmap 属性该属性绑定到 UI 上的 Image 对象每当我更改此属性时图像就会更新因此显示在屏幕上的图像也会更新为了防止在检索下一张图像时 UI 冻结或变
在pycharm中调试python代码

这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一我正在尝试调试pyethapp https
WindowsError：[错误 5] 访问被拒绝

我一直在尝试终止一个进程但我的所有选项都给出了 Windows 访问被拒绝错误我通过以下方式打开进程一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
如何在SqlAlchemy中执行“左外连接”

我需要执行这个查询 select field11 field12 from Table 1 t1 left outer join Table 2 t2 ON t2 tbl1 id t1 tbl1 id where t2 tbl2 id is

随机推荐

Linux 点阵打印机上的 Java 打印质量

我需要将报告从 Java 桌面应用程序打印到点阵打印机 Epson LX 300 II 报告由文本和一些图形组成打印机通过 USB 连接我使用 CUPS 进行打印我正在使用 Printable 接口 Java 中相当标准进行打印我
尝试在 JFrame 中显示 URL 图像

尝试在 JFrame 窗口中显示 URL 图像如果工作正常当程序运行时应该打开一个窗口显示图像尝试尝试 URL 和硬盘路径 import java awt image BufferedImage import java io IOE
MVC6 Cors - 拦截飞行前

我正在将 WebApi 升级到 MVC6 在 WebApi 中我可以拦截每个 HTTP 请求如果是预检我可以使用浏览器可接受的标头进行响应我试图弄清楚如何在 MVC6 WebApi 中做同样的事情这是 WebApi 代码 prot
似乎无法在 text() 和 textfield() 之间使用 Spacer()

当我在 HStack 中并尝试在 Text 和 Textfield 视图之间创建空间时我似乎无法使用 Spacer 函数间隔器用于间隔视图的其他区域但每当我尝试在这两个元素之间间隔时它就不起作用这是我正在使用的代码 VStack
Kendo UI MVC 4：窗口内的表单验证不会触发

使用 ASP NET MVC 4 我声明了一个窗口其中通过 LoadContentFrom 加载了内部内容表单 Html Kendo Window Name windowAttachClient Title Attach Client
d3.json() 回调中的代码未执行

我正在尝试加载 GeoJSON 文件并使用它作为 D3 的基础来绘制一些图形v5 问题是浏览器跳过了包含在d3 json 称呼我尝试插入断点来测试但浏览器会跳过它们我不明白为什么下面的代码片段 d3 json trip animat
EF5 Code First - 数据注释与 Fluent API [重复]

这个问题在这里已经有答案了我是实体框架新手即将开始使用 EF5 Code First 的新 ASP NET MVC 项目据我了解您可以对域模型对象中的属性使用数据注释也可以使用 Fluent API 来定义属性数据类型创建对象时
将 CSS 样式应用于 DIV 内的所有元素

我想将 CSS 文件应用到页面中的具体 DIV 这是页面结构 div div all the elements here must follow a concrete CSS rules div 我尝试应用 CSS 文件的规则进行编辑 CS
Vim 输入不是来自终端[重复]

这个问题在这里已经有答案了 which django admin py vim Vim Warning Input is not from a terminal Vim Error reading input exiting Vim Fin
如何解决Java舍入双精度问题[重复]

这个问题在这里已经有答案了似乎减法引发了某种问题并且结果值是错误的 double tempCommission targetPremium doubleValue rate doubleValue 100d 78 75 787 5 10
PHP 错误处理

提前谢谢大家了我目前正在调整改进我为公司从头开始编写的 MVC 框架它相对较新因此肯定是不完整的我需要将错误处理合并到框架中一切都应该能够访问错误处理并且它应该能够处理不同类型和级别的错误用户错误和框架错误我的问题是做到这
有没有一种很好的方法来增加可选的 Int 值？

我想增加一个Int 目前我已经写了这个 return index nil index 1 nil 有没有更漂亮的方法来写这个您可以致电advanced by 函数使用可选链接 return index advancedBy 1 Note
计算，用逗号替换点

我有一个订单表格我在其中使用 jQuery 计算插件来总结总数这种求和工作正常但生成的总和存在问题总之我希望用逗号替换任何点该代码的基础是 function this var sum this sum totaal html
使用 vbscript 进行进程间通信

我需要将数据从一个进程发送到另一个进程限制条件发送方进程是非常昂贵的调用需要使用 vbscipt 来完成对于Sender进程来说这个数据传输是一项额外的工作它应该不会受到这个特性的太大影响 4 5 分钟内发送方进程中大约有 1
数据未转换 Node.js 转换流

我正在尝试创建一个从以下位置获取数据的转换流socket io 将其转换为 JSON 然后将其发送到 stdout 我完全困惑为什么数据似乎没有任何转换就直接通过我正在使用through2图书馆这是我的代码 getStreamNames
访问没有字符的字符串的第一个字符

我正在用 C 实现后缀特里树实施Trie构造函数如下所示 include
npm 错误！代码 ELIFECYCLE（起始问题）

感谢您阅读本文并帮助解决该问题我正在尝试在 Windows 计算机上运行 nodejs 并在安装 expo cli 后启动 expo 客户端最初它工作正常除了实时刷新或任何其他刷新不起作用所以我尝试再次删除卸载重新安装nodej
救援 CSV::MalformedCsvError：第 n 行中的非法引用

在尝试解析数组 AR 模型导入等时出现有问题的 CSV 文件似乎是一个常见问题除了在 MS Excel 中打开之外我还没有找到可行的解决方案save as每天还不够好在外部提供的 60 000 行每日更新的 csv 文件中存在
喷雾罐 NoClassDefFoundError

我是喷雾新手我无法让它工作我的构建 sbt val apacheDeps Seq commons validator commons validator 1 4 1 val sprayAndAkkaDeps val sprayV 1 3
Tensorflow：在CPU上的多个线程中加载数据

我有一个 python 课程SceneGenerator它有多个用于预处理的成员函数和一个生成器函数generate data 基本结构是这样的 class SceneGenerator object def init self some

Tensorflow：在CPU上的多个线程中加载数据

Tensorflow：在CPU上的多个线程中加载数据 的相关文章

随机推荐

热门标签

Tensorflow：在CPU上的多个线程中加载数据的相关文章