是否可以使用多处理对一个 h5py 文件进行并行读取？

2024-04-16

我正在尝试加快从 h5py 数据集文件中读取块（将它们加载到 RAM 内存中）的过程。现在我尝试通过多处理库来做到这一点。

pool = mp.Pool(NUM_PROCESSES)
gen = pool.imap(loader, indices)

加载器函数是这样的：

def loader(indices):
    with h5py.File("location", 'r') as dataset:
        x = dataset["name"][indices]

这实际上有时是有效的（意味着预期加载时间除以进程数，从而实现并行化）。然而，大多数时候情况并非如此，加载时间只是保持与顺序加载数据时一样长。我能做些什么来解决这个问题吗？我知道 h5py 通过 mpi4py 支持并行读/写，但我只想知道这对于只读是否也是绝对必要的。

h5py 可以并行读取，不需要 MPI 版本。但为什么你期望这里的速度会加快呢？您的工作几乎完全受 I/O 限制，而不是 CPU 限制。并行进程不会有帮助，因为瓶颈是硬盘，而不是 CPU。如果这种情况下的并行化甚至减慢了整个读取操作，我也不会感到惊讶。其他意见？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以使用多处理对一个 h5py 文件进行并行读取？的相关文章

如何更改 FacetGrid 中的边距标题颜色

使用 Seaborn Facet Grids 如何仅更改边距标题的颜色注意g set titles color red 更改两个标题 p sns load dataset penguins sns displot data p x fli
从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

删除命名管道.NET

我使用以下代码列出我的命名管道 private IEnumerable
C++/SFML 显示故障，通过鼠标单击更改精灵成员

我正在学习 C SFML 作为练习我正在制作一个小程序在窗口中显示 64x64 像素方形棕色精灵的 10x10 网格该程序允许您使用键盘选择绿色黄色蓝色灰色棕色方形精灵并用该选定的精灵替换所述网格上的任何图块游戏循环如下
无法将必备组件放在与我的应用程序相同的位置

我使用 VS 2013 我希望 sql server 2012 express localdb 与我创建安装程序时的应用程序位于同一位置因此在项目属性 gt 发布 gt 先决条件中我选择第二个选项从与我的应用程序相同的位置下载先决条
块局部变量的语法

我对定义块局部变量的良好风格感到困惑选择是选择A method that calls block v w puts v w 选项B method that calls block v w puts v w 当我希望本地块具有默认值时混
分离 CodeIgniter 配置文件 Git 以便公开发布

我即将启动一个基于 CodeIgniter 的项目并计划使用 Git 作为我们的 DVCS 我将与其他一些开发人员合作中央原始服务器是私人托管的但我也想开源它稍后将代码发布到Github 我的问题是有没有办法在 Git 中分离
轻量级加密密钥交换协议

我有一个嵌入式系统通过 HTTP 将数据发布到 JSON REST 服务我目前正在使用 HMAC SHA1 进行身份验证方式与亚马逊AWS http docs amazonwebservices com AWSSimpleQueueSe
为什么 Facebook 不合并它的 CSS/JS 文件？

我很好奇为什么 Facebook 开发人员选择不将他们的脚本和样式表合并到单个文件中相反它们通过 CDN 按需加载 Facebook 显然是一个非常复杂的应用程序我可以理解这种模块化如何使 Facebook 更易于维护但是通常的优化
Python：将目录及其子目录中的所有文件名写入文本文件

我的问题如下我想列出目录及其子目录中的所有文件名并将输出打印在 txt 文件中现在这是我到目前为止的代码 import os for path subdirs files in os walk Users user Desktop T
文件正在被分配一个 //# sourceMappingURL 但已经有一个

我只是注意到 Firefox 控制台为我的项目中的每个 js coffee 文件甚至是包输出以下错误 file is being assigned a sourceMappingURL but already has one Chrom
在 R 中将数字时间转换为日期时间 POSIXct 格式

我有一个数据框其中包含已读入 R 的日期时间列时间值显示为数字时间如下面的数据示例所示我想将它们转换为日期时间 POSIXct 或 POSIXlt 格式以便可以查看日期和时间 tdat lt c 974424L 974430L 9
LinkedIn 分享 API-v2 返回炒股

我对 LinkedIn Shares API 的逻辑完全感到困惑因为我从有关共享的文档中读到的内容LinkedIn API 共享文档 https developer linkedin com docs guide v2 shares sh
javascript正则表达式验证范围内的年份

我有年份的输入字段我需要一个正则表达式来验证它我有这样的代码 12 d d d 但我只想允许验证特定范围内的年份例如 1990 2010 我该怎么做编辑范围必须是 1950 2050 尝试这个 1990 2010 199 d 20
如何使用 Selenium 和 C# 将 Cookie 保存为字符串？

到目前为止我使用以下代码实现了获取网站的所有 cookie 我想要的我不需要也不想要特定的 cookie var cookies driver Manage Cookies AllCookies write full path txt
将 Aiohttp 与代理一起使用

我正在尝试使用异步从 url 列表由 ids 标识中获取 HTML 我需要使用代理我正在尝试将 aiohttp 与代理一起使用如下所示 import asyncio import aiohttp from bs4 import Be
OpenCV 2.4.2 中的错误“OpenCV 错误：错误标志”

我刚刚开始尝试使用 OpenCV 并根据一本书编写了一个非常简单的小程序问题是当我尝试编译它时出现此错误我会给你我所掌握的所有信息我使用 Mac OS X 10 7 的 homebrew 安装了 openCV include
PHP找不到tmp目录

我在 tmp 目录中创建文件的函数遇到问题例如tmpfile and tempnam 他们似乎都无法写入 tmp 并返回 false upload tmp dir在 php ini 中设置文件上传工作正常在调试这个错误时我发现sys
在文本矩阵中使用多个 CGAffineTransform

我正在使用 Quartz 显示文本这是我的代码 CGContextRef myContext UIGraphicsGetCurrentContext CGContextSelectFont myContext Helvetica 12 k
Assertj：如何按对象内容比较2个对象列表？

给出以下快速且缺失的代码 class Pair int x int y List l1 Arrays asList new Match 1 2 new Match 1 3 new Match 2 3 List l2 Arrays asL
如何在 Electron BrowserWindow 中查看 PDF？

所以我有这个 Electron 应用程序在一个 html 文件中我链接了另一个脚本该脚本为程序提供了一些实用功能其中之一是 function openPDF filePath let pdfWindow new electron r
是否可以使用多处理对一个 h5py 文件进行并行读取？

我正在尝试加快从 h5py 数据集文件中读取块将它们加载到 RAM 内存中的过程现在我尝试通过多处理库来做到这一点 pool mp Pool NUM PROCESSES gen pool imap loader indices 加载器

是否可以使用多处理对一个 h5py 文件进行并行读取？

是否可以使用多处理对一个 h5py 文件进行并行读取？ 的相关文章

随机推荐

热门标签

是否可以使用多处理对一个 h5py 文件进行并行读取？的相关文章