使用 h5py 打乱 HDF5 数据集

2023-12-08

我有一个很大的 HDF5 文件（~30GB），我需要对每个数据集中的条目（沿着 0 轴）进行洗牌。浏览 h5py 文档我也找不到randomAccess or shuffle功能，但我希望我错过了一些东西。

有谁足够熟悉 HDF5 来想出一种快速随机洗牌数据的方法吗？

这是我用有限的知识实现的伪代码：

for dataset in datasets:
    unshuffled = range(dataset.dims[0])
    while unshuffled.length != 0:
        if unshuffled.length <= 100:
            dataset[:unshuffled.length/2], dataset[unshuffled.length/2:] = dataset[unshuffled.length/2:], dataset[:unshuffled.length/2]
            break
        else:
            randomIndex1 = rand(unshuffled.length - 100)
            randomIndex2 = rand(unshuffled.length - 100)

            unshuffled.removeRange(randomIndex1..<randomIndex1+100)
            unshuffled.removeRange(randomIndex2..<randomIndex2+100)

            dataset[randomIndex1:randomIndex1 + 100], dataset[randomIndex2:randomIndex2 + 100] = dataset[randomIndex2:randomIndex2 + 100], dataset[randomIndex1:randomIndex1 + 100]

您可以使用random.shuffle(dataset)。在我配备 Core i5 处理器、8 GB RAM 和 256 GB SSD 的笔记本电脑上，处理 30 GB 数据集需要 11 分钟多一点。请参阅以下内容：

>>> import os
>>> import random
>>> import time
>>> import h5py
>>> import numpy as np
>>>
>>> h5f = h5py.File('example.h5', 'w')
>>> h5f.create_dataset('example', (40000, 256, 256, 3), dtype='float32')
>>> # set all values of each instance equal to its index
... for i, instance in enumerate(h5f['example']):
...     h5f['example'][i, ...] = \
...             np.ones(instance.shape, dtype='float32') * i
...
>>> # get file size in bytes
... file_size = os.path.getsize('example.h5')
>>> print('Size of example.h5: {:.3f} GB'.format(file_size/2.0**30))
Size of example.h5: 29.297 GB
>>> def shuffle_time():
...     t1 = time.time()
...     random.shuffle(h5f['example'])
...     t2 = time.time()
...     print('Time to shuffle: {:.3f} seconds'.format(str(t2 - t1)))
...
>>> print('Value of first 5 instances:\n{}'
...       ''.format(str(h5f['example'][:10, 0, 0, 0])))
Value of first 5 instances:
[ 0.  1.  2.  3.  4.]
>>> shuffle_time()
Time to shuffle: 673.848 seconds
>>> print('Value of first 5 instances after '
...       'shuffling:\n{}'.format(str(h5f['example'][:10, 0, 0, 0])))
Value of first 5 instances after shuffling:
[ 15733.  28530.   4234. 14869.  10267.]
>>> h5f.close()

混洗几个较小数据集的性能不应比这更差。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

HDF5

h5py

使用 h5py 打乱 HDF5 数据集的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

将第一个 div 向左对齐，随后的 div 向右对齐

我希望在同一水平线上显示三段文本如下所示 Chapter one Language English 我在用代表窗口的最左边或最右边这就是我现在所拥有的 div div Chapter one div div Language div
使用 VBScript 更改快捷方式中的目标

我正在尝试创建 VBScript 来更改链接中的目标目前的目标是 C Program Files Hyland Application Enabler AEClient exe 我希望新的目标是 C Program Files Hylan
自定义任务运行程序方法抛出 ArgumentException

由于 CultureInfo 没有从一个线程复制到另一个线程所以我制定了以下方法来为我做这件事 public static StartCustomTask Action action TaskCreationOptions tco Tas
使用 Exchange 服务和 OAuth 订阅推送通知时出现 401 未经授权

我正在尝试使用 oauth 访问 EWS 托管 API 订阅推送通知如下所示 var authenticationTask await authenticationContext AcquireTokenAsync https outlo
测试套件运行失败 TypeError: Cannot set property 'content' of null 在 Jest 中运行

我正在基于 Vue 的项目编写测试并且我是 Framwork Jest 和 Vue 测试 Utils 的新手我还没有找到类似问题的解决方案我尝试过几个组件但错误总是类似示例 test js import shallowMount
如何拒绝/关闭特定来电号码

在我的应用程序中我想阻止特定的传入号码我进行谷歌搜索然后执行以下操作阻止来电 Android 但这段代码对我不起作用我正在测试安卓2 3 5 我这里没有活动课 gt gt 第一类是扩展BroadcastReceiver 清单文件
如何知道应用程序在android中运行了多长时间？

我正在android中做一个应用程序它需要知道应用程序运行了多长时间有谁知道如何检索此类信息 android 有什么方法可以提供有关正在运行的应用程序的信息从它们运行的时间来看我不知道有什么方法可以处理这个问题但你可以简单地自己
如何强制 xslt 转换将数据加载到 cdata 部分？

我有一个客户要求我提供给他们的 xml 中的所有文本都位于 CDATA 部分中我知道文本不需要在 CDATA 中因为它在提供给客户端时已经被解析和转换然而无论我多么确定他们仍然需要 CDATA 部分叹我正在使用 Saxon 9
如何检测 facebook 的 FB.init 何时完成

旧的 JS SDK 有一个名为 FB ensureInit 的函数新的SDK似乎没有这样的功能我如何确保在完全启动之前我不会进行api调用我把它放在每页的顶部 div div
将 Objective-C typedef 转换为其等效字符串

假设我在 h 文件中声明了一个 typedef 如下所示 typedef enum JSON XML Atom RSS FormatType 我想构建一个将 typedef 的数值转换为字符串的函数例如如果消息 self toStrin
Android - 如何获取应用程序名称？（不是包名）

在我的清单中我有
使用 System.AccessToken 创建服务端点

目前我们使用特定的用户名和 PAT 来进行 Azure DevOps REST API 调用但从维护和脆弱性的角度来看这不是一个好的解决方案我们想改用 OAuth 令牌我们遇到问题的一种情况是尝试从管道生成服务端点我可以使用以下
使用c#获取系统信息[关闭]

Closed 这个问题需要多问focused 目前不接受答案如何获取计算机的系统信息系统制造商系统型号 Bios版本您可以使用以下方式获取制造商名称添加引用System Management System Management S
java dom getTextContent() 问题

当我尝试访问我的 xml 数据时doGet我的 servlet 的方法它只输出直到空白的值包括整个值 XML 文件
在 AWS iOS SDK 中，如何处理 FORCE_CHANGE_PASSWORD 用户状态

我已经按照这里的示例进行了操作 https github com awslabs aws sdk ios samples tree master CognitoYourUserPools Sample 将交互式认知登录集成到我的 iOS 应
如何识别图片中的钞票？

我有一些欧元钞票的图片账单完全在图像内并且大多是平坦的例如变形很小并且透视倾斜很小例如完全从钞票上方拍摄的图像现在我不是图像识别方面的专家我想实现以下目标找到钞票的边界框这样我就可以从图像其余部分的噪声中剪掉钞票弄清
Java Graphics2D浮点精确drawOval替代品？

因此我尝试绘制一个圆弧并在其圆形端点周围放置一个圆但由于舍入到最近的像素我遇到了问题这在某些情况下是可见的但并非在所有情况下都是可见的有没有办法使用浮点和抗锯齿来绘制圆来消除这种舍入误差您可以运行此代码来查看问题为了清晰起见
max深度和min深度如何与find命令一起使用？

我想知道最大深度和最小深度如何与 find 命令一起使用还想知道下面的命令是如何工作的 find mindepth 2 maxdepth 5 name file1 根据find 的手册页 maxdepth levels Descend a
比较 Timer 与 DispatcherTimer

有什么区别between System Windows Forms Timer and System Windows Threading DispatcherTimer 在什么情况下我们应该使用它们有什么最佳实践吗 Windows For
使用 h5py 打乱 HDF5 数据集

我有一个很大的 HDF5 文件 30GB 我需要对每个数据集中的条目沿着 0 轴进行洗牌浏览 h5py 文档我也找不到randomAccess or shuffle功能但我希望我错过了一些东西有谁足够熟悉 HDF5 来想出一种快速

使用 h5py 打乱 HDF5 数据集

使用 h5py 打乱 HDF5 数据集 的相关文章

随机推荐

热门标签

使用 h5py 打乱 HDF5 数据集的相关文章