h5py - 将对象动态写入文件？

2023-12-22

我正在尝试将常规 python 对象（其中几个键/值对）写入 hdf5 文件。我正在使用 h5py 2.7.0 和 python 3.5.2.3。

现在，我正在尝试将一个对象完整写入数据集：

#...read dataset, store one data object in 'obj'
#obj could be something like: {'value1': 0.09, 'state': {'angle_rad': 0.034903, 'value2': 0.83322}, 'value3': 0.3}
dataset = h5File.create_dataset('grp2/ds3', data=obj)

这会产生一个错误作为基础dtype不能转换为native HDF5 equivalent:

  File "\python-3.5.2.amd64\lib\site-packages\h5py\_hl\group.py", line 106, in create_dataset
    dsid = dataset.make_new_dset(self, shape, dtype, data, **kwds)
  File "\python-3.5.2.amd64\lib\site-packages\h5py\_hl\dataset.py", line 100, in make_new_dset
    tid = h5t.py_create(dtype, logical=1)
  File "h5py\h5t.pyx", line 1543, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:18116)
  File "h5py\h5t.pyx", line 1565, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:17936)
  File "h5py\h5t.pyx", line 1620, in h5py.h5t.py_create (D:\Build\h5py\h5py-hdf5
110-git\h5py\h5t.c:17837)
TypeError: Object dtype dtype('O') has no native HDF5 equivalent

是否可以以“动态”方式将对象写入 HDF5 文件？

如果您要保存的对象是带有数值的嵌套字典，则可以使用以下命令重新创建它group/setH5 文件的结构。

一个简单的递归函数是：

def write_layer(gp, adict):
    for k,v in adict.items():
        if isinstance(v, dict):
            gp1 = gp.create_group(k)
            write_layer(gp1, v)
        else:
            gp.create_dataset(k, data=np.atleast_1d(v))

In [205]: dd = {'value1': 0.09, 'state': {'angle_rad': 0.034903, 'value2': 0.83322}, 'value3': 0.3}

In [206]: f = h5py.File('test.h5', 'w')
In [207]: write_layer(f, dd)

In [208]: list(f.keys())
Out[208]: ['state', 'value1', 'value3']
In [209]: f['value1'][:]
Out[209]: array([ 0.09])
In [210]: f['state']['value2'][:]
Out[210]: array([ 0.83322])

您可能想要对其进行细化并将标量保存为属性而不是完整的数据集。

def write_layer1(gp, adict):
    for k,v in adict.items():
        if isinstance(v, dict):
            gp1 = gp.create_group(k)
            write_layer1(gp1, v)
        else:
            if isinstance(v, (np.ndarray, list)):
                gp.create_dataset(k, np.atleast_1d(v))
            else:
                gp.attrs.create(k,v)

In [215]: list(f.keys())
Out[215]: ['state']
In [218]: list(f.attrs.items())
Out[218]: [('value3', 0.29999999999999999), ('value1', 0.089999999999999997)]
In [219]: f['state']
Out[219]: <HDF5 group "/state" (0 members)>
In [220]: list(f['state'].attrs.items())
Out[220]: [('value2', 0.83321999999999996), ('angle_rad', 0.034903000000000003)]

检索数据集和属性的组合更为复杂，尽管您可以编写代码来隐藏它。

这是一种结构化数组方法（具有复合数据类型）

定义与您的字典结构匹配的数据类型。像这样的嵌套是可能的，但如果太深可能会很尴尬：

In [226]: dt=[('state',[('angle_rad','f'),('value2','f')]),
              ('value1','f'),
              ('value3','f')]
In [227]: dt = np.dtype(dt)

创建一个这种类型的空白数组，其中包含几条记录；用字典中的数据填写一条记录。请注意，元组的嵌套必须与数据类型嵌套匹配。更一般的结构化数据被提供为此类元组的列表。

In [228]: arr = np.ones((3,), dtype=dt)
In [229]: arr[0]=((.034903, 0.83322), 0.09, 0.3)
In [230]: arr
Out[230]: 
array([(( 0.034903,  0.83322001),  0.09,  0.30000001),
       (( 1.      ,  1.        ),  1.  ,  1.        ),
       (( 1.      ,  1.        ),  1.  ,  1.        )], 
      dtype=[('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])

将数组写入 h5 文件非常简单：

In [231]: f = h5py.File('test1.h5', 'w')
In [232]: g = f.create_dataset('data', data=arr)
In [233]: g.dtype
Out[233]: dtype([('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])
In [234]: g[:]
Out[234]: 
array([(( 0.034903,  0.83322001),  0.09,  0.30000001),
       (( 1.      ,  1.        ),  1.  ,  1.        ),
       (( 1.      ,  1.        ),  1.  ,  1.        )], 
      dtype=[('state', [('angle_rad', '<f4'), ('value2', '<f4')]), ('value1', '<f4'), ('value3', '<f4')])

理论上我们可以编写类似的函数write_layer它通过你的字典工作并构建相关的数据类型和记录。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

HDF5

h5py

h5py - 将对象动态写入文件？的相关文章

优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

Kubernetes 检查“silent”pod 是否完成执行

假设我定义了一个 pod 它只运行几段代码然后退出我需要确保该 Pod 退出然后才能允许其他 Pod 运行实现这一点的最佳方法是什么我曾经通过执行网络请求来检查 pod 是否准备好例如一旦准备好一些 webapps pod 将
为什么 .paintComponent() 定义在 JComponent 上？

很抱歉如果我的问题由于是理论上的问题而无法适应 Stack Overflow 的要求但我不知道还能问哪里在过去的几周里我一直在尝试更好地了解 Swing API 的工作原理及其组件以便创建我自己的自定义组件我读过大量的教程在这
什么会导致链接服务器返回有限数量的数据？

我们链接到 sql server 2012 实例的服务器出现问题我们通过 odbc 或 oledb 连接链接的服务器是 Pervasive SQL 只要结果集很小就可以通过这种方式从链接服务器中进行选择 select from link
使用 XCUITEST 驱动程序在 Appium 中通过 xpath 查找元素

更新自动化框架的任务落到了我的身上我是 iOS 测试新手因此在使用 Appium 1 6 0 beta1 中的新 XCUITEST 驱动程序时遇到问题我已启动并运行驱动程序但大多数元素是使用框架中的 xpath 定位的我知道一点也
根据同一行中另一列的值填充缺失值

我有一个 DataFrame 看起来像这样 ColA ColB ColC ColD 100 A X1 NaN 200 B X2 AAA 300 C X3 NaN 我想填补缺失值ColD基于价值ColA 我需要的结果是这样的 if value
警告：array_merge()：处理两个 $_POST 时，参数 #1 不是数组

我收到以下错误警告 array merge 参数 1 不是数组加工时 POST cpl 虽然 POST add 工作正常 if is array POST add foreach POST add as key gt value POST
PySpark 通过 Hive Metastore 读取 Iceberg 表到 S3

我正在尝试通过部署的配置单元元数据存储服务与存储在 S3 上的 Iceberg 表进行交互目的是能够推拉存储为 Iceberg 数据湖在 S3 上的大量数据再过几天文档谷歌堆栈溢出只是不太顺利 From Iceberg 的文
从 RACSignal 迁移到 ReactiveSwift 或 RAC5

我是 Swift 新手这就是为什么我是 Reactive Cocoa v5 或 Reactive Swift 新手以前我将 RACSignal 与 RAC 2 x 一起使用我喜欢这样做 RACSignal signalForGET N
重写Python中的抽象方法

当重写Python抽象方法时有没有办法在方法签名中使用额外的参数来重写该方法 e g 抽象类 Agent ABC abstractmethod def perceive world self observation pass 继承类 Du
如何使用 Rspec “期望”一系列方法，其中第一个方法采用参数？

我在 ruby 模型中有一个方法调用如下所示 Contentful PartnerCampaign find by vanityUrl referral source load first 在模型spec rb 文件中我尝试模拟该调用并
为什么 java newInstance 挂在 getDeclaredConstructors0 处？

我们使用mozlia rhino生成动态类然后通过自定义类加载器加载JsClass 如下所示 DynamicClassLoader loader new DynamicClassLoader JavaScriptFactory class
使用python将多个txt文件的内容转换为具有单独工作表的单个excel文件

这个问题类似于使用python将多个txt文件的内容转换为单个excel文件 https stackoverflow com questions 72527193 content from multiple txt files into s
我的项目使用 MSBuild 4 构建，但不是使用 MSBuild 3.5，即使我的目标是相同版本的 .NET Framework (3.5)？

当我使用 MSBuild 4 构建解决方案时它编译成功 C Windows Microsoft NET Framework v4 0 30319 MSBuild exe MySolution sln 构建成功 0 Warning s 0
依赖名称和范围

有谁知道当某些依赖函数在使用之后和使用之前的范围内时编译器和或语言标准发生了什么我使用的是 Stroustrup 在 C 第 4 版第 747 页中的示例的精密副本在 DEP NAME 示例中g and Q可以在模板函数之后声明f和
css中translate:translate3d(50%,0,0)和left:50%之间的区别？

css 中的 transform translate3d 50 0 0 与 left 50 有何不同这是jsfiddle https jsfiddle net svjnwme0 我做的 transform translate3d 50 0
如何在不让用户在命令提示符下使用 lodctr 重建的情况下使性能计数器正常工作？

我一直在尝试获取 Windows PC 的总 CPU 使用率 Windows 7跑步 Net 4 5 在 C 中看起来像使用PerformanceCounter应该可以满足我的需求我根据下面的三个链接编写了一些试用代码并检查了MSDN
如何提高 Direct3D 流纹理性能？

我正在尝试加速全屏纹理的绘制该纹理会改变每一帧在我的系统上使用 GDI 和 BitBlt 可以获得大约 1000 FPS 但我认为可以通过使用 Direct3D 和动态纹理来提高性能相反我只能获得 250 FPS 左右我在配备
从语义上讲，哪个更正确：a in h2，还是h2 in a？

我一直在决定使用哪一个因为两者似乎都有效我应该放置链接吗 a 代替 h2 元素或者反过来呢正确的标准是什么你只能放置 h2 内的元素 a 元素如果您使用的是 HTML5 允许其中的任何其他元素 a 元素 http www w3
ActiveMQ 未找到连接的 IConnectionFactory 实现

我已在服务器上安装了 ActiveMQ 5 13 0 Release 并尝试使用 C 客户端访问代理我创建了一个控制台应用程序并安装了 Apache NMS ActiveMQ 版本 1 7 1 nuget 包当我尝试访问经纪人时 Lin
h5py - 将对象动态写入文件？

我正在尝试将常规 python 对象其中几个键值对写入 hdf5 文件我正在使用 h5py 2 7 0 和 python 3 5 2 3 现在我正在尝试将一个对象完整写入数据集 read dataset store one dat

h5py - 将对象动态写入文件？

h5py - 将对象动态写入文件？ 的相关文章

随机推荐

热门标签

h5py - 将对象动态写入文件？的相关文章