使用h5py增量写入hdf5

2023-12-31

我有一个关于如何最好地使用 python / h5py 写入 hdf5 文件的问题。

我有这样的数据：

-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178       | 10       | 12       | ...
-----------------------------------------
| 179       | 12       | 11       | ...
-----------------------------------------
| 185       | 9        | 12       | ...
-----------------------------------------
| 187       | 15       | 12       | ...
                    ...

大约有 10^4 列，大约 10^7 行。（大约有 10^11（1000 亿）个元素，或者 1 字节整数约 100GB）。

对于这些数据，典型的用途几乎是写入一次，读取多次，典型的读取情况是获取第 1 列和另一列（例如 254），将两列加载到内存中，并进行一些奇特的统计。

我认为一个好的 hdf5 结构应该是让上表中的每一列都是一个 hdf5 组，从而产生 10^4 个组。这样我们就不需要将所有数据读入内存，是吗？不过 hdf5 结构尚未定义，因此它可以是任何东西。

现在的问题是：我一次接收大约 10^4 行数据（并且每次的行数不完全相同），并且需要将其增量写入 hdf5 文件。我该如何写入该文件？

我正在考虑 python 和 h5py，但如果推荐的话可以使用其他工具。正在分块前进，例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个 10^4 行块到达时，替换数据集？

或者将每个 10^4 行块存储为单独的数据集是否更好？或者我真的需要知道最终的行数吗？（这很难实现，但也许是可能的）。

如果 hdf5 也不是适合这项工作的工具，我可以放弃它，尽管我认为一旦完成尴尬的写入，它就会很棒。

根据常见问题解答 http://docs.h5py.org/en/latest/faq.html#appending-data-to-a-dataset，您可以使用扩展数据集dset.resize。例如，

import os
import h5py
import numpy as np
path = '/tmp/out.h5'
os.remove(path)
with h5py.File(path, "a") as f:
    dset = f.create_dataset('voltage284', (10**5,), maxshape=(None,),
                            dtype='i8', chunks=(10**4,))
    dset[:] = np.random.random(dset.shape)        
    print(dset.shape)
    # (100000,)

    for i in range(3):
        dset.resize(dset.shape[0]+10**4, axis=0)   
        dset[-10**4:] = np.random.random(10**4)
        print(dset.shape)
        # (110000,)
        # (120000,)
        # (130000,)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

HDF5

h5py

使用h5py增量写入hdf5 的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break

随机推荐

如何更改 Django 表单字段的“名称”HTML 属性？

我有 Django 3 0 表单 forms py class SignupForm UserCreationForm email forms EmailField 这呈现为 HTML 元素
OS X 10.9.2 中的自制程序：错误：SHA256 不匹配

brew install php55 gt Downloading http www php net get php 5 5 11 tar bz2 from this mirror 100 0 Error SHA256 mismatch E
为什么更新一个字典对象会影响其他字典对象？ [复制]

这个问题在这里已经有答案了我有一个嵌套字典我们称之为字典 d 这个字典的键是一个整数每个键的值是另一个字典我正在 python 2 7 上尝试一个简单的代码来更新一个外部键的值但它似乎正在更新所有外部键的值希望这些代码能让大家更
函数类型中的空接口{}

任何类型的对象都可以分配给空接口例如我们有以下函数 func Println i interface fmt Println i 我们可以通过以下方式调用它 Println 3 Println 1 5 Println Hello 但对于
如何从 TaskScheduler 运行的脚本重定向 Powershell 输出并覆盖 80 个字符的默认宽度

我有一个由任务计划程序调用的 powershell 脚本该任务的定义还使用 gt gt 将输出重定向到日志文件 PowerShell 脚本调用 C 控制台程序该程序生成宽度超过 80 个字符的输出但是日志文件中的结果输出将 C 程序
在“vi”中的选择范围内查找和替换

如何在选择中进行查找和替换vi 如果您的选择是跨越一行或多行则可以通过在视觉模式下选择文本来完成我假设这就是您正在做的事情然后按要开始输入命令您将看到命令行中出现类似以下内容 lt gt 这意味着该命令将应用于选择然后输入s s
如何（简洁地）从 Go 中的切片中删除第一个元素？

我用 Go 构建了一个简单的队列它使用内部切片来跟踪其元素通过附加到切片将元素推送到队列中我想实施 Pop 通过删除第一个元素elements 在许多其他语言中弹出列表的第一个元素是一行这让我相信我下面的实现是草率和冗长的有
wxPython：线程 GUI --> 使用自定义事件处理程序

我正在尝试学习如何在主 GUI 应用程序上运行线程来执行串行端口发送接收同时保持 GUI 处于活动状态我最好的谷歌搜索尝试让我找到了 wxpython wiki http wiki wxpython org LongRunningTa
将秒转换为人类可读格式 MM:SS Java [重复]

这个问题在这里已经有答案了如何将秒的长整型转换为人类可读的格式 MM SS 只有 SS 应该用 0 填充所以 long 67 gt 1 07 String readable String format d 02d s 60 s 60
Directory.GetFiles 保留上次访问时间

C 中的 Directory GetFiles 似乎修改了文件的上次访问日期我已经用谷歌搜索了几个小时似乎找不到解决此问题的方法有没有办法保留文件的所有 MAC 已修改已访问已创建属性我正在使用 Directory GetDi
使用 Dagger 2 将上下文或活动传递给适配器

我在没有上下文的情况下使用 Dagger 2 注入适配器并且它正在工作但是当我传递上下文参数时我无法执行此操作错误是这样来的 error android content Context cannot be provided withou
使用任务计划程序托管包装器创建计划任务并禁用“跨时区同步”选项[关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案有谁知道如何使用创建计划任务任务计划程序托管包装 https github com dahall taskscheduler or 任
使用 Pandas DataFrame Styler 格式化日期时间索引，仅显示时间部分

我使用 Pandas DataFrames 的 style 属性来创建用于电子邮件发送的 HTML 表我遇到的问题是我有当我希望它显示为日期时它显示为日期时间戳记的日期时间索引我对时间部分不感兴趣在解释器中 DataFrame 确实
standard_init_linux.go:211: exec 用户进程导致“没有这样的文件或目录”[重复]

这个问题在这里已经有答案了我正在使用项目附带的 Dockerfile 构建项目的 docker 映像但 docker 容器始终保持在重新启动状态以下是我看到的容器日志 standard init linux go 211 exec 用
特定类型的范围概念

有没有一个已经定义了concept用于指定一个特定类型的范围在 C 20 中还是在范围 TS 中就像是 template lt class T class InnerType gt concept RangeOf requires T
文件 .keystore 和 CAKey.pem 在 SSL 中的作用？

我成功地从 http 获取了 https 上的 web 应用程序实际上我对这个过渡阶段遇到的两个文件的作用存有疑问我可以看到两个密钥文件一个是 keystore 另一个是 CAKey pem 我特别想知道他们什么时候进来拍照的在s
Cosmos DB 存储过程在没有 PartitionKey 的情况下无法执行

我有一个包含 PartitionKey i 的集合它创建了一个接受查询作为参数的存储过程在此存储过程中我正在获取一些要更新的文档但在获取时显示一条错误提示当我使用该方法时提供 PartitionKey public Task
如何使用 QCombobox 选择更新 QTableView 单元格？

我想将委托 QComboBox 委托添加到某些 QTableView 行中的特定单元格我找到了几篇关于如何添加委托的帖子但没有一篇包含使用 QComboBox 选择更新单元格的示例这是我到目前为止所拥有的 main ui
将变量分配给Python中函数的局部作用域

我想将一个变量分配给被多次调用的 lambda 范围每次都有一个新的变量实例我怎么做 f lambda x x var x var y Code needed here to prepare f with a new var resul
使用h5py增量写入hdf5

我有一个关于如何最好地使用 python h5py 写入 hdf5 文件的问题我有这样的数据 timepoint voltage1 voltage2 178 10 12 179 12 11 185 9

使用h5py增量写入hdf5

使用h5py增量写入hdf5 的相关文章

随机推荐

热门标签