我有一个关于如何最好地使用 python / h5py 写入 hdf5 文件的问题。
我有这样的数据:
-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178 | 10 | 12 | ...
-----------------------------------------
| 179 | 12 | 11 | ...
-----------------------------------------
| 185 | 9 | 12 | ...
-----------------------------------------
| 187 | 15 | 12 | ...
...
大约有 10^4 列,大约 10^7 行。 (大约有 10^11(1000 亿)个元素,或者 1 字节整数约 100GB)。
对于这些数据,典型的用途几乎是写入一次,读取多次,典型的读取情况是获取第 1 列和另一列(例如 254),将两列加载到内存中,并进行一些奇特的统计。
我认为一个好的 hdf5 结构应该是让上表中的每一列都是一个 hdf5 组,从而产生 10^4 个组。这样我们就不需要将所有数据读入内存,是吗?不过 hdf5 结构尚未定义,因此它可以是任何东西。
现在的问题是:
我一次接收大约 10^4 行数据(并且每次的行数不完全相同),并且需要将其增量写入 hdf5 文件。我该如何写入该文件?
我正在考虑 python 和 h5py,但如果推荐的话可以使用其他工具。正在分块前进,例如
dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))
然后当另一个 10^4 行块到达时,替换数据集?
或者将每个 10^4 行块存储为单独的数据集是否更好?或者我真的需要知道最终的行数吗? (这很难实现,但也许是可能的)。
如果 hdf5 也不是适合这项工作的工具,我可以放弃它,尽管我认为一旦完成尴尬的写入,它就会很棒。