h5py 不遵守分块规范？

2024-03-03

问题：我有现有的 netCDF4 文件（大约 5000 个）（通常形状为 96x3712x3712）数据点（float32）。这些文件的第一维是时间（每天一个文件），第二维和第三维是空间维。目前，在第一维上制作切片（即使是部分切片）会花费大量时间，原因如下：

netCDF 文件以 1x3712x3712 的块大小进行分块。在时间维度上切片基本上会读取整个文件。
对所有较小的文件进行循环（即使在多个进程中）也将花费大量时间。

My goal:

创建每月文件（约2900x3712x3712）数据点
优化它们以在时间维度上进行切片（块大小为 2900x1x1 或在空间维度上稍大）

其他需求：

文件应可附加单个时间戳 (1x3712x3712)，并且此更新过程应花费不到 15 分钟
查询应该足够快：在不到一秒的时间内完成完整切片（即 2900x1x1）==> 事实上没有那么多数据......
最好在更新时文件应该可以被多个进程读取
处理历史数据（其他 5000 个每日文件）最好需要不到几周的时间。

我已经尝试了多种方法：

连接 netcdf 文件并重新分块 ==> 需要太多内存和太多时间...
将它们从 pandas 写入 hdf 文件（使用 pytables）==> 创建一个具有巨大索引的宽表。这最终将花费太多时间来读取，并且由于元数据的限制，需要将数据集平铺在空间维度上。
我的最后一种方法是使用 h5py 将它们写入 hdf5 文件：

以下是创建单个每月文件的代码：

import h5py
import pandas as pd
import numpy as np

def create_h5(fps):
    timestamps=pd.date_range("20050101",periods=31*96,freq='15T') #Reference time period
    output_fp = r'/data/test.h5'
    try:
        f = h5py.File(output_fp, 'a',libver='latest')
        shape = 96*nodays, 3712, 3712
        d = f.create_dataset('variable', shape=(1,3712,3712), maxshape=(None,3712,3712),dtype='f', compression='gzip', compression_opts=9,chunks=(1,29,29))
        f.swmr_mode = True
        for fp in fps:
            try:
                nc=Dataset(fp)
                times = num2date(nc.variables['time'][:], nc.variables['time'].units)
                indices=np.searchsorted(timestamps, times)
                for j,time in enumerate(times):
                    logger.debug("File: {}, timestamp: {:%Y%m%d %H:%M}, pos: {}, new_pos: {}".format(os.path.basename(fp),time,j,indices[j]))
                    d.resize((indices[j]+1,shape[1],shape[2]))
                    d[indices[j]]=nc.variables['variable'][j:j+1]
                    f.flush()
            finally:
                nc.close()
    finally:
        f.close()
    return output_fp

我正在使用 HDF5 的最新版本来获得 SWMR 选项。 fps 参数是每日 netCDF4 文件的文件路径列表。它在大约 2 小时内创建了文件（在 SSD 上，但我发现创建文件主要受 CPU 限制），这是可以接受的。

我设置了压缩以将文件大小保持在限制范围内。我在没有使用压缩的情况下进行了早期测试，发现没有压缩的情况下创建速度要快一些，但是使用压缩时切片花费的时间并没有那么长。 H5py 自动将数据集分成 1x116x116 块。

现在的问题是：在具有 RAID 6 设置的 NAS 上进行切片，需要大约 20 秒来对时间维度进行切片，即使它是在单个块中......

我认为，即使它位于文件中的单个块中，因为我在循环中写入了所有值，它也必须以某种方式分段（尽管不知道这个过程是如何工作的）。这就是为什么我尝试使用 HDF5 的 CML 工具将 h5repack 放入新文件中，使用相同的块，但希望对值重新排序，以便查询能够以更连续的顺序读取值，但没有运气。尽管这个过程运行了 6 个小时，但它对查询速度没有任何影响。

如果我的计算正确，读取一个块 (2976x32x32) 仅几 MB 大（未压缩 11MB，我认为压缩后仅略多于 1MB）。怎么会花这么长时间？我究竟做错了什么？如果有人能够揭示幕后实际发生的事情，我会很高兴......

块大小的影响

在最坏的情况下，读取和写入一个块可以被视为随机读/写操作。 SSD 的主要优点是读取或写入小数据块的速度。 HDD 在执行此任务时要慢得多（可以观察到 100 倍），NAS 甚至可能比 HDD 慢得多。

所以问题的解决方案将是更大的块大小。我的系统（Core i5-4690）上的一些基准测试。

示例_1（块大小 (1,29,29)=3,4 kB）：

import numpy as np
import tables #needed for blosc
import h5py as h5
import time
import h5py_cache as h5c

def original_chunk_size():
    File_Name_HDF5='some_Path'
    #Array=np.zeros((1,3712,3712),dtype=np.float32)
    Array=np.random.rand(96,3712,3712)

    f = h5.File(File_Name_HDF5, 'a',libver='latest')
    f.swmr_mode = True
    nodays=1

    shape = 96*nodays, 3712, 3712
    d = f.create_dataset('variable', shape, maxshape=(None,3712,3712),dtype='f',chunks=(1,29,29),compression=32001,compression_opts=(0, 0, 0, 0, 9, 1, 1), shuffle=False)

    #Writing
    t1=time.time()
    for i in xrange(0,96*nodays):
        d[i:i+1,:,:]=Array

    f.close()
    print(time.time()-t1)

    #Reading
    f = h5.File(File_Name_HDF5, 'a',libver='latest')
    f.swmr_mode = True
    d=f['variable']

    for i in xrange(0,3712,29):
        for j in xrange(0,3712,29):
            A=np.copy(d[:,i:i+29,j:j+29])

    print(time.time()-t1)

结果（写/读）：

固态硬盘：38s/54s

硬盘：40s/57s

网络存储：252s/823s

在第二个示例中，我将使用 h5py_chache 因为我不想继续提供 (1,3712,3712) 块。标准 chunk-chache-size 只有 1 MB，因此必须更改它，以避免对块进行多次读/写操作。https://pypi.python.org/pypi/h5py-cache/1.0 https://pypi.python.org/pypi/h5py-cache/1.0

示例_2（块大小 (96,58,58)=1,3 MB）：

import numpy as np
import tables #needed for blosc
import h5py as h5
import time
import h5py_cache as h5c

def modified_chunk_size():
    File_Name_HDF5='some_Path'
    Array=np.random.rand(1,3712,3712)

    f = h5c.File(File_Name_HDF5, 'a',libver='latest', 
    chunk_cache_mem_size=6*1024**3)
    f.swmr_mode = True
    nodays=1

    shape = 96*nodays, 3712, 3712
    d = f.create_dataset('variable', shape, maxshape=(None,3712,3712),dtype='f',chunks=(96,58,58),compression=32001,compression_opts=(0, 0, 0, 0, 9, 1, 1), shuffle=False)

    #Writing
    t1=time.time()
    for i in xrange(0,96*nodays):
        d[i:i+1,:,:]=Array

    f.close()
    print(time.time()-t1)

    #Reading
    f = h5c.File(File_Name_HDF5, 'a',libver='latest', chunk_cache_mem_size=6*1024**3) #6 GB chunk chache
    f.swmr_mode = True
    d=f['variable']

    for i in xrange(0,3712,58):
        for j in xrange(0,3712,58):
            A=np.copy(d[:,i:i+58,j:j+58])

    print(time.time()-t1)

结果（写/读）：

固态硬盘：10秒/16秒

硬盘：10秒/16秒

网络存储：13秒/20秒

通过最小化 api 调用（读取和写入更大的块）可以进一步提高读/写速度。

我也不想提她的压缩方法。 Blosc 可以实现高达 1GB/s 的吞吐量（CPU 瓶颈），gzip 速度较慢，但提供更好的压缩比。

d = f.create_dataset('variable', shape, maxshape=(None,3712,3712),dtype='f',chunks=(96,58,58),compression='gzip', compression_opts=3)

20秒/30秒文件大小：101 MB

d = f.create_dataset('变量', shape, maxshape=(无,3712,3712),dtype='f',块=(96,58,58),压缩='gzip',compression_opts=6)

50秒/58秒文件大小：87 MB

d = f.create_dataset('变量', shape, maxshape=(无,3712,3712),dtype='f',块=(96,58,58),压缩='gzip',compression_opts=9)

50秒/60秒文件大小：64 MB

现在是整个月（30 天）的基准。写法有点优化，写成(96,3712, 3712)。

def modified_chunk_size():
    File_Name_HDF5='some_Path'

    Array_R=np.random.rand(1,3712,3712)
    Array=np.zeros((96,3712,3712),dtype=np.float32)
    for j in xrange(0,96):
        Array[j,:,:]=Array_R

    f = h5.File(File_Name_HDF5, 'a',libver='latest')
    f.swmr_mode = True
    nodays=30

    shape = 96, 3712, 3712
    d = f.create_dataset('variable', shape, maxshape=(None,3712,3712),dtype='f',chunks=(96,58,58),compression=32001,compression_opts=(0, 0, 0, 0, 9, 1, 1), shuffle=False)

    #Writing
    t1=time.time()
    for i in xrange(0,96*nodays,96):
        d[i:i+96,:,:]=Array
        d.resize((d.shape[0]+96,shape[1],shape[2]))

    f.close()
    print(time.time()-t1)

    #Reading
    f = h5.File(File_Name_HDF5, 'a',libver='latest')
    f.swmr_mode = True
    d=f['variable']
    for i in xrange(0,3712,58):
        for j in xrange(0,3712,58):
            A=np.copy(d[:,i:i+58,j:j+58])

    print(time.time()-t1)

133s/301s 带 blosc

432s/684s，gzip compression_opts=3

我在访问 NAS 上的数据时遇到了同样的问题。我希望这有帮助...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

h5py 不遵守分块规范？的相关文章

为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
Django Web 应用程序中的 SMTP 问题

我被要求向使用 Django Python 框架实现的现有程序添加一个功能此功能将允许用户单击一个按钮该按钮将显示一个小对话框表单以输入值我确实编写了一些代码显示电子邮件已发送的消息但实际上它没有发送 My code from
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

GAE - 部署错误：“AttributeError：无法设置属性”

当我尝试部署我的应用程序时出现以下错误 Starting update of app flyingbat123 version 0 1 Getting current resource limits Password for avigma
Prestashop 送货时选择隐藏/显示付款方式

我试图弄清楚如何在选择送货方式时显示隐藏付款方式我尝试了几个解决方案但它对我不起作用其中之一是这个
如何在Flutter中像Youtube一样显示之前的时间

我正在编写一个 flutter 应用程序来克隆一些 Youtube 功能Youtube API V3 该应用程序获取字符串形式的视频时间戳来自 YouTube 视频 API 每个时间戳都具有以下格式 YYYY MM DDTHH MM SSZ
如何计算新点位于 Voronoi 图的哪个位置？

我写了一个小脚本来显示 voronoi 图M点来自本教程 https docs scipy org doc scipy 0 18 1 reference generated scipy spatial Voronoi html I use
如何获取 Xamarin.Android 的 Mono VM 的堆快照？

背景我正在尝试追踪 Xamarin Android 应用程序中的内存泄漏使用 DDMS 和 Eclipse Memory Profiler 我能够查看哪些对象处于活动状态当试图跟踪是什么让它们保持活力时 GC Root 我只看到本机
如何删除前导和尾随空格？

我在用着awk gsub t t print in txt gt out txt删除前导和尾随空格问题是输出文件实际上有尾随空格所有行的长度相同它们都用空格填充我缺少什么 UPDATE 1 该问题可能是由于尾随空格不是正常空格而
Nuxt，转换不适用于子路由（使用 NuxtChild 显示）

我无法为我的子路线进行转换我有以下页面 pages child id vue child vue index vue 在索引和任何子路由之间导航都会触发转换但是当从一个子路由导航到另一子路由时不会发生转换注意有静态路由 child和
extern 与 c 中变量的全局定义

我有以下我感兴趣的源代码 include
从 XML 结束标记填充数组

我正在尝试创建一个字段名称数组以便稍后在脚本中使用正则表达式让我大吃一惊我已经很久没有写代码了字段名称嵌入在 XML 标记中因此我想可以从第一行数据的结束标记中提取它们我看不到如何正确填充数组任何人都可以为我提供一些启示吗 m
万向节锁是怎么发生的？

所以我在网上搜索我在想象如何发生万向节锁定根据我所看到的当两个或多个轴对齐失去一定的自由度时就会发生这种情况但我无法想象这些轴将如何开始对齐我的意思是当我绕 x 轴旋转对象时例如 y 轴和 z 轴是否不会随 X 轴旋转以保持
使用 PyQt5 将 qDebug 输出重定向到文件

我使用 python2 7 Qt5 5 和 PyQt5 实现了一个应用程序我使用Python记录器工作logging 模块日志消息都发送到 stderr 和日志文件但是 Qt 日志消息仅出现在 stderr 中我找不到将它们重定向到
带有标记和线条的传单

我将 leafletjs 与 geojson 一起使用但我无法同时使用标记绘制折线所以我的解决方案是先绘制折线然后添加标记我认为这不是一个好的方法那么还有其他解决方案吗这是我的代码 function DrawLine mymap
SSRS独特的查找集函数

我在用着Join Lookupset 查找返回序列号的唯一组值这是我的功能 Join LookupSet Fields itemId Value Fields UseByDate Value Fields rackId Value Fie
Python：如何使用 BeautifulSoup 模拟点击

我不想使用 selenium 因为我不想打开任何浏览器该按钮会触发 Javascript 方法来更改页面中的某些内容我想模拟按钮单击以便我可以从中获取输出示例不是按钮实际执行的操作我输入一个名字例如 John 按下按钮它会
如何在 Action 类之外将错误消息从 Struts2 发布到 HTML

我有一个注册程序当我在数据库中插入一条记录时我将实例化一个类并调用该方法insert 当我插入相同的记录时当然会出现重复数据错误和大量错误消息我想捕捉它try and catch 我能做到但是我不知道如何将消息显示到 JSP 据
提高 jQuery 模板性能

Update 显然 jQuery 模板可以被编译并且它有助于提高模板的性能if 语句 shown here http jsperf com complex template vs concat 4 但如图所示here http jsper
MFC> 将对话框连接到对话框类

我在现有的资源文件中定义了一个新对话框及其控件我还创建了一个新文件它将处理从此对话框生成的事件但我不确定如何连接这两者是声明enum IDD IDD NEW DIALOG 连接两者所需的一切或者我们应该添加一些其他声明在 MFC
网络调用 /.well-known/openid-configuration/ 和 /.well-known/openid-configuration/jwks

I have 身份服务器4 具有 OpenId Connect 和混合流的 Mvc 应用程序 WebApi应用程序假设用户已经获得带有 id token 和访问令牌的 cookie 然后他从 mvc 应用程序调用一个操作 var clie
从列表列表创建 pandas 数据框，但有不同的分隔符

我有一个列表列表 1 Toy Story 1995 Animation Children s Comedy 2 Jumanji 1995 Adventure Children s Fantasy 3 Grumpier Old Men 199
h5py 不遵守分块规范？

问题我有现有的 netCDF4 文件大约 5000 个通常形状为 96x3712x3712 数据点 float32 这些文件的第一维是时间每天一个文件第二维和第三维是空间维目前在第一维上制作切片即使是部分切片会花费大量时间

h5py 不遵守分块规范？

h5py 不遵守分块规范？ 的相关文章

随机推荐

热门标签

h5py 不遵守分块规范？的相关文章