为了实现快速读/写性能（在 Python/pandas 中），推荐的 HDF5 压缩是多少？

2024-03-03

我曾多次读到，在 HDF5 中打开压缩可以带来更好的读/写性能。

我想知道什么理想的设置可以在以下位置实现良好的读/写性能：

 data_df.to_hdf(..., format='fixed', complib=..., complevel=..., chunksize=...)

我已经在使用了fixed格式（即h5py）因为它比table。我有强大的处理器，不太关心磁盘空间。

我经常储存DataFrames of float64 and str键入大约的文件。 2500 行 x 9000 列。

您可以使用几种可能的压缩过滤器。自从HDF5 版本 1.8.11 https://support.hdfgroup.org/HDF5/faq/compression.html您可以轻松注册第 3 方压缩过滤器。

关于性能：

这可能取决于您的访问模式，因为您可能希望为块定义适当的维度，以便它与您的访问模式很好地保持一致，否则您的性能将受到很大影响。例如，如果您知道您通常访问一列和所有行，您应该相应地定义块形状(1,9000). See here http://www.pytables.org/usersguide/optimization.html, here https://www.hdfgroup.org/HDF5/doc/Advanced/Chunking/ and here https://www.hdfgroup.org/training/HDFtraining/UsersGuide/Perform.fm2.html一些信息。

然而 AFAIK pandas 通常最终会将整个 HDF5 文件加载到内存中，除非您使用read_table and an iterator (see here https://stackoverflow.com/questions/15692984/pandas-large-data-hdf-tables-and-memory-usage-when-calling-a-function）或者自己做部分IO（参见here https://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas），因此定义一个好的块大小并没有真正带来多大好处。

尽管如此，您仍然可以从压缩中受益，因为将压缩数据加载到内存并使用 CPU 解压缩可能比加载未压缩数据更快。

关于你原来的问题：

我建议看一下Blosc http://www.blosc.org/。它是一个多线程元压缩器库，支持各种不同的压缩过滤器：

BloscLZ：内部默认压缩器，很大程度上基于 FastLZ。
LZ4：紧凑、非常流行且快速的压缩器。
LZ4HC：LZ4 的调整版本，以牺牲速度为代价产生更好的压缩比。
Snappy：一种在很多地方使用的流行压缩器。
Zlib：经典；比以前的速度稍慢，但实现了更好的压缩比。

它们具有不同的优势，最好的办法是尝试用您的数据对它们进行基准测试，看看哪种效果最好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

Compression

HDF5

HPC

h5py

为了实现快速读/写性能（在 Python/pandas 中），推荐的 HDF5 压缩是多少？的相关文章

在 Pandas 中按索引分组

如何使用 groupby by 索引 1 2 3 它们的顺序相同并获得属于每个索引范围的列分数的总和基本上我有这个 index score 1 2 2 2 3 2 1 3 2 3 3 3 我想要的是 index score sum 1
为什么 pyplot.plot() 创建一个宽度=1、高度=1 的额外矩形？

我正在从 DataFrame 创建一个简单的条形图 Series 和 DataFrame 上的绘图方法只是 pyplot plot 的简单包装 import pandas as pd import matplotlib as mpl df
如何从 pandas groupby 中的多列中获取唯一值

从这个数据框 df 开始 df pd DataFrame c 1 1 1 2 2 2 l1 a a b c c b l2 b d d f e f c l1 l2 0 1 a b 1 1 a d 2 1 b d 3 2 c f 4 2 c e
Pandas 根据另一列的条件有选择地覆盖列中的值

我有一个带有四列的 pandas 数据框数据由字符串组成样本 A B C D 0 2 asicdsada v cVccv u 1 4 ascccaiiidncll v cVccv ccvc u 2 9 sca V c u 3 11 lk
熊猫滚动意味着更新

考虑数据框 df pd DataFrame a None None None None 1 2 1 0 1 b 5 4 6 7 None None None None None gt gt a b 0 NaN 5 0 1 NaN 4 0 2
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
Pandas 时间序列数据索引从字符串到浮点[重复]

这个问题在这里已经有答案了有人知道如何将字符串输出转换为浮点数吗我正在尝试创建单独的数据框 Month and day of the week 基于时间戳索引这df index strftime输出一个字符串但我需要一个float基
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
如果包含字符串，pandas 重命名列

我想遍历数据框中的所有列并重命名或映射列如果它们包含某些字符串例如将包含 agriculture 的所有列重命名为字符串 agri 我正在考虑使用rename and str contains但不知道如何将它们结合起来以实现我想
python 中的最大主动回撤

我最近问了一个关于计算最大回撤 https stackoverflow com questions 36750571 calculate max draw down with a vectorized solution in python
使用 Fig.update_layout Plotly 更新 Traces 的可见性

从这个问题继续从下拉菜单或按钮中将 sqrt 设置为 y 轴刻度 Python Plotly https stackoverflow com questions 66226542 set sqrt as yaxis scale from
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
获取pandas数据框列中值的长度

我试图获取下面提到的数据框中每个 zipCd 值的长度当我运行下面的代码时每条记录都得到 958 我期待得到更像 4 的东西有人看出问题是什么吗 Code zipDfCopy zipCd str len Data print zipD
Pandas 将列添加到非引用数据框中

这件事让我心潮澎湃好几个小时了也许我遗漏了一些神秘的陷阱但它一定是非常违反直觉的 Trial unq 是一个两列数据帧 Trial unq2 是一个相同的副本 for 循环遍历 unique in 中的所有字符串如果 unique
无法对列数据重新排序

我有数据框而不是序列如果我使用len df columns 我的数据有3586列如何重新排序数据序列 ID V1 V10 V100 V1000 V1001 V1002 V990 V991 V992 V993 V994 A 1 9 0 2
使用 Pandas 数据框中的字数统计来删除仅包含一个单词的行

我有一个包含 2 条记录的数据框数据 id text 0001 The farmer plants grain 0002 tuna 我想统计一下里面的单词数text该数据框的列并删除只有一个单词的行我知道如何计算单词数 count da
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
C++ 压缩字节数组

大家好我加载一组图像并生成体积数据我将此体积数据保存在无符号字符体积 array 现在我想将此数组保存在文件中并检索但在保存之前我想压缩字节数组因为卷数据很大这方面有什么建议吗提前致谢 volume在你的例子中不是一个数组
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo

随机推荐

OSError：libgdal.dylib：无法打开文件

问题是 Docker 无法正常运行因为OSError opt homebrew Cellar gdal 3 3 0 2 lib libgdal dylib cannot open shared object file No such fi
使用 Pyx 绘制大括号

如何使用 Pyx 在任意两个点之间绘制一条支撑线它看起来像这样大括号示例http tof canardpc com view d16770a8 0fc6 4e9d b43c a11eaa09304d http tof canardp
如何编写一个以两个矩阵 A 和 B 作为输入并输出乘积矩阵 A*B 的函数？

如何编写一个以两个矩阵 A 和 B 作为输入并输出乘积矩阵 A B 的函数使用 MATLAB 带有循环和条件我的尝试 function prodAB MultiplicoMatrices A B prod 0 prodAB for i
发生特定情况时如何停止 Kotlin 流程

如果代码中发生某些情况我想取消 kotlin 流程假设我有一个方法如下 fun test Flow
自定义设备控制器不工作

我有两个模型居民和用户它们都包含 roll number 属性我现在已经在驻留模型中输入了数据当用户注册哪个是 Devise 资源时它会检查驻留模型中是否存在相同的 roll number 然后就可以注册用户了所以基本上我向 De
替换JS中某个字符的所有实例？

我正在尝试创建一个简单的函数来替换 JS 中字符串中某个字符的所有实例在这种情况下我想替换所有a s with o s 我很确定代码是正确的但输出仍然是原始字符串 function replaceLetter string for v
mongorestore 随机崩溃（致命错误）

我使用的是 macOS 10 12 mongod version db version v3 2 8 git version ed70e33130c977bda0024c125b56d159573dbaf0 OpenSSL version
如何在源代码中查找搜索词

我正在寻找一种在项目的 C C 代码中搜索给定术语的方法同时忽略注释和字符串中出现的任何情况由于代码库相当大我正在寻找一种方法自动地识别与我的搜索词匹配的代码行因为它们需要手动检查如果可能的话我想在我的 Linux 系统上执行搜
绘制相同值时显示更大的点

当我绘制以下示例时 Participant lt c 1 12 AnswersDay1 lt c 9 3 9 13 7 12 10 7 9 0 12 11 Day1Group lt c 0 1 0 1 0 1 0 1 0 1 0 1 Pus
傅立叶空间中的滤波器的行为与预期不同

这是我提出的已回答问题的后续内容可以找到here https stackoverflow com questions 54022376 inverse fft returns negative values when it should
RDP(VM) 最小化时自动化脚本失败

我一直面临着在其中一台虚拟机上自动执行脚本的问题我已经实现了保存文档功能的自动化该功能最好是 Windows 设计的 UI 我尝试过使用各种技术工具如 AutoIT Python Sikuli 但如果虚拟机最小化脚本就会停止如果
使用 Savon 在 Ruby on Rails 中进行 SOAP 调用在信封和主要操作方面变得很奇怪

在使用 Savon rb 的 Rails 项目中我尝试进行非常复杂的 SOAP 调用至少复杂到 Savon 构建者太麻烦了所以我决定直接操作 xml 首先我启动客户端 client Savon client endpoint gt h
有 XHTML 5 验证器吗？

是否有专门针对 XHTML 5 的验证器即 HTML 5 的 XML 序列化这W3C 验证器 http validator w3 org 支持文档类型 HTML 5 experimental which treats as valid
从第二次“应用内购买”开始在 Android 中抛出异常

我正在尝试包含在应用程序购买中并且已成功显示可用的 SKU 现在我想进行虚假购买所以我使用了 appId android test purchased 第一次它工作完美但从接下来它抛出异常如下所示尝试在空对象引用上调用虚拟方法 a
为什么主键顺序很重要？

我最近在 EntityFramework 项目中设置了一个类它将其几个成员指定为组合键但是当需要从中创建数据库时它给出了错误无法确定类型 NNNNN 的复合主键排序使用 ColumnAttribute 或 HasKey 方法指定
如何对异常处理程序中间件进行单元测试

我正在尝试使用自定义错误处理程序为我的 NET Core 3 API 返回格式正确的异常处理程序工作得很好我遇到的问题是编写适当的单元测试来测试处理程序我为此注册了中间件如下所示 public void Configure IApp
如何使用 Angular 2(typescript) 将数据和图像传递到“ASP.NET Core”Web API？

我有只能将数据传递到 Web API 的代码但我想将数据和图像都传递到同样的要求不在使用 Angular 2 TypeScript 和 ASP Net Core Web API 的不同请求中我的将数据传递给API的代码角度代码 cre
合并 2 个或更多 ELF 文件的最简单方法

我正在为一个类项目编写一些嵌入式代码该项目当前根据要求创建了许多 srec 文件并合并它们我希望能够将此代码加载到 QEMU 中但它通常只对 ELF 文件满意合并原始 ELF 文件而不是 srecs 的最有效方法是什么同样可以
jQuery Datatables 在列中插入字段值

我有一个 jQuery 数据表插件它执行以下操作 tr th Id th th Datee th th Delete th tr data dataTable bProcessing true bServerSide true sAjax
为了实现快速读/写性能（在 Python/pandas 中），推荐的 HDF5 压缩是多少？

我曾多次读到在 HDF5 中打开压缩可以带来更好的读写性能我想知道什么理想的设置可以在以下位置实现良好的读写性能 data df to hdf format fixed complib complevel chunksize 我已经

热门标签