与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？

2023-12-21

我正在使用的系统当前运行大型（> 5GB）.csv 文件。为了提高性能，我正在测试（A）从磁盘创建数据帧的不同方法（pandas VSdask http://pythondata.com/dask-large-csv-python/）以及（B）将结果存储到磁盘的不同方式（.csv VShdf5 https://dzone.com/articles/quick-hdf5-pandas files).

为了对性能进行基准测试，我执行了以下操作：

def dask_read_from_hdf():
    results_dd_hdf = dd.read_hdf('store.h5', key='period1', columns = ['Security'])
    analyzed_stocks_dd_hdf =  results_dd_hdf.Security.unique()
    hdf.close()

def pandas_read_from_hdf():
    results_pd_hdf = pd.read_hdf('store.h5', key='period1', columns = ['Security'])
    analyzed_stocks_pd_hdf =  results_pd_hdf.Security.unique()
    hdf.close()

def dask_read_from_csv():
    results_dd_csv = dd.read_csv(results_path, sep = ",", usecols = [0], header = 1, names = ["Security"])
    analyzed_stocks_dd_csv =  results_dd_csv.Security.unique()

def pandas_read_from_csv():
    results_pd_csv = pd.read_csv(results_path, sep = ",", usecols = [0], header = 1, names = ["Security"])
    analyzed_stocks_pd_csv =  results_pd_csv.Security.unique()

print "dask hdf performance"
%timeit dask_read_from_hdf()
gc.collect()
print""
print "pandas hdf performance"
%timeit pandas_read_from_hdf()
gc.collect()
print""
print "dask csv performance"
%timeit dask_read_from_csv()
gc.collect()
print""
print "pandas csv performance"
%timeit pandas_read_from_csv()
gc.collect()

我的发现是：

dask hdf performance
10 loops, best of 3: 133 ms per loop

pandas hdf performance
1 loop, best of 3: 1.42 s per loop

dask csv performance
1 loop, best of 3: 7.88 ms per loop

pandas csv performance
1 loop, best of 3: 827 ms per loop

当 hdf5 存储的访问速度比 .csv 更快，并且 dask 创建数据帧比 pandas 更快时，为什么 hdf5 的 dask 比 csv 的 dask 慢？难道我做错了什么？

什么时候从 HDF5 存储对象创建 dask 数据帧对性能有意义？

HDF5 在处理数值数据时效率最高，我猜您正在读取单个字符串列，这是它的弱点。

通过使用 HDF5 可以显着提高字符串数据的性能Categorical存储字符串，假设基数相对较低（重复值数量较多）

这是不久前的事，但这里有一篇很好的博客文章详细介绍了这些考虑因素。http://matthewrocklin.com/blog/work/2015/03/16/Fast-Serialization http://matthewrocklin.com/blog/work/2015/03/16/Fast-Serialization

您还可以考虑使用 parquet - 它与 HDF5 类似，都是二进制格式，但是面向列的，因此像这样的单列选择可能会更快。

最近（2016-2017），在实现 parquet->pandas 的快速本机读取器以及 pandas 的下一个主要版本（0.21）将会有to_parquet and pd.read_parquet内置功能。

https://arrow.apache.org/docs/python/parquet.html https://arrow.apache.org/docs/python/parquet.html

https://fastparquet.readthedocs.io/en/latest/ https://fastparquet.readthedocs.io/en/latest/

https://matthewrocklin.com/blog//work/2017/06/28/use-parquet https://matthewrocklin.com/blog//work/2017/06/28/use-parquet

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？的相关文章

函数名称未定义

我有一段代码看起来像这样 if name main main def main print hello 但是当我尝试运行此代码时出现错误 NameError 名称 main 未定义我是否没有在函数 def main 的第一行定义名称
按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
在 Python 中延迟转置列表

所以我有一个延迟生成的可迭代的三元组我试图弄清楚如何将其转换为 3 个可迭代对象分别由元组的第一个第二个和第三个元素组成然而我希望这件事能懒惰地完成所以举例来说我希望 1 2 3 4 5 6 7 8 9 将变成 1 4 7
创建 xyz 海拔数据的曲面图

我正在尝试用 python 创建一座山的表面图其中我有一些 xyz 数据最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
在 python 中发送标头[重复]

这个问题在这里已经有答案了我有以下 python 脚本我想发送假标头信息以便我的应用程序就像 Firefox 一样运行我怎么能这么做呢 import urllib urllib2 cookielib username passw
如何在plotly（python）中的刻度标签和图形之间添加空格？

如果我使用绘图创建水平条形图则每个条形的标签都与图表相对应我想在标签和图表之间添加一些空间填充边距我怎样才能做到这一点 Example import plotly offline as py import plotly graph
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我
将列表值转换为 pandas 中的行

我有数据帧其中一列具有相同长度的 numpy ndarray 值 df list 0 Out 92 array 0 0 0 0 29273096 0 30691767 0 27531403 我想将这些列表值转换为数据框并从 df iloc
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
Python FTP下载550错误

我编写了一个 ftp 爬虫来下载特定文件它会一直工作直到找到要下载的特定文件然后抛出此错误 ftplib error perm 550 该文件存在于我的下载文件夹中但文件大小为 0 kb 我需要转换某些内容才能下载吗我可以访问 f
Pandas 中每列的曲线拟合 + 外推值

我有一个包含大约 300 列的数据集每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
Pygame：有人可以帮我实现双跳吗？

我知道已经有其他关于此问题的帖子了但我的运动系统与我发现的有点不同所以随后我问这个问题我的运动系统基于一个名为的命名元组Move up left right down 然后就是这个 def update self move block
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
增强迪基-富勒测试中的 BIC 在 Python 中到底是如何工作的？

这个问题是关于 statsmodels tsa stattools python 库 adfuller 中的增强迪基富勒测试实现原则上 AIC 和 BIC 应该计算一组可用模型的信息标准并选择最好的模型信息损失最低的模型但它们在增
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
关闭正在运行代码的 IPython Notebook

怎么运行的我在 IPython Notebook 中运行了一些代码一些迭代工作我不小心关闭了正在运行的笔记本的浏览器但回到 IPython 仪表板我发现这个特定的笔记本尚未关闭所以如果我再次打开笔记本我会在它正在执行的代码前面
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if

随机推荐

使用新的 prefixText 时如何更改 TextInputLayout 的提示填充？

我尝试过实施TextInputLayout与新的prefixText using com google android material material 1 2 0 alpha02 这是一个非常酷的功能但是当我添加前缀文本时提示标签会
为什么 C/C++ 编译器需要在编译时知道数组的大小？

我知道 C99 以及 C 之前的 C 标准规定堆栈上数组的大小必须在编译时已知但这是为什么呢堆栈上的数组是在运行时分配的那么为什么大小在编译时很重要呢希望有人向我解释编译器在编译时将如何处理大小谢谢这种数组的示例是 void
具有最小宽度的 3 列布局（固定、流动、固定）

我在网上搜索过似乎找不到一个干净简单所有浏览器友好的三栏布局我希望有 3 列布局左列固定为 200px 右列固定为 200px 中间列保留剩余宽度但最小宽度为 600px 所以整体最小宽度是 200px 600px 200px
如何访问angular2组件中的全局js变量

我在下面定义了一个全局 js 变量 Url 是一个 ASP Net MVC html 帮助器它将转换为字符串值如何访问 angular2 组件中的 rootVar 我曾经在 Angular 1 5 中使用窗口服务在 Angular2
使用 ADO.Net 实体模型的优点和缺点

HI 使用 ADO NET 实体模型作为数据层有哪些优缺点如果我要使用这项技术我应该使用 LINQ 吗 Thanks 首先您不必使用 LINQ 来使用实体框架 EF 但它确实有帮助 EF 基于 EF 团队所称的东西实体SQL 因此当
Linq 合并左连接数据

假设我有以下数据库 Users UserId PK UserName Roles RoleId PK RoleName UserRoles UserId PK RoleId PK 用户 1 M 用户角色 M 1 角色使用 LinqToSQ
如何在 Windows 7 GAC 中注册 Assembly .net 4.0？

您好我正在使用 vs2010 创建一个 net 4 0 程序集我假装在 GAC 上注册该程序集我找不到 gacutil 也不知道如何在 4 0 GAC 上注册程序集有人可以帮忙吗找到解决方案使用位于以下位置的 GacUtil 进
如何按行长度对文件进行排序，然后按字母顺序对第二个键进行排序？

假设我有一个文件 ab aa c aaaa 我希望它像这样排序 c aa ab aaaa 即按行长度排序然后按字母顺序排序这在 bash 中可能吗您可以在每行前面添加行的长度然后进行数字排序最后剪掉数字 lt your file
PostgreSQL - 使 ts_rank 按原样采用 ts_vector 位置或定义自定义 ts_rank 函数

我正在对电子商务平台中的一系列商品执行加权搜索我遇到的问题是 ts rank 为不同的单词组合提供了完全相同的值即使 ts vector 为每组单词提供了不同的位置让我用一个例子来说明这一点如果我给 ts vector 这个词cam
zsh 和 bash 的 echo 有什么区别？

在 bash 中在这种特定情况下 echo 的行为如下 bash c echo a nb a nb 但在 zsh 中同样的事情结果却截然不同 zsh c echo a nb a b 和鱼因为我很好奇 fish c echo a nb
“类的无参数构造函数不存在”，但它确实存在

我收到错误No args constructor for class MwVolleyApi Page does not exist Register an InstanceCreator with Gson for this type t
Javascript 在 if 语句中返回 false

使用 return false 是个好习惯吗基本上是说在 if 语句中什么都不做例如 if navigator userAgent match iPad i null return false else Usual script her
有没有办法在基于 DOS 的程序中读取键盘修改键，例如 ALT 或 CTRL？

我确实知道您可能会轮询键盘缓冲区以获取修饰键例如 ALT 或 CTRL 但即使在旧的 DOS 程序中当我按下这些键时也会执行一个操作例如通过按 ALT 来更改菜单按钮的颜色在DOS下有没有办法获得这些密钥这是如何做到的我认为在
如何在本地安装 Angular CLI（不带 -g 标志）

我刚刚开始使用 Angular 并与Angular CLI我已经看到根据文档我需要安装 npm install g angular cli与 g 全局标志不过我希望将 Angular CLI 与我的其余部分一起安装在本地节点模块包
Scala 中 Seq[T] 和 T* 之间有区别吗？

我的 IDE 工具显示xs有类型Int 在下面的代码片段中 def accept xs Int true 然而语言参考说重复参数声明为T 有类型Seq T 之间有区别吗Int and Seq Int 它们是不同的 T 泄漏到类型签名中的功
MethodInvoker + lambda + 参数 + 跨线程操作

我用它来更改其他线程上的某些内容 MethodInvoker m gt login submit Text Login if InvokeRequired BeginInvoke m else Invoke m 这工作正常如何将参数传递给
JSmooth 关于捆绑 JRE 的问题

我正在尝试将 JRE 与我的 jar 文件捆绑在一起以便我可以在任何 Windows 计算机上运行我的应用程序无论它是否有 Java jsmooth 手册说 For the option to work correctly you ha
为什么会出现此错误“AttributeError：模块'matplotlib'没有属性'pyplot'”？

我检查了我的 matplotlib 版本 3 5 7 并升级了它但这个错误并没有消失默认绘图显示两次并引发此错误然后如果再次运行单元格则会显示不同的绘图两次我该怎么做绘图已累积并显示错误两次 import numpy as np
面向对象的 Javascript 最佳实践？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？

我正在使用的系统当前运行大型 gt 5GB csv 文件为了提高性能我正在测试 A 从磁盘创建数据帧的不同方法 pandas VSdask http pythondata com dask large csv python 以及 B 将

与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？

与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？ 的相关文章

随机推荐

热门标签

与 HDF5 相比，为什么从 CSV 导入时 pandas 和 dask 的性能更好？的相关文章