HDF5 - 并发、压缩和 I/O 性能 [关闭]

2024-04-04

我对 HDF5 性能和并发性有以下疑问：

HDF5 支持并发写访问吗？
撇开并发因素不谈，HDF5 的性能如何？输入/输出性能 (does 压缩率影响性能）？
由于我将 HDF5 与 Python 结合使用，它的性能与 Sqlite 相比如何？

参考：

http://www.sqlite.org/faq.html#q5 http://www.sqlite.org/faq.html#q5
可以在 NFS 文件系统上锁定 sqlite 文件吗？ https://stackoverflow.com/questions/9907429/locking-sqlite-file-on-nfs-filesystem-possible
http://pandas.pydata.org/ http://pandas.pydata.org/

更新为使用 pandas 0.13.1

No. http://pandas.pydata.org/pandas-docs/dev/io.html#notes-caveats http://pandas.pydata.org/pandas-docs/dev/io.html#notes-caveats。有多种方法可以do这个，例如让不同的线程/进程写出计算结果，然后将单个进程组合起来。
depending the type of data you store, how you do it, and how you want to retrieve, HDF5 can offer vastly better performance. Storing in an HDFStore as a single array, float data, compressed (in other words, not storing it in a format that allows for querying), will be stored/read amazingly fast. Even storing in the table format (which slows down the write performance), will offer quite good write performance. You can look at this for some detailed comparisons (which is what HDFStore uses under the hood). http://www.pytables.org/ http://www.pytables.org/, here's a nice picture:

自 PyTables 2.3 以来，查询现在已建立索引，因此性能实际上比这要好得多。

回答你的问题，如果你想要任何类型的性能，HDF5 是最佳选择。

Writing:

In [14]: %timeit test_sql_write(df)
1 loops, best of 3: 6.24 s per loop

In [15]: %timeit test_hdf_fixed_write(df)
1 loops, best of 3: 237 ms per loop

In [16]: %timeit test_hdf_table_write(df)
1 loops, best of 3: 901 ms per loop

In [17]: %timeit test_csv_write(df)
1 loops, best of 3: 3.44 s per loop

Reading

In [18]: %timeit test_sql_read()
1 loops, best of 3: 766 ms per loop

In [19]: %timeit test_hdf_fixed_read()
10 loops, best of 3: 19.1 ms per loop

In [20]: %timeit test_hdf_table_read()
10 loops, best of 3: 39 ms per loop

In [22]: %timeit test_csv_read()
1 loops, best of 3: 620 ms per loop

这是代码

import sqlite3
import os
from pandas.io import sql

In [3]: df = DataFrame(randn(1000000,2),columns=list('AB'))
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
A    1000000  non-null values
B    1000000  non-null values
dtypes: float64(2)
   
def test_sql_write(df):
    if os.path.exists('test.sql'):
        os.remove('test.sql')
    sql_db = sqlite3.connect('test.sql')
    sql.write_frame(df, name='test_table', con=sql_db)
    sql_db.close()

def test_sql_read():
    sql_db = sqlite3.connect('test.sql')
    sql.read_frame("select * from test_table", sql_db)
    sql_db.close()
    
def test_hdf_fixed_write(df):
    df.to_hdf('test_fixed.hdf','test',mode='w')

def test_csv_read():
    pd.read_csv('test.csv',index_col=0)

def test_csv_write(df):
    df.to_csv('test.csv',mode='w')    

def test_hdf_fixed_read():
    pd.read_hdf('test_fixed.hdf','test')

def test_hdf_table_write(df):
    df.to_hdf('test_table.hdf','test',format='table',mode='w')

def test_hdf_table_read():
    pd.read_hdf('test_table.hdf','test')

当然YMMV。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

SQLite

pandas

HDF5

HDF5 - 并发、压缩和 I/O 性能 [关闭] 的相关文章

如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
在 Python 中倾斜数组

我有一个 2D 数组我将使用它保存为灰度图像scipy misc toimage 在此之前我想将图像倾斜给定角度像这样进行插值scipy ndimage interpolation rotate 上图只是为了说明倾斜过程我知道我必须
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
指定的 sqlite3 gem 未加载

虽然我对 Ruby on Rails 比较陌生但我开发应用程序已经有一段时间了我似乎遇到的问题是当我创建一个新的 Rails 应用程序本地使用 c9 时当我启动 apache 服务器时我似乎收到此错误 Specified sq
如何找到查询结果的大小

我在 Rails 中有以下查询 records Record select y id source where source gt source y id gt y id group y id source having count 1 如
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
如何单独捕获这些异常？

我正在编写一个与 Quickbooks 交互的 Python 程序连接到 Quickbooks 时根据问题的不同我可能会遇到以下两个常见异常之一 pywintypes com error 2147352567 Exception oc
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如
Pandas：数据帧累积和，如果其他列为假则重置[重复]

这个问题在这里已经有答案了我有一个包含 2 列的数据框这里的目标很简单如果行列设置为 False 则重置 df cumsum df value condition 0 1 1 1 2 1 2 3 1 3 4 0 4 5 1 想要的结果

随机推荐

Java中易失性变量和普通变量的显示区别

我正在尝试创建一个示例来显示易失性变量和常用变量之间的区别例如 package main public class TestVolatile extends Thread public int l 5 public volatile in
UITableView reloadData 不重新加载

我很困惑为什么 reloadData 不重新加载 tableview 它不调用numberOfRowsInSection The fetchedResultsController将新数据保存到核心数据后确实获得新行在将新数据添加到表视图之
Java - 易失性的使用仅在多处理器系统中有意义？

易失性的使用仅在多处理器系统中才有意义这是错误的吗我正在尝试学习线程编程所以如果你知道任何好的文章 pdf 我喜欢提到一些关于操作系统如何工作的东西而不仅仅是语言的语法否挥发性可用于多线程应用程序它们可能会也可能不会在多个处理
将 javascript 字符串转换为 html 对象 [重复]

这个问题在这里已经有答案了我可以将字符串转换为 html 对象吗喜欢 string s div div var htmlObject s toHtmlObject 这样我以后就可以通过 id 获取它并对其样式进行一些更改 var ho
如何在CKEditor激活时在HTML5文本区域中显示占位符属性？

我在 HTML5 网站中有一个文本区域具有适当的占位符示例文本属性在我通过 CKEditor 添加 RichText 支持之前它显示得很好 CKEditor GUI 正在重新创建文本区域并且不显示其中的占位符文本有没有办法在
使用foreignObject使用D3js动态添加SVG

working
如何将文本放入可绘制对象中？

我正在尝试动态创建一个可绘制对象以用作自定义线性布局的背景它需要有哈希标记之类的没什么大不了的而且还需要有数字来标记哈希标记的内容就像一把尺子我知道我可以创建文本元素并将它们放入线性布局中然后将哈希标记放入可绘制对象中但我希
extjs 树面板上下文菜单不起作用

var menu1 new Ext menu Menu items text Open in new tab var treePanel Ext create Ext tree Panel id tree panel region cent
ASP.NET MVC 3 使用身份验证

如何使用 FormsAuthentication 保存某些内容我不想通过 URL 存储用户 ID 例如现在我有这样的代码 UserController class HttpPost public ActionResult LogOn L
如何使用 PHP 打破外循环？

我正在寻找打破 PHP 中的外部 for foreach 循环这可以在 ActionScript 中完成如下所示 top for each var i MovieClip in movieClipArray for each var j
使用反应钩子 getSnapshotBeforeUpdate

如何使用 React hooks 实现 getSnapshotBeforeUpdate 提供的相同逻辑根据React Hook 常见问题解答 https reactjs org docs hooks faq html do hooks c
为什么 python docker 镜像这么大（~750 MB）？

My Dockerfile FROM python 3 onbuild CMD python test py test py print hello world 构建图像 docker build t my test app docker
如何渲染模板和布局？

在控制器方法中如何渲染模板和布局 Like so def new render template gt devise invitations new layout gt application unauthorized2 t2 end r
VS2010中关闭双击取消停靠

我总是不小心双击 VS2010 中的选项卡并取消停靠它们是否可以关闭此行为注意我正在使用 Productivity Power Tools 中的 Document Well 2010 Plus 以防产生影响在文档选项卡上找到它以及高
重命名实体框架 T4 模板生成的类名称？

我有一个包含大量表的数据库不幸的是这些表的命名没有任何标准约定表名另一个表名还有另一个表名垃圾表我使用实体框架和标准 T4 代码生成模板在 C 中创建 POCO 类是否有我可以遵循的最佳实践让我可以合并自己的约定在 C 应
Excel - VLOOKUP 与 INDEX/MATCH - 哪个更好？

我了解如何使用每种方法 VLOOKUP or HLOOKUP vs INDEX MATCH 我寻找它们之间的差异不是出于个人喜好而是主要在以下方面是否有一种方法可以做到而另一种方法不能做到的事情一般来说哪一种更有效或者取决于具体情
如何导入具有正确类型的 Vue 类组件？

例如如果我有一个单文件 Vue 类组件 MyComponent vue
在 jQuery .serialize() 中包含空值字段

我正在尝试通过 jQuery post 提交表单并通过序列化表单数据 form serialize 不幸的是未选中的字段单选按钮 or 复选框没有被序列化因此已提交有没有办法包含所有字段无论它们是否包含值我想这只会影响这样的字段
使用seaborn和pandas绘图防止重叠条

我正在尝试使用 pandas 绘图来创建带有 seaborn 导入的堆叠水平条形图我想删除条之间的空间但也不让条重叠这是我尝试过的 import pandas as pd import numpy as pd import seabo
HDF5 - 并发、压缩和 I/O 性能 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我对 HDF5 性能和并发性有以下疑问 HDF5 支持并发写访问吗撇开并发因素不谈 HDF5 的性能如何输入输出性能 does 压缩率影响性能

HDF5 - 并发、压缩和 I/O 性能 [关闭]

HDF5 - 并发、压缩和 I/O 性能 [关闭] 的相关文章

随机推荐

热门标签