使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级

2024-04-11

我正在反序列化大型 numpy 数组（本例中为 500MB），我发现不同方法的结果存在数量级差异。以下是我计时的 3 种方法。

我正在接收来自multiprocessing.shared_memory包，所以数据作为一个memoryview目的。但在这些简单的示例中，我只是预先创建一个字节数组来运行测试。

我想知道这些方法是否有任何错误，或者是否还有其他技术我没有尝试过。如果您想快速移动数据而不只是为了 IO 锁定 GIL，那么 Python 中的反序列化确实是一个棘手的问题。对为什么这些方法差异如此之大的一个很好的解释也是一个很好的答案。

""" Deserialization speed test """
import numpy as np
import pickle
import time
import io


sz = 524288000
sample = np.random.randint(0, 255, size=sz, dtype=np.uint8)  # 500 MB data
serialized_sample = pickle.dumps(sample)
serialized_bytes = sample.tobytes()
serialized_bytesio = io.BytesIO()
np.save(serialized_bytesio, sample, allow_pickle=False)
serialized_bytesio.seek(0)

result = None

print('Deserialize using pickle...')
t0 = time.time()
result = pickle.loads(serialized_sample)
print('Time: {:.10f} sec'.format(time.time() - t0))

print('Deserialize from bytes...')
t0 = time.time()
result = np.ndarray(shape=sz, dtype=np.uint8, buffer=serialized_bytes)
print('Time: {:.10f} sec'.format(time.time() - t0))

print('Deserialize using numpy load from BytesIO...')
t0 = time.time()
result = np.load(serialized_bytesio, allow_pickle=False)
print('Time: {:.10f} sec'.format(time.time() - t0))

Results:

Deserialize using pickle...
Time: 0.2509949207 sec
Deserialize from bytes...
Time: 0.0204288960 sec
Deserialize using numpy load from BytesIO...
Time: 28.9850852489 sec

第二个选项是最快的，但明显不太优雅，因为我需要显式序列化形状和数据类型信息。

我发现你的问题很有用，我正在寻找最好的 numpy 序列化并确认 np.load() 是最好的，除了它被击败pyarrow在我下面的附加测试中。 Arrow 现在是一个超级流行的分布式计算数据序列化框架（例如 Spark，...）

""" Deserialization speed test """
import numpy as np
import pickle
import time
import io
import pyarrow as pa


sz = 524288000
sample = np.random.randint(0, 255, size=sz, dtype=np.uint8)  # 500 MB data
pa_buf = pa.serialize(sample).to_buffer()

serialized_sample = pickle.dumps(sample)
serialized_bytes = sample.tobytes()
serialized_bytesio = io.BytesIO()
np.save(serialized_bytesio, sample, allow_pickle=False)
serialized_bytesio.seek(0)

result = None

print('Deserialize using pickle...')
t0 = time.time()
result = pickle.loads(serialized_sample)
print('Time: {:.10f} sec'.format(time.time() - t0))

print('Deserialize from bytes...')
t0 = time.time()
result = np.ndarray(shape=sz, dtype=np.uint8, buffer=serialized_bytes)
print('Time: {:.10f} sec'.format(time.time() - t0))

print('Deserialize using numpy load from BytesIO...')
t0 = time.time()
result = np.load(serialized_bytesio, allow_pickle=False)
print('Time: {:.10f} sec'.format(time.time() - t0))

print('Deserialize pyarrow')
t0 = time.time()
restored_data = pa.deserialize(pa_buf)
print('Time: {:.10f} sec'.format(time.time() - t0))

Databricks Runtime 8.3ML Python 3.8、Numpy 1.19.2、Pyarrow 1.0.1 上 i3.2xlarge 的结果

Deserialize using pickle...
Time: 0.4069395065 sec
Deserialize from bytes...
Time: 0.0281322002 sec
Deserialize using numpy load from BytesIO...
Time: 0.3059172630 sec
Deserialize pyarrow
Time: 0.0031735897 sec

你的 BytesIO 结果大约是我的 100 倍，我不知道为什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

deserialization

python38

使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级的相关文章

Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
通过索引访问Python字典的元素

考虑一个像这样的字典 mydict Apple American 16 Mexican 10 Chinese 5 Grapes Arabian 25 Indian 20 例如我如何访问该字典的特定元素例如我想在对 Apple 的第一个
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这

随机推荐

Tensorflow 2：如何在 GPU 和 CPU 之间切换执行？

In tensorflow1 X 独立keras2 X 中我曾经使用以下代码片段在 GPU 上的训练和 CPU 上运行推理之间切换由于某种原因我的 RNN 模型速度要快得多 keras backend clear session de
Cosmosdb sql api 和 Cosmosdb cassandra api 之间的存储差异是什么

大多数文章都提到如果我们使用 Cosmos Db 并新创建我们的应用程序我们应该使用 Cosmos db sql api 当您已经将应用程序与实际的 mongo 和 cassandra 集成并且我们希望快速迁移到 cosmosdb 并且
不带端口的 SQL Server 命名实例远程连接

我有一个 SQL Server Express 的命名实例我想让它在网络上可见我能够做到这一点但其他机器只能连接到指定端口号即使它是默认端口例如其他机器可以使用以下方式连接到我的机器 1433 是 SQL Server 的默认端
CSS：可以将 Webkit 滚动条“推”到内容中吗？

通常滚动条的位置如下 content scrollbar 我基本上希望在自定义滚动条和可
在 iOS 中以编程方式清空缓存

有谁巧合地知道我如何清空我正在开发的iOS应用程序的缓存内存在它进入后台 applicationDidEnterBackground 的那一刻我已经调查了 NSCache 但我仍然无法理解如何检索缓存以基本上删除释放它你说的是这个吗
powerpoint vba将某些幻灯片导出为pdf

我试图在调用此函数时将选定的幻灯片导出为 pdf 这段代码运行得非常好但给我的是整个幻灯片的 PDF 格式 Sub Export to PDF ActivePresentation ExportAsFixedFormat ActivePr
最小购物车金额（WooCommerce 中的特定产品除外）

我只允许在我的网站上进行最低价值 15 欧元的订单但希望对一种产品进行例外处理如果有人知道如何在这方面帮助我我将非常感激最小订单值的编码如下有人知道我如何调整它以通过产品 ID 排除一种产品吗 add action woocomm
内存中的方法表示是什么？

在思考一下 Java C 编程时我想知道属于对象的方法如何在内存中表示以及这一事实如何涉及多线程是为内存中的每个对象单独实例化一个方法还是执行同一类型的所有对象共享该方法的一个实例如果是后者执行线程如何知道哪个对象是要使用的属
PHP 发送的 ZIP 存档已损坏

我正在使用 php ZipArchive 即时创建 zip 文件并将其发送回用户我将压缩文件暂时存储在文档根目录上方的文件夹中然后将其与代码一起发回 header Content type application zip header
何时使用 $ 何时不使用

我使用以下变量选择了一个控件 var txt text1 现在当我必须处理文本框上的事件时我是否必须将其引用为 txt 或 txt 即可 txt keydown function or txt keydown function 有什么好
为什么 File::isDirectory 作为 FileFilter 可以正常工作？

Why 文件是目录在下面的示例中作为 FileFilter 工作正常吗 File files new File listFiles File isDirectory listFiles方法需要一个FileFilter作为参数 publi
Android ActionBar 重新创建选项菜单

在Android中使用ActionBar时如何刷新选项菜单我尝试隐藏和显示该栏并使用 getSupportActionBar 获取它的新实例我正在尝试实现一个登录注销按钮该按钮将根据用户的状态动态更改这是我的 onCreate
Google Big-query api 403-禁止异常

当我使用 Big Query API 的 java 应用程序执行查询时出现以下 JSON 异常以下是我得到的异常 error errors domain global reason accessDenied message Access
使用 regexp_substr 选择逗号之间的单词（不包括双引号）

我试图从逗号分隔列表中返回字符串列表但是我仍然想返回字符串中出现在双引号之间的逗号这是我目前的声明 SELECT regexp substr one two three four five six seven eight nine n
Jquery Draggables：删除元素会更改其他删除元素的位置

当放置放置元素通过从一个 DIV 拖动到另一个 DIV 然后删除放置的 DIV 中的一个元素时其中一些元素会更改位置这是一个测试场景 http jsfiddle net TcYHW 8 http jsfiddle net TcYHW
你已经从颠覆转向善变了吗？值得付出努力吗？

我正在更好地了解 Mercurial 版本控制系统并且正在考虑从 SVN 进行转换有人已经转换了吗对于您和您的团队来说转变是否困难您能否给出一些建议是继续使用 SVN 还是选择 Mercurial 一旦开始你就永远不想回去优
Gnuplot脚本创建后消失

我有一个 gnuplot 脚本我的系统是ubuntu 14 04 当我在终端输入gnuplot myPlot 剧情将会消失它不会保留在屏幕上我在这个堆栈中看到了类似的question https stackoverflow com q
如何在更新宏变量的数据步骤中调用宏并立即使用该值？

下面的例子非常简单可能可以用更简单的方式解决不过我有兴趣让它发挥作用以下示例基于 sashelp library 的 cars dataset 首先我有一个名为 fun 的宏 proc contents data sashelp
如何在 Jinja 中对齐 Pandas DataFrame 列号文本

我通过 Jinja 将 Pandas Dataframe 渲染到网页但注意到数字列左对齐当我尝试在特定列上应用下面的代码以右对齐并加载网页时 df df style set properties subset col1 col2 tex
使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级

我正在反序列化大型 numpy 数组本例中为 500MB 我发现不同方法的结果存在数量级差异以下是我计时的 3 种方法我正在接收来自multiprocessing shared memory包所以数据作为一个memoryview目的

使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级

使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级 的相关文章

随机推荐

热门标签

使用 pickle 反序列化大型 numpy 数组比使用 numpy 慢几个数量级的相关文章