与 Matlab 相比，Numpy 加载 csv 太慢

2024-04-22

我发布这个问题是因为我想知道我是否做了一些非常错误的事情才能得到这个结果。

我有一个中等大小的 csv 文件，我尝试使用 numpy 来加载它。为了便于说明，我使用 python 创建了该文件：

import timeit
import numpy as np

my_data = np.random.rand(1500000, 3)*10
np.savetxt('./test.csv', my_data, delimiter=',', fmt='%.2f')

然后，我尝试了两种方法：numpy.genfromtxt、numpy.loadtxt

setup_stmt = 'import numpy as np'
stmt1 = """\
my_data = np.genfromtxt('./test.csv', delimiter=',')
"""
stmt2 = """\
my_data = np.loadtxt('./test.csv', delimiter=',')
"""

t1 = timeit.timeit(stmt=stmt1, setup=setup_stmt, number=3)
t2 = timeit.timeit(stmt=stmt2, setup=setup_stmt, number=3)

结果表明t1 = 32.159652940464184，t2 = 52.00093725634724.
然而，当我尝试使用 matlab 时：

tic
for i = 1:3
    my_data = dlmread('./test.csv');
end
toc

结果显示：经过的时间为3.196465秒.

我知道加载速度可能存在一些差异，但是：

这比我预期的要多得多；
难道 np.loadtxt 应该比 np.genfromtxt 更快吗？
我还没有尝试过 python csv 模块，因为加载 csv 文件是我经常做的事情，并且使用 csv 模块，编码有点冗长......但如果这是唯一的方法，我很乐意尝试它。现在我更担心是不是我做错了什么。

任何意见将不胜感激。预先非常感谢！

是的，读书csv文件到numpy是相当慢的。代码路径中有很多纯Python。这些天，即使我使用纯numpy我还在用pandas for IO:

>>> import numpy as np, pandas as pd
>>> %time d = np.genfromtxt("./test.csv", delimiter=",")
CPU times: user 14.5 s, sys: 396 ms, total: 14.9 s
Wall time: 14.9 s
>>> %time d = np.loadtxt("./test.csv", delimiter=",")
CPU times: user 25.7 s, sys: 28 ms, total: 25.8 s
Wall time: 25.8 s
>>> %time d = pd.read_csv("./test.csv", delimiter=",").values
CPU times: user 740 ms, sys: 36 ms, total: 776 ms
Wall time: 780 ms

或者，在像这样的足够简单的情况下，您可以使用类似于 Joe Kington 所写的内容here https://stackoverflow.com/questions/8956832/python-out-of-memory-on-large-csv-file-numpy:

>>> %time data = iter_loadtxt("test.csv")
CPU times: user 2.84 s, sys: 24 ms, total: 2.86 s
Wall time: 2.86 s

还有沃伦·韦凯瑟的文本阅读器 https://github.com/WarrenWeckesser/textreader图书馆，以防万一pandas依赖性太重：

>>> import textreader
>>> %time d = textreader.readrows("test.csv", float, ",")
readrows: numrows = 1500000
CPU times: user 1.3 s, sys: 40 ms, total: 1.34 s
Wall time: 1.34 s

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

MATLAB

csv

NumPy

与 Matlab 相比，Numpy 加载 csv 太慢的相关文章

如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
蟒蛇 |如何将元素随机添加到列表中

有没有一种方法可以将元素随机添加到列表中内置函数 ex def random append lst a lst append b lst append c lst append d lst append e return print ls
如何在“python setup.py test”中运行 py.test 和 linter

我有一个项目setup py文件我用pytest作为测试框架我还在我的代码上运行各种 linter pep8 pylint pydocstyle pyflakes ETC 我用tox在多个 Python 版本中运行它们并使用以下命令构
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
远程控制或脚本打开 Office 从 Python 编辑 Word 文档

我想最好在 Windows 上在特定文档上启动 Open Office 搜索固定字符串并将其替换为我的程序选择的另一个字符串我该如何从外部 Python 程序中做到这一点 OLE 什么原生 Python 脚本解决方案 The doc
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
Pandas，按最大返回值进行分组 AssertionError：

熊猫有问题我想听听你的意见我有这个数据框我需要在其中获取最大值代码就在下面 df stack pd DataFrame 1 0 2016 0 NonResidential Hotel 98101 0 DOWNTOWN 47 6122
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
优化 MATLAB 代码（嵌套 for 循环计算相似度矩阵）

我正在 MATLAB 中基于欧几里德距离计算相似度矩阵我的代码如下 for i 1 N M N is the size of the matrix x for whose elements I am computing similarit
如何将reportlab与Google应用程序引擎一起使用

我无法在谷歌应用程序引擎下正确导入reportlab 根据以下guide http blog notdot net 2010 04 Generating PDFs on App Engine Python and introducing M
Docker 日志中的 Python 异常标记为流：stdout

我想解析和处理来自 docker 容器的所有错误但当我期望 stderr 时 Python 异常标记为 stdout 举个简单的例子app py raise Exception 然后我在 docker 容器中运行这个文件但在 var l
从 Apache 运行 python 脚本的最简单方法

我花了很长时间试图弄清楚这一点我基本上正在尝试开发一个网站当用户单击特定按钮时我必须在其中执行 python 脚本在研究了 Stack Overflow 和 Google 之后我需要配置 Apache 以便能够运行 CGI 脚本
Matlab Solve()：未给出所有解决方案

我试图找到两条曲线的交点 syms x y g x 20 exp x 30 3 5 1 sol x sol y solve x 22 3097 2 y 16 2497 2 25 y g x x y Real true 它只提供一种解决方案
如何抑制 Pandas Future 警告？

当我运行该程序时 Pandas 每次都会给出如下所示的未来警告 D Python lib site packages pandas core frame py 3581 FutureWarning rename with inplace

随机推荐

Gridpane 中的 JavaFx 图像会大幅降低性能

我想创建一个 GridPane 嵌套在 ScrollPane 中在其中动态添加单元格到 GridPane 每个单元格都包含一个带有背景图像的 VBox 一些标签和一个复选框问题是 GridPane 可以包含数百个 VBox 在我的例子中
为什么 Google 测试工具使用“id”属性来生成微数据项的 URL？

我正在使用一些微数据来描述一篇博客文章我对 Schema org 的价值回报感到惊讶BlogPosting通过 Google 开发者测试工具我本以为它是 itempropurl 不是网站 URL 和项目的合并id 我做错了什么还是只是
jQuery，选择具有属性的最近兄弟（下一个或上一个）

我有一个类似于下面标记的选择下拉列表
如何使用java上传谷歌云存储中的文件

我已经尝试使用java在Google云存储中上传文件很长时间了通过浏览我找到了这段代码但无法准确理解任何人都可以定制这个以在 GCS 中上传文件吗 Given InputStream inputStream object data e
更快的位图对比度算法

我有一个带有轨迹栏滑块控件的工具用于调整图像的亮度对比度伽玛值等我试图在用户拖动滑块时实时更新我的图像亮度和伽玛算法的速度是可以接受的大约170ms 但对比算法大约是380ms 基本上我的表单是一个带有滑块的工具窗口每次更新
循环遍历一组谷歌工作表值

我有2组数据一是坦克名称 Tank Name A1 A2 B1 B2 接下来是开关数据 ON OFF 0 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 现在我要查看的结果是当ON OFF为1时
将鼠标悬停在 Shiny 中的元素上时如何更改绘图？

我正在寻找一种解决方案当用户将鼠标悬停在同一面板中的超链接上时可以更改 Shiny 应用程序中的绘图这是一个简单的例子 library shiny words lt sort sapply 1 50 USE NAMES F FUN f
由于 istio-sidecar 注入，Kubernetes 部署失败

我们的 K8 集群工作了一年多最近它出现了一些奇怪的行为现在当我们使用kubectl apply f deployment manifest yaml 它没有显示在kubectl get pods 但显示在kubectl get dep
从 ggraph 网络图表中检索节点坐标

假设我制作了这个图表 library ggraph library igraph my chart lt graph from data frame highschool set seed 2017 ggraph my chart layo
React - 组件内动态创建列表项

有什么办法可以添加动态li元素融入我的ul列表我想添加我的li单击按钮这是示例代码 class Component1 extends React Component constructor super add let ul docume
如何在一个解决方案中为两个单独的项目在 asp.net core 中设置路由？

我创建了两个 asp net core mvc 项目它们分别工作正常每一个在其 startup cs 文件中都有自己的路由当我启动它们时它们运行良好我的问题是如何从第一个项目设置第二个项目路线我应该在第一个项目中更改哪里我应
如何使用 Microsoft.Office.Interop.Excel 从 Excel 导入数据集？

我想做的事我正在尝试使用Microsoft Office Interop Excel名称空间 http msdn microsoft com en us library microsoft office interop excel 28v
在 iPhone 中点击按钮时打开文件对话框

我做了一个可可应用程序其中在可可应用程序中使用 NSOpenPanel 控制器点击按钮时打开文件对话框对于 ipad 应用程序我们使用 UISplitViewController 我想知道在 iPhone 中开发应用程序时点击按钮
如何将引导日期选择器放入我的表单中并在日期参数中包含值？

我正在使用 bootstrap datepicker js 并且它工作正常 div class well div class input append date div div
问答：我如何知道该月的最后一天是哪一天？

我试图编写一个自己的时区转换器我需要一种方法来确定该月的最后一天是哪一天经过一番研究我发现了查找闰年的公式这是一个小小的贡献但也许我可以为其他人节省 20 分钟的时间来弄清楚并应用它此代码接受带符号的短月份索引为 0 0 是一
ORACLE Select Distinct 返回许多列，其中

我有一个看起来像这样的表 NAME Col1 Col2 Col3 Tim 1 2 3 Tim 1 1 2 Tim 2 1 2 Dan 1 2 3 Dan 2 2 1 Dan 2 1 3 我试图创建一个 SELECT 命令结果如下 NAME
R 中的线性插值

我有一个真实数据的数据集例如如下所示 Dataset 1 with known data known lt data frame x c 0 6 y c 0 10 20 23 41 39 61 plot known x known y t
UIImage 内存未释放 VM：ImageIO_JPEG_DATA？

我在屏幕上同时有多个水平滚动的集合视图它们都充满了图像所有这些图像都通过 Parse api 在后台加载我正在运行 Instrument 的分配并且匿名 VM ImageIO JPEG DATA 类别占用了大部分正在使用的内存应用
linux终端动画-延迟打印“帧”的最佳方法（C语言）

我正在为终端开发一个简单的 pong 克隆并且需要一种方法来延迟帧的打印我有一个二维数组 screen ROWS COLUMNS 以及打印屏幕的函数 void printScreen int i 0 int j while i lt
与 Matlab 相比，Numpy 加载 csv 太慢

我发布这个问题是因为我想知道我是否做了一些非常错误的事情才能得到这个结果我有一个中等大小的 csv 文件我尝试使用 numpy 来加载它为了便于说明我使用 python 创建了该文件 import timeit import num

与 Matlab 相比，Numpy 加载 csv 太慢

与 Matlab 相比，Numpy 加载 csv 太慢 的相关文章

随机推荐

热门标签

与 Matlab 相比，Numpy 加载 csv 太慢的相关文章