将 numpy 数组写入文本文件的速度

2024-05-29

我需要将一个非常“高”的两列数组写入文本文件，而且速度非常慢。我发现如果我将数组改造成更宽的数组，写入速度会快得多。例如

import time
import numpy as np
dataMat1 = np.random.rand(1000,1000)
dataMat2 = np.random.rand(2,500000)
dataMat3 = np.random.rand(500000,2)
start = time.perf_counter()
with open('test1.txt','w') as f:
    np.savetxt(f,dataMat1,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

start = time.perf_counter()
with open('test2.txt','w') as f:
    np.savetxt(f,dataMat2,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

start = time.perf_counter()
with open('test3.txt','w') as f:
    np.savetxt(f,dataMat3,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

三个数据矩阵中的元素数量相同，为什么最后一个比其他两个更耗时？有什么办法可以加快“高”数据数组的写入速度吗？

As 霍利指出 https://stackoverflow.com/a/53820971/190597, savetxt is 循环遍历各行X https://github.com/numpy/numpy/blob/master/numpy/lib/npyio.py#L1420并单独格式化每一行：

for row in X:
    try:
        v = format % tuple(row) + newline
    except TypeError:
        raise TypeError("Mismatch between array dtype ('%s') and "
                        "format specifier ('%s')"
                        % (str(X.dtype), format))
    fh.write(v)

我认为这里主要的时间杀手是所有字符串插值调用。如果我们将所有字符串插值打包到一个调用中，事情就会变得更快：

with open('/tmp/test4.txt','w') as f:
    fmt = ' '.join(['%g']*dataMat3.shape[1])
    fmt = '\n'.join([fmt]*dataMat3.shape[0])
    data = fmt % tuple(dataMat3.ravel())
    f.write(data)

import io
import time
import numpy as np

dataMat1 = np.random.rand(1000,1000)
dataMat2 = np.random.rand(2,500000)
dataMat3 = np.random.rand(500000,2)
start = time.perf_counter()
with open('/tmp/test1.txt','w') as f:
    np.savetxt(f,dataMat1,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

start = time.perf_counter()
with open('/tmp/test2.txt','w') as f:
    np.savetxt(f,dataMat2,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

start = time.perf_counter()
with open('/tmp/test3.txt','w') as f:
    np.savetxt(f,dataMat3,fmt='%g',delimiter=' ')
end = time.perf_counter()
print(end-start)

start = time.perf_counter()
with open('/tmp/test4.txt','w') as f:
    fmt = ' '.join(['%g']*dataMat3.shape[1])
    fmt = '\n'.join([fmt]*dataMat3.shape[0])
    data = fmt % tuple(dataMat3.ravel())        
    f.write(data)
end = time.perf_counter()
print(end-start)

reports

0.1604848340011813
0.17416274400056864
0.6634929459996783
0.16207673999997496

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

NumPy

将 numpy 数组写入文本文件的速度的相关文章

如何在redis中使用python删除排序集中的项目

如何使用 python 删除排序集中大于某个值的项目 key foo pipe redis master conn pipeline pipe zadd key 1 a pipe zadd key 2 b pipe zadd key 3 c
Ruby 相当于 Python 的多处理模块是什么？

为了在 Ruby 或 Python 中获得真正的并发性我需要创建新的进程 Python 使用以下命令使这变得非常简单multiprocessing模块它抽象了所有 fork wait 的好处让我专注于我的代码 Ruby 有类似的东西吗
在 PyCharm 中启用终端模拟

很多人告诉过我和PyCharm 2 7 的 PyCharm 发行说明 https www jetbrains com pycharm whatsnew whatsnew 27 html吹捧那个PyCharm包括完整的终端仿真我认为这是关于
如何在嵌套列表中查找给定元素？

这是我的迭代解决方案 def exists key arg if not arg return False else for element in arg if isinstance element list for i in elemen
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
Django CollectStatic 启动大文件上传时管道损坏

我正在尝试使用collectstatic将静态文件上传到我的S3存储桶但我收到一个700k javascript文件的管道损坏错误这就是错误 Copying Users wedonia work asociados server aso
使用 cx_oracle 返回 MERGE 中受影响的行数

如何在 CX Oracle 中执行 MERGE INTO sql 命令来获取受影响的行数当我在cx oracle 上执行MERGE SQL 时我得到的cursor rowcount 为 1 有没有办法获取受合并影响的行数由于 cx o
为什么 scikit-learn SVM.SVC() 非常慢？

我尝试使用SVM分类器来训练大约10万个样本的数据但我发现它非常慢甚至两个小时后也没有任何反应当数据集有大约 1k 个样本时我可以立即得到结果我还尝试了 SGDClassifier 和朴素贝叶斯速度相当快几分钟内就得到了结果
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
将 postgres 连接到 django 时遇到问题

以下文档来自Django Postgres 文档 https docs djangoproject com en 4 1 ref databases postgresql notes我添加到我的settings py 在我设置的设置中 DA
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
ValueError：序列太大；不能大于 32

我写了这段代码 from Crypto Cipher import AES import numpy as np import cv2 base64 BLOCK SIZE 16 PADDING pad lambda s s BLOCK SI
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint
由于表扫描，表值参数的性能较低

我有一个将参数传递给 SQL 过程的应用程序其中一个参数是表值参数其中包含要包含在 where 子句中的项目因为当我将 TVP 连接到具有 200 万行的表时表值参数没有附加任何统计信息所以查询速度非常慢我还有什么选择同样目
Scala 不可变 Map 速度慢

当我创建地图时我有一段代码 val map gtfLineArr 8 split map split collect case Array k v gt k v toMap 然后我使用这张地图来创建我的对象 case class MyOb
为什么变量 1 += 变量 2 比变量 1 = 变量 1 + 变量 2 快得多？

我继承了一些 Python 代码用于创建巨大的表最多 19 列宽 5000 行花了九秒用于在屏幕上绘制表格我注意到每一行都是使用以下代码添加的 sTable sTable n GetRow where sTable是一个字符串我将
在 Python 中为非唯一列表创建虚拟列

目前我有下一个数据框 import pandas as pd df pd DataFrame ID 1 2 3 4 5 col2 a b c c d e f f b f a c b b a b print df ID c
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

类型类实例化中的现有常量（例如构造函数）

考虑这个伊莎贝尔代码 theory Scratch imports Main begin datatype Expr Const nat Plus Expr Expr 实例化是相当合理的plus输入 class 以获得良好的语法Plus构造
预取相关之后选择相关

我的模型看起来像 class Book models Model publisher models ForeignKey Publisher This is not important class Baz models Model a mo
MySQL - 从另一个表插入与常量合并的数据

我有一个包含一些数据的临时表 products temp 并且我有另一个需要将数据插入其中的表产品我需要在新记录上手动设置一些常量例如vendor id 1等是否可以在一次请求中插入临时表数据和常量临时产品 product nam
关于 Cassandra 与 MySQL 的一些建议

几天前我在这里问了一个问题得到了一些非常好的答案我正在考虑做一个带有个人资料个人简介等的facebook风格的网站并询问我是否应该使用mysql 答案是使用Cassandra 因为好多了我只是问这是每个人都会建议的只是我对mys
EmberJS：对象作为查询参数来刷新模型

我遵循了查询参数指南 http guides emberjs com v1 11 0 routing query params http guides emberjs com v1 11 0 routing query params 而且效
Notepad++ 删除包含重复单词的行

我有一个 txt 文档其中一行包含一个单词和一个日期依此类推 Notepad 如何识别不同行中的相同单词并删除重复行不是直接回答你的问题但我根据标题找到了这篇文章我只想删除重复的行我找到了一个简单的方法来做到这一点here ht
使用 awk 如何组合两个文件中的数据并将第二个文件中的值替换到第一个文件中？

有什么想法如何使用 awk 进行以下操作吗两个输入文件 data txt和keys txt data txt 包含一些数据 A 1 B 2 A 3 keys txt 包含键值对本例中的 C 不是 data txt 的一部分但 a
在 Linux 下更改 RStudio 用户界面（不是图形等）中的字体大小

This is not关于更改使用 RStudio 生成的图表中的字体大小的问题我已经知道该怎么做了我在配备视网膜显示屏的 MacBook Pro 上的 Linux 下使用 RStudio 我使用 KDE 作为我的窗口管理器我可以
如何将 Angular Universal 应用程序部署到 Node.js 生产服务器？

我有一个带有 Universal 的 Angular 8 应用程序我想将其部署到共享 Web 主机生产服务器我提前与网络主机核实过他们告诉我可以在他们的共享网络托管上托管 Angular 通用网络应用程序但是无论我做什么我都无法
Docker 多个相同端口问题

我目前正在解决方案中开发两个相互关联的 ASP NET Core WebAPI 服务 Service1 和 Service2 两者都有 docker 文件并暴露端口 80 Service1是一个独立的服务需要从Service2调用我已经
有关 CredEnumerate 的帮助

作为后续this https stackoverflow com questions 199518 how to programatically add mapped network passwords winxp我希望有人可以帮助解决这个
在 nhibernate 标准中使用内置的 sql“转换”函数

我想利用 SQL Server 2008 中的 Convert 函数以便可以在 DateTime 列上进行搜索建议的 SQL 看起来像这样 SELECT list of fields FROM aTable WHERE CONVERT
如何使用 CMake 安装文件层次结构？

我使用以下方法创建了文件列表 file GLOB RECURSE DEPLOY FILES PROJECT SOURCE DIR install 我想将所有这些文件安装在 usr myproject 但我想维护已安装文件夹上的文件树 ins
使用 slime 时如何跳转到 emacs 中的函数定义？

我已经使用安装了史莱姆https github com thephoeron slime pack https github com thephoeron slime pack并想进一步探索 common lisp 如何访问 emacs 中
如何使用 VSCode 调试 Linux 核心转储？

我故意从我使用 VSCode 编写的 C 应用程序生成核心转储我不知道如何调试核心转储有没有人愿意分享这方面的经验更新我相信我现在已经可以使用了我为核心文件创建了第二个调试配置我需要添加指向生成的转储文件的 coreDumpPa
NHibernate：级联保存到子级不会插入

我有一个像这样的双向关联 public class Parent public int ParentId get set other properties public IEnumerable
无法绑定到“数据”，因为它不是“教学数据”的已知属性

为什么我会收到以下错误 Can t bind to data since it isn t a known property of teach data 当尝试
无法在 Sublime Text 2 中杀死 python 进程

我搜索了很多地方但似乎无法找到正确的关键字我在 Sublime 中的 Python 中有一个停滞进程导致 Mac 上的沙滩球死亡我无法访问工具 gt 取消构建按钮并且 Control C 不起作用我该如何杀死这个进程我还没
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000

将 numpy 数组写入文本文件的速度

将 numpy 数组写入文本文件的速度 的相关文章

随机推荐

热门标签

将 numpy 数组写入文本文件的速度的相关文章