python read() 从 stdout 比逐行读取慢得多（啜饮？）

2024-01-31

我有一个 python SubProcess 调用，它运行一个可执行文件并将输出通过管道传输到我的子进程标准输出。

在 stdout 数据相对较小（约 2k 行）的情况下，逐行读取和作为块读取 (stdout.read()) 之间的性能相当......其中 stdout.read() 稍快一些。

一旦数据变得更大（比如 30k+ 行），逐行读取的性能就会明显更好。

这是我的比较脚本：

proc=subprocess.Popen(executable,stdout=subprocess.PIPE)
tic=time.clock()
for line in (iter(proc.stdout.readline,b'')):
    tmp.append(line)
print("line by line = %.2f"%(time.clock()-tic))

proc=subprocess.Popen(executable,stdout=subprocess.PIPE)
tic=time.clock()
fullFile=proc.stdout.read()
print("slurped = %.2f"%(time.clock()-tic))

这些是读取约 96k 行（或 50MB 磁盘内存）的结果：

line by line = 5.48
slurped = 153.03

我不清楚为什么性能差异如此之大。我的期望是 read() 版本应该比逐行存储结果更快。当然，在实际情况下，我期望在读取过程中可以完成大量的每行处理，从而获得更快的逐行结果。

谁能让我深入了解 read() 性能成本？

这不仅仅是Python，在没有缓冲的情况下按字符读取总是比读入行或大块慢。

考虑这两个简单的 C 程序：

[readchars.c]

#include <stdlib.h>
#include <stdio.h>
#include <errno.h>

int main(void) {
        FILE* fh = fopen("largefile.txt", "r");
        if (fh == NULL) {
                perror("Failed to open file largefile.txt");
                exit(1);
        }

        int c;
        c = fgetc(fh);
        while (c != EOF) {
                c = fgetc(fh);
        }

        return 0;
}

[readlines.c]

#include <stdlib.h>
#include <stdio.h>
#include <errno.h>

int main(void) {
        FILE* fh = fopen("largefile.txt", "r");
        if (fh == NULL) {
                perror("Failed to open file largefile.txt");
                exit(1);
        }

        char* s = (char*) malloc(120);
        s = fgets(s, 120, fh);
        while ((s != NULL) && !feof(fh)) {
                s = fgets(s, 120, fh);
        }

        free(s);

        return 0;
}

他们的结果（YMMW，largefile.txt 约为 200MB 文本文件）：

$ gcc readchars.c -o readchars
$ time ./readchars            
./readchars  1.32s user 0.03s system 99% cpu 1.350 total
$ gcc readlines.c -o readlines
$ time ./readlines            
./readlines  0.27s user 0.03s system 99% cpu 0.300 total

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

subprocess

readline

python read() 从 stdout 比逐行读取慢得多（啜饮？）的相关文章

如何实现具有LinkedHashMap类似功能的ConcurrentHashMap？

我用过LinkedHashMap with accessOrdertrue 并同时允许最多 500 个条目作为数据的 LRU 缓存但由于可扩展性问题我想转向一些线程安全的替代方案 ConcurrentHashMap在这方面似乎不错但缺
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
将 HTML 字符串加载到 UIWebView 中的延迟

我在导航控制器中有两个视图控制器第一个视图控制器有一个带有按钮的菜单按下此按钮将移动到第二个视图控制器并将 html 字符串加载到 UIWebView 中没有其他东西被加载到 webview 中只是一个简单的 NSString 其中
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
编译时“strlen()”有效吗？

有时需要将字符串的长度与常量进行比较例如 if line length gt 2 Do something 但我试图避免在代码中使用魔法常量通常我使用这样的代码 if line length gt strlen Do somethi

随机推荐

如何让 Unity 3D 中的对象保留在场景中并且不会重新创建

我正在尝试找到一种在 Unity 3D 中播放背景音乐的好方法我希望音乐在场景加载中保持一致播放加载时不要破坏很好并且有效但是每次我加载同一个场景时它都会生成另一个音乐游戏对象因为场景本身包含游戏对象我该如何解决我的问题我是一
aspx 和 aspx.cs 文件之间的链接断开

在重命名不同的 ASPX 页面后我曾多次遇到同样的问题令我惊讶的是我在 stackoverflow 上找不到其他人也有同样的问题当我运行 ASP NET C 项目时调试器会向我显示一条类似这样的消息 Error 5 The name
使用scrapy提取XHR请求？

我正在尝试抓取使用 javascript 生成的社交点赞计数如果我绝对引用 XHR url 我就能够抓取所需的数据但是我尝试抓取的网站动态生成这些 XMLHttpRequest 其中包含我不知道如何提取的查询字符串参数例如您可以看到
具有更新队列和输出队列的 Python 多处理

如何编写使用两个队列的 Python 多进程脚本一个作为工作队列以一些数据开始并且根据要并行化的函数的条件动态接收更多任务另一个收集结果并用于在处理完成后写下结果我基本上需要根据我在初始项目中发现的内容在工作队列中放入更多任务
C中使用的括号及其用途

如果之前有人问过这个问题我很抱歉但我是 C 的初学者我想知道是否有人可以帮助解释一下下面的代码中的括号我从在线教程中获取了它它运行得很好但有一部分我不明白 include
SingleProducerConstrained 和 MaxDegreeOfParallelism

在 C TPL 数据流库中 SingleProducerConstrained 是 ActionBlocks 的优化选项当只有单个线程提供操作块时可以使用如果一个区块只会被一个生产者在某个时间点使用 time 这意味着一次只有一个线程会
iText：PdfTable单元格垂直对齐

我正在尝试将标题单元格文本垂直对齐到单元格高度的中间这是我的代码 PdfPCell c1 new PdfPCell cerate phrase regular bold c1 setHorizontalAlignment Element
Open GL 对于 2d 卡牌游戏来说太过分了吗？

我只是有一个创建纸牌游戏的想法我只是在考虑是否使用 OpenGl 还是 CoreAnimation 你能告诉我使用 OpenGL 来制作 2D 纸牌游戏是否有点过分了谢谢在不了解更多情况的情况下很难说不过您可以使用 CALayer
使用 Python 客户端 API 在 Google Cloud Pub/Sub 中运行同步拉取

我找不到立即返回Python 客户端 API 中的标志有什么具体原因吗是否有另一种方法可以从 Python 中的订阅中同步提取排队消息谷歌不提供这样的东西但是您可以通过实现自己的队列轻松解决这个问题 from Queue impor
Nuxt js - SSR页面重复组件

我正在生成一个带有组件列表的简单静态页面当我从另一个页面访问该页面时它会正确呈现所有内容当我直接登陆页面时某些组件会在页脚之后再次呈现如果我检查该元素我可以看到它们是相同的元素但在页脚之后再次呈现任何人都知道为什么会发生这种
仅保存 Outlook 邮件项目的真实附件

我目前正在开发一个 Outlook 插件它将邮件项目和附件保存在我的 MSSQL 数据库中我有一个方法可以保存 MailItem 及其所有附件但是如果我保存所有附件则 MailItem 中的嵌入图像也会保存有谁知道如何拯救所有r
使用JPA2时如何对EJB进行单元测试？

您将如何对使用 JPA 的 EJB 进行单元测试例如如果我有一个 Order 实体和 OrderEJB 它应该计算订单总数如下定义我将如何在不接触数据库的情况下对 EJB 进行单元测试另外您将如何定义实体的值以便可以断言预期的
如何在 MPMoviePlayerController 中显示字幕

我构建了一个自定义视频播放器所有按钮都可以使用我需要知道当视频具有该选项时 MPMoviePlayerController 显示字幕的代码是什么我没有在任何地方找到示例或知道该字幕按钮背后的代码的人我在哪里可以找到这个您将必须实现
Eclipse 找不到我的 Android 4.1.2 设备

我正在尝试仅运行介绍 Hello World 我的手机 Droid Razr Maxx 上的应用程序正在使用 Eclipse 运行 android 4 1 2 jelly bean 我启用了 USB 调试尝试更新手机驱动程序重新安装驱动
如何在 Python (2.6) 中将 JSON 解码为 str 而不是 unicode？ [复制]

这个问题在这里已经有答案了我有一个 JSON 格式的配置文件其中包含一些字符串变量始终为 ascii 这些字符串默认解码为 un icode 但由于我必须将这些变量传递给我的 Python C 扩展所以我需要它们作为普通的 Pyth
我可以在 Javascript 中抛出异常来停止 Javascript 执行吗？

我尝试模拟一个问题从外部 url 加载的脚本会停止执行我的网站上的任何其他脚本我尝试通过调用不退出的函数来模拟这样的问题我可以在 firebug 中看到错误但页面上的不同脚本仍然执行 JavaScript 中是否存在不同类型的错误
8086 汇编中的大二进制移位？

我有一个 512 字节长的二进制数据块我想知道如果我想将其右移一次最有效的方法是什么我现在最好的猜测对于汇编来说非常新是我必须首先检查一个块可能是 int 看看它将移出什么移出然后携带先前 int 移出的任何内容并继续携带这
Java：如何计算从InputStream读取的字节数而不事先分配完整内存

我有一个 Java 后端用户可以将文件上传到其中我想将这些上传的文件限制为最大大小并希望在上传时检查上传的字节数并在达到限制后立即中断传输目前我在分配之前使用 InputStream available 来确定估计大小但这似乎
在 Elixir 中引用管道值

我想计算字符串中单词出现的次数实现是有问题的但让我们用它来演示我的问题 def count sentence do words String split sentence occurrences Enum map words fn w
python read() 从 stdout 比逐行读取慢得多（啜饮？）

我有一个 python SubProcess 调用它运行一个可执行文件并将输出通过管道传输到我的子进程标准输出在 stdout 数据相对较小约 2k 行的情况下逐行读取和作为块读取 stdout read 之间的性能相当其中 s

python read() 从 stdout 比逐行读取慢得多（啜饮？）

python read() 从 stdout 比逐行读取慢得多（啜饮？） 的相关文章

随机推荐

热门标签

python read() 从 stdout 比逐行读取慢得多（啜饮？）的相关文章