如何在 Python 中并行化生成器/迭代器的管道？

2023-12-30

假设我有一些如下的 Python 代码：

input = open("input.txt")
x = (process_line(line) for line in input)
y = (process_item(item) for item in x)
z = (generate_output_line(item) + "\n" for item in y)
output = open("output.txt", "w")
output.writelines(z)

此代码从输入文件中读取每一行，通过多个函数运行它，并将输出写入输出文件。现在I知道函数process_line, process_item, and generate_output_line永远不会互相干扰，并且我们假设输入和输出文件位于不同的磁盘上，这样读取和写入就不会互相干扰。

但 Python 可能不知道这些。我的理解是Python将读取一行，依次应用每个函数，并将结果写入输出，然后只读取第二行after将第一行发送到输出，以便在第一行退出之前第二行不会进入管道。我是否正确理解了该程序的流程？如果这就是它的工作原理，是否有任何简单的方法可以使多行可以同时进入管道，以便程序并行读取、写入和处理每个步骤？

您无法真正并行读取或写入文件；最终，这些将成为你的瓶颈。你是sure你这里的瓶颈是CPU，而不是I/O？

由于您的处理不包含依赖项（根据您的说法），因此使用起来非常简单Python的multiprocessing.Pool类 http://docs.python.org/library/multiprocessing.html#module-multiprocessing.pool.

有几种方法可以写这个，但是更容易写。调试是为了找到独立的关键路径（代码中最慢的部分），我们将使其并行运行。我们假设它是 process_item。

……实际上就是这样。代码：

import multiprocessing.Pool

p = multiprocessing.Pool() # use all available CPUs

input = open("input.txt")
x = (process_line(line) for line in input)
y = p.imap(process_item, x)
z = (generate_output_line(item) + "\n" for item in y)
output = open("output.txt", "w")
output.writelines(z)

我还没有测试过，但这是基本思想。 Pool 的 imap 方法确保结果以正确的顺序返回。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Python 中并行化生成器/迭代器的管道？的相关文章

多重处理：如何从子进程重定向标准输出？

注意我见过multiprocessing Process 的日志输出 https stackoverflow com questions 1501651 log output of multiprocessing process 不幸的是
如何在groupby之后将pandas数据框拆分为许多列

我希望能够在 pandas 中使用 groupby 按列对数据进行分组然后将其拆分以便每个组都是数据框中自己的列 e g time data 0 1 2 0 1 2 3 0 2 3 4 0 3 1 2 1 4 2 3 1 5 3 4 1
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
如何在“python setup.py test”中运行 py.test 和 linter

我有一个项目setup py文件我用pytest作为测试框架我还在我的代码上运行各种 linter pep8 pylint pydocstyle pyflakes ETC 我用tox在多个 Python 版本中运行它们并使用以下命令构
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
Python time.sleep - 永不醒来

我认为这将是那些简单的问题之一但它让我感到困惑停止媒体我是对的找到了解决方案查看答案我正在使用 Python 的单元测试框架来测试多线程应用程序很好而且很直接我有 5 个左右的工作线程监视一个公共队列以及一个为它们制作工作
PermanentTaskFailure：“模块”对象没有属性“迁移”

我在 google appengine 上使用 Nick Johnson 的批量更新库 http blog notdot net 2010 03 Announcing a robust datastore bulk update utili
python csv按列转换为字典

是否可以将 csv 文件中的数据读取到字典中使得列的第一行是键同一列的其余行构成列表的值例如我有一个 csv 文件 strings numbers colors string1 1 blue string2 2 red string
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
在 python 查询参数中使用 %20 而不是 + 作为空格

我使用 python requests 编写了以下 python 脚本 http requests readthedocs org en latest http requests readthedocs org en latest impo
获取运行云功能的运行时服务帐户

有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件我知道我可以猜测默认的 App Engine 帐户因为它始终是 appspot gserviceaccount com 但这不是我想要的我本来期待有一些环境变量 https
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
将数组从 .npy 文件读入 Fortran 90

我使用 Python 以二维数组例如 X 的形式生成一些初始数据然后使用 Fortran 对它们进行一些计算最初当数组大小约为 10 000 x 10 000 时 np savetxt 在速度方面表现良好但是一旦我开始增加数组的维

随机推荐

开发模式下的 Rails 缩小（编译）资产

如何在 Rails 开发模式下以缩小编译的形式呈现我的资源我有大约几十个资源文件并且因为它们是一个接一个地提供的所以在开发中加载页面之前需要很长时间我相信如果我对它们进行编译并从中获取服务将会加快我的页面加载时间我知道当我
Android 日历事件

我刚刚使用日历内容提供程序进行操作现在我无法显示特定日期的事件我知道 eventsUri Uri parse content calendar events lt Android 2 1 version eventsUri Uri pa
Bootstrap：tr 类“警告”在条带表中不起作用

我已经定义了一个表 table class table table striped 有一些行像 tr class success tr class info and tr class warning The success and info
将鼠标悬停在缩略图上时显示完整图像作为弹出/叠加

我在 JPanel 中显示缩略图当将鼠标悬停在这样的缩略图上时我想在缩略图上叠加显示其完整版本使用 HTML 我只需创建一个具有适当位置和高 z index 的 div 以便它覆盖其他所有内容 Swing 是否可以实现类似且轻量级的功
如何禁用（或删除）Excel 2007菜单中的“保护工作表”和“保护工作簿”按钮？

我正在使用 VBA 我想禁用 excel 2007 菜单中的保护工作表和保护工作簿按钮我怎样才能做到这一点预先感谢您的任何帮助此致如果没有 customUI xml 机制则无法使用 VBA 影响功能区看Excel 200
java.lang.NoSuchFieldError：IS_SECURITY_ENABLED

我想将服务部署到 2 台服务器我在一台服务器上成功但在另一台服务器上失败事实上我尽力让他们的环境相同错误日志如下 2013 01 21 22 08 18 178 WARN oejuc AbstractLifeCycle FAILE
如何使用 Clojure 语言的子集在 lambda 演算中实现递归函数？

我正在阅读 Greg Michaelson 所著的通过 Lambda 演算进行函数式编程简介一书来学习 lambda 演算我仅使用 Clojure 语言的一个子集来实现示例我只允许 symbols 单参数 lambda 函数功能
Scala slick 有超时设置吗？

我在 Play 中注意到了我可以在 application conf 中放入一些设置来指定连接超时自从玩直接利用Scala slick 我认为Scala slick中应该也有类似的设置但到目前为止我找不到任何参考如果它还不可用我
谷歌云消息沙盒

我跟着tutorial http developer android com google gcm gs html在我的 Android 应用程序 Google Cloud Message 上实现推送通知我成功地实现了这些消息但现在我担
为多个活动创建 GoogleApiClient

我正在使用 Google API 开发一个 Android 应用程序我有多项活动每项活动都需要一个 GoogleApiClient 实例据我了解这个帖子 https stackoverflow com questions 223685
Terraform - 将类型对象作为参数传递给 Azure 模板部署

我试图通过为 Terraform 提供 Azure ARM 模板来使用 Terraform 来预配 Azure AD 域服务这是因为 Terrafrom 本身不支持预配 Azure AD 域服务我已经导出了 ARM 模板及其参数其中一
cx_Oracle：如何迭代结果集？

有多种方法可以迭代结果集各自的权衡是什么规范的方法是使用内置的游标迭代器 curs execute select from people for row in curs print row 您可以使用fetchall 一次获取所有行 f
如何在 ajax 调用期间保持在 this 上下文中（jquery + Coffeescript）

我做了一个课 class GameMap options width 100 height 100 tileWidth 45 tileHeight 20 scale 5 moveDistance 100 Distance to move w
如何在张量流中使用相同的权重进行初始化？

我正在使用张量流构建 CNN 模型我想知道是否可以以某种方式设置权重初始化的种子以便能够在各处拥有相同的种子以便我可以在模型的不同架构之间进行比较在堆栈溢出上找到了这样的答案张量流权重初始化 https stackoverflow
你能在 php 中抛出一个数组而不是字符串作为异常吗？

我想在 php 中抛出一个数组作为异常而不是字符串如果您定义自己的类来扩展 Exception 类是否可以做到这一点例如throw new CustomException string options array params 当然
填充动态 XFA pdf 表单 itext

我有一个基于 XFA 的 pdf 表单我们需要使用 java 来填充它你能建议最好的方法吗我能够使用 iText 生成 pdf 的 xfa xml public void readXfa String srcPdfFilename S
PHP 中 ASP.NET 用户控件的替代方案？

我在 ASP NET 中开发了许多 Web 应用程序其中使用 UserControls 来管理页眉页脚和网页的任何其他常见部分现在我正在用 PHP 开发一个应用程序有什么可以用来替代 UserControls 的吗我如何在 PHP
Android Studio 3.4：更改具有最终值的属性值已被弃用。在 Gradle 6.0 中这将失败并出现错误

我在 Android Studio 3 4 的构建输出控制台中收到以下警告任务 app processDebugResources 更改具有最终值的属性值已被弃用在 Gradle 6 0 中这将失败并出现错误这是我的 build gr
UIGraphicsGetImageFromCurrentImageContext 预览内存泄漏

我正在尝试创建 PDF 页面的预览图像但我在释放内存方面遇到了一些问题我写了一个简单的测试算法来循环解决这个问题应用程序在第 40 次迭代附近崩溃 NSArray paths NSSearchPathForDirectoriesInD
如何在 Python 中并行化生成器/迭代器的管道？

假设我有一些如下的 Python 代码 input open input txt x process line line for line in input y process item item for item in x z gener

如何在 Python 中并行化生成器/迭代器的管道？

如何在 Python 中并行化生成器/迭代器的管道？ 的相关文章

随机推荐

热门标签

如何在 Python 中并行化生成器/迭代器的管道？的相关文章