Python Multiprocessing.Pool 惰性迭代

2024-01-16

我想知道 python 的 Multiprocessing.Pool 类与 map、imap 和 map_async 一起使用的方式。我的特殊问题是，我想映射一个创建内存密集型对象的迭代器，并且不希望所有这些对象同时生成到内存中。我想看看各种 map() 函数是否会耗尽我的迭代器，或者仅在子进程缓慢前进时智能地调用 next() 函数，因此我编写了一些测试：

def g():
  for el in xrange(100):
    print el
    yield el

def f(x):
  time.sleep(1)
  return x*x

if __name__ == '__main__':
  pool = Pool(processes=4)              # start 4 worker processes
  go = g()
  g2 = pool.imap(f, go)
  g2.next()

等等还有map、imap 和map_async。然而，这是最明显的例子，因为在 g2 上简单地调用一次 next() 就会打印出生成器 g() 中的所有元素，而如果 imap “懒惰”地执行此操作，我希望它只调用 go.next () 一次，因此仅打印出“1”。

有人可以澄清正在发生的事情，以及是否有某种方法可以让进程池根据需要“延迟”评估迭代器？

Thanks,

Gabe

我们先看一下程序的结尾。

多处理模块使用atexit打电话multiprocessing.util._exit_function当你的程序结束时。

如果您删除g2.next()，你的程序很快结束。

The _exit_function最终打电话Pool._terminate_pool。主线程改变了状态pool._task_handler._state from RUN to TERMINATE。与此同时pool._task_handler线程正在循环Pool._handle_tasks当达到条件时退出

            if thread._state:
                debug('task handler found thread._state != RUN')
                break

（参见/usr/lib/python2.6/multiprocessing/pool.py）

这就是阻止任务处理程序完全消耗生成器的原因，g()。如果你看进去Pool._handle_tasks你会看到的

        for i, task in enumerate(taskseq):
            ...
            try:
                put(task)
            except IOError:
                debug('could not put task on queue')
                break

这是消耗您的生成器的代码。 (taskseq不完全是你的发电机，但作为taskseq被消耗了，你的发电机也被消耗了。）

相反，当您调用g2.next()主线程调用IMapIterator.next，并在到达时等待self._cond.wait(timeout).

主线程正在等待而不是呼叫_exit_function是允许任务处理程序线程正常运行的原因，这意味着完全消耗生成器put中的任务workers' inqueue in the Pool._handle_tasks功能。

底线是所有Pool映射函数消耗给定的整个可迭代对象。如果您想分块使用生成器，您可以这样做：

import multiprocessing as mp
import itertools
import time


def g():
    for el in xrange(50):
        print el
        yield el


def f(x):
    time.sleep(1)
    return x * x

if __name__ == '__main__':
    pool = mp.Pool(processes=4)              # start 4 worker processes
    go = g()
    result = []
    N = 11
    while True:
        g2 = pool.map(f, itertools.islice(go, N))
        if g2:
            result.extend(g2)
            time.sleep(1)
        else:
            break
    print(result)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

multiprocessing

Python Multiprocessing.Pool 惰性迭代的相关文章

如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
如何在python 3.7中生成条形码

我正在使用 python 3 7 为了生成条形码我尝试使用安装 pyBarcode 库pip install pyBarcode 但它显示以下错误找不到满足 pyBarcode 要求的版本来自版本找不到 pyBarcode 的匹配分
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
通过索引访问Python字典的元素

考虑一个像这样的字典 mydict Apple American 16 Mexican 10 Chinese 5 Grapes Arabian 25 Indian 20 例如我如何访问该字典的特定元素例如我想在对 Apple 的第一个
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练

随机推荐

如何从命令行获取文件句柄？

我有一个以文件句柄作为参数的子例程如何从命令行指定的文件路径创建文件句柄我不想自己对这个文件进行任何处理我只想将其传递给另一个子例程该子例程返回一个包含文件中所有解析数据的哈希数组我正在使用的命令行输入如下所示 getfile p
如何在 Eclipse 中集成 SBT scala

如何在eclipse中集成SBT scala 我也在关注这篇文章我想在 scala 中添加现有项目如何编译它以及如何在eclipse中使用build sbt SBT 集成测试设置 https stackoverflow com ques
Template.instance() 和 this 之间的区别

Template instance 和这个有什么区别使用其中之一有优势吗 Template name onRendered function var template Template instance var instance this
Redis sub/pub 和 php/nodejs

开始开发一个新项目使用 redis 作为 sub pub 系统来显示 mysql 数据库的结果因此如果有更新我想将这些更新从 mysql 发布到我的网页我的问题是哪种选择更好选项1 我应该通过nodejs 和socket io
使用 DateTime.TryParse 检查字符串是否为有效日期

我在用DateTime TryParse 函数检查特定字符串是否是有效的日期时间不依赖于任何区域性令我惊讶的是该函数返回true对于 1 1 1 1 等偶数字符串我怎么解决这个问题 Update 这是否意味着如果我想检查特定字符串
从 javascript 显示 Android 键盘

我希望能够在导航到页面后在移动浏览器例如 Android 上显示键盘我已经看到了一些解决方法用javascript在手机上显示虚拟键盘 https stackoverflow com questions 6837543 show vi
以下示例中给出的结构有何不幸之处？

15 6 2 初始化基数和成员 N4713 节在第 11 项之后有以下示例 struct A A default OK A int v v v OK const int v 42 OK A a1 error ill formed bindi
`more.com` 返回“内存不足”。

环境详情 x64 Win7 SP1 企业版 Windows PowerShell v5 0 没有加载任何配置文件我的本地电源外壳 questions tagged powershell会话正在返回内存不足当我尝试执行时help or
如何对随时间缓慢变化的数据进行建模？

假设我得到了大量 200 万行数据这些数据应该是静态且不变的应该是这些数据每月重新发布一次有哪些方法可以用于 1 了解哪些数据点逐月发生变化以及 2 使用给定时间点的数据解决方案1 天真地保存每个数据快照并按日期注释差异意识
在从独立相机捕获的图像上绘制文本（时间戳）

我的代码如下单击即可打开相机拍照从相机获取照片然后放入图像视图中不过我想拍摄图像并在图像上应用文本某种时间戳最好是图像的时间戳或者只是系统日期时间并保存为 jpeg 如果有人能帮助我那就太好了 public class
如何存储网络应用程序的配置设置？

我有一些站点元数据我希望可以更改例如在我的应用程序中如果系统管理员不想使用站点的库存部分他她可以将其关闭并且它将从主站点消失所以我在想也许我可以在数据库中创建一个名为元的表并在那里插入值或元组然后如果模块被关
将“@daily-co/daily-js”导入 SvelteKit 应用程序会引发“全局未定义”错误

我尝试过的我尝试通过解决它if browser 进一步来说 if browser let DailyIframe await import daily co daily js 在load函数里面
如何读写MP3到数据库

如何从Sql数据库读取MP3 在 sql 中我已将文件存储为二进制格式现在我想检索存储在 sql 中的 Mp3 文件并显示在我的 aspx 页面中如何请帮忙以最简单的形式这就是您获取原始字节的方式在不知道您想要它做什么的情况下
分段错误：11 - Xcode 6.3

无法存档我的应用程序在模拟器和多个设备上运行良好 Xcode 6 3 2 基于 swift 但是当我尝试存档它时出现错误Command failed due to signal Segmentation fault 11 其他人面临同样的
视图索引 (Oracle)

假设我有两张桌子 tab a and tab b 我创建了一个如下所示的视图 create view join tabs as select col x as col z from tab a union select col y as c
Objective C 中什么是非空？

有人可以详细说明为什么吗nonnulliOS 9 中引入例如 NSArray method instancetype array is now instancetype nonnull array 参考 https developer a
C 的 std::vector 替代品 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想知道是否有替代方案C 中的 std 向量我发现这个实现 http codingrecipes com implementation
(Flutter) 具有有限内容的无限滚动 `ListView.builder`

1 问题我该如何做我的ListView builder能够滚动到顶部和底部的空白区域吗例如我有一个自定义小部件列表我希望用户能够通过滚动到列表中最上面的卡片位于屏幕顶部更接近他的拇指而Flutter用空背景渲染顶部空间 2 到
使用 MVC Web API 发布对象数组

我有一个基本的后期操作适用于单个对象RecordIem 我想做的是执行相同的操作但通过使用相同格式发布一组请求来批量执行例如 public HttpResponseMessage Post RecordItem request var
Python Multiprocessing.Pool 惰性迭代

我想知道 python 的 Multiprocessing Pool 类与 map imap 和 map async 一起使用的方式我的特殊问题是我想映射一个创建内存密集型对象的迭代器并且不希望所有这些对象同时生成到内存中我想看看各

Python Multiprocessing.Pool 惰性迭代

Python Multiprocessing.Pool 惰性迭代 的相关文章

随机推荐

热门标签

Python Multiprocessing.Pool 惰性迭代的相关文章