multiprocessing.Pool.imap_unordered 的内存使用量稳步增长

2024-03-08

我刚刚注意到我的程序在处理大文件时使用越来越多的内存。不过，它一次只处理一行，所以我不明白为什么它会继续使用更多内存。

经过大量挖掘，我意识到该程序由三个部分组成：

加载数据，一次一行。
处理a中的每一行multiprocessing.Pool using imap_unordered().
在单个线程中处理每一行。

如果步骤 1 和 2 比步骤 3 快，则池工作线程的结果将排队，消耗内存。

如何限制在第 2 步中输入池中的数据，使其不会在第 3 步中领先于消费者？

这看起来类似于另一个多处理问题 https://stackoverflow.com/q/18414020/4794，但我不清楚这个问题的延迟在哪里。

这是一个演示该问题的小示例：

import logging
import os
import multiprocessing
from time import sleep

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s:%(process)d:%(thread)d:%(message)s')
logger = logging.getLogger()

def process_step1():
    data = 'a' * 100000
    for i in xrange(10000):
        sleep(.001)  # Faster than step 3.
        yield data
        if i % 1000 == 0:
            logger.info('Producing %d.', i)
    logger.info('Finished producing.')


def process_step2(data):
    return data.upper()


def process_step3(up_data):
    assert up_data == 'A' * 100000
    sleep(.005)  # Slower than step 1.


def main():
    pool = multiprocessing.Pool(processes=10)
    logger.info('Starting.')
    loader = process_step1()
    processed = pool.imap_unordered(process_step2, loader)
    for i, up_data in enumerate(processed):
        process_step3(up_data)
        if i % 500 == 0:
            logger.info('Consuming %d, using %0.1f MB.', i, get_memory())
    logger.info('Done.')


def get_memory():
    """ Look up the memory usage, return in MB. """
    proc_file = '/proc/{}/status'.format(os.getpid())
    scales = {'KB': 1024.0, 'MB': 1024.0 * 1024.0}
    with open(proc_file, 'rU') as f:
        for line in f:
            if 'VmSize:' in line:
                fields = line.split()
                size = int(fields[1])
                scale = fields[2].upper()
                return size*scales[scale]/scales['MB']
    return 0.0  # Unknown

main()

当它运行时，我看到内存使用量稳步增加，直到步骤 1 完成。如果我让它运行足够长的时间，内存使用量就会开始减少。

2016-12-01 15:37:50,859:6414:139712380557056:Starting.
2016-12-01 15:37:50,861:6414:139712266237696:Producing 0.
2016-12-01 15:37:50,868:6414:139712380557056:Consuming 0, using 255.0 MB.
2016-12-01 15:37:52,054:6414:139712266237696:Producing 1000.
2016-12-01 15:37:53,244:6414:139712266237696:Producing 2000.
2016-12-01 15:37:53,421:6414:139712380557056:Consuming 500, using 383.0 MB.
2016-12-01 15:37:54,446:6414:139712266237696:Producing 3000.
2016-12-01 15:37:55,635:6414:139712266237696:Producing 4000.
2016-12-01 15:37:55,976:6414:139712380557056:Consuming 1000, using 511.2 MB.
2016-12-01 15:37:56,831:6414:139712266237696:Producing 5000.
2016-12-01 15:37:58,019:6414:139712266237696:Producing 6000.
2016-12-01 15:37:58,529:6414:139712380557056:Consuming 1500, using 703.2 MB.
2016-12-01 15:37:59,209:6414:139712266237696:Producing 7000.
2016-12-01 15:38:00,406:6414:139712266237696:Producing 8000.
2016-12-01 15:38:01,084:6414:139712380557056:Consuming 2000, using 831.5 MB.
2016-12-01 15:38:01,602:6414:139712266237696:Producing 9000.
2016-12-01 15:38:02,802:6414:139712266237696:Finished producing.
2016-12-01 15:38:03,640:6414:139712380557056:Consuming 2500, using 959.5 MB.
2016-12-01 15:38:06,199:6414:139712380557056:Consuming 3000, using 959.5 MB.

这好像是Pool.imap_unordered()启动一个新线程来迭代步骤 1 生成的输入序列，因此我们需要从运行步骤 3 的主线程中限制该线程。Semaphore class https://docs.python.org/2/library/threading.html#semaphore-objects旨在限制一个线程与另一个线程的连接，因此我们调用acquire()在我们生产每一行之前，以及release()当我们消耗每一行时。如果我们以某个任意值（例如 100）启动信号量，那么它将在阻塞并等待消费者赶上之前生成 100 行的缓冲区。

import logging
import os
import multiprocessing
from threading import Semaphore
from time import sleep

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s:%(process)d:%(thread)d:%(message)s')
logger = logging.getLogger()

def process_step1(semaphore):
    data = 'a' * 100000
    for i in xrange(10000):
        semaphore.acquire()
        sleep(.001)  # Faster than step 3.
        yield data
        if i % 1000 == 0:
            logger.info('Producing %d.', i)
    logger.info('Finished producing.')


def process_step2(data):
    return data.upper()


def process_step3(up_data, semaphore):
    assert up_data == 'A' * 100000
    sleep(.005)  # Slower than step 1.
    semaphore.release()


def main():
    pool = multiprocessing.Pool(processes=10)
    semaphore = Semaphore(100)
    logger.info('Starting.')
    loader = process_step1(semaphore)
    processed = pool.imap_unordered(process_step2, loader)
    for i, up_data in enumerate(processed):
        process_step3(up_data, semaphore)
        if i % 500 == 0:
            logger.info('Consuming %d, using %0.1f MB.', i, get_memory())
    logger.info('Done.')


def get_memory():
    """ Look up the memory usage, return in MB. """
    proc_file = '/proc/{}/status'.format(os.getpid())
    scales = {'KB': 1024.0, 'MB': 1024.0 * 1024.0}
    with open(proc_file, 'rU') as f:
        for line in f:
            if 'VmSize:' in line:
                fields = line.split()
                size = int(fields[1])
                scale = fields[2].upper()
                return size*scales[scale]/scales['MB']
    return 0.0  # Unknown

main()

现在内存使用量稳定了，因为生产者并没有领先消费者太多。

2016-12-01 15:52:13,833:6695:140124578850560:Starting.
2016-12-01 15:52:13,835:6695:140124535109376:Producing 0.
2016-12-01 15:52:13,841:6695:140124578850560:Consuming 0, using 255.0 MB.
2016-12-01 15:52:16,424:6695:140124578850560:Consuming 500, using 255.0 MB.
2016-12-01 15:52:18,498:6695:140124535109376:Producing 1000.
2016-12-01 15:52:19,015:6695:140124578850560:Consuming 1000, using 255.0 MB.
2016-12-01 15:52:21,602:6695:140124578850560:Consuming 1500, using 255.0 MB.
2016-12-01 15:52:23,675:6695:140124535109376:Producing 2000.
2016-12-01 15:52:24,192:6695:140124578850560:Consuming 2000, using 255.0 MB.
2016-12-01 15:52:26,776:6695:140124578850560:Consuming 2500, using 255.0 MB.
2016-12-01 15:52:28,846:6695:140124535109376:Producing 3000.
2016-12-01 15:52:29,362:6695:140124578850560:Consuming 3000, using 255.0 MB.
2016-12-01 15:52:31,951:6695:140124578850560:Consuming 3500, using 255.0 MB.
2016-12-01 15:52:34,022:6695:140124535109376:Producing 4000.
2016-12-01 15:52:34,538:6695:140124578850560:Consuming 4000, using 255.0 MB.
2016-12-01 15:52:37,128:6695:140124578850560:Consuming 4500, using 255.0 MB.
2016-12-01 15:52:39,193:6695:140124535109376:Producing 5000.
2016-12-01 15:52:39,704:6695:140124578850560:Consuming 5000, using 255.0 MB.
2016-12-01 15:52:42,291:6695:140124578850560:Consuming 5500, using 255.0 MB.
2016-12-01 15:52:44,361:6695:140124535109376:Producing 6000.
2016-12-01 15:52:44,878:6695:140124578850560:Consuming 6000, using 255.0 MB.
2016-12-01 15:52:47,465:6695:140124578850560:Consuming 6500, using 255.0 MB.

Update

如果您正在使用multiprocessing.Pool，考虑升级到concurrent.futures.process.ProcessPoolExecutor，因为它处理杀害工人 https://stackoverflow.com/q/61492362/4794更好的。它不影响这个问题描述的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

multiprocessing.Pool.imap_unordered 的内存使用量稳步增长的相关文章

如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
Sublime Text 插件开发中的全局 Python 包

一总结我不知道 Sublime Text 插件开发人员如何使用 Sublime Text 查找全局 Python 包而不是 Sublime Text 目录的 Python 包 Sublime Text使用自己的Python环境而不是
Volatile.Read 和 Volatile.Write 背后的逻辑是什么？

来自 MSDN Volatile Read 读取字段的值在需要它的系统上插入一个阻止处理器重新排序内存的内存屏障操作如下如果在该方法之后出现读或写代码处理器无法移动它before这个方法 and Volatile Write
使用 python 中的公式函数使从 Excel 中提取的值的百分比相等

import xlrd numpy excel Users Bob Desktop wb1 xlrd open workbook excel assignment3 xlsx sh1 wb1 sheet by index 0 colA co
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
SocketIO + Flask 检测断开连接

我在这里有一个不同的问题但意识到它可以简化为如何检测客户端何时从页面断开连接关闭其页面或单击链接换句话说套接字连接关闭我想制作一个带有更新用户列表的聊天应用程序并且我在 Python 上使用 Flask 当用户连接时浏览器发
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s

随机推荐

如何将 Access 数据库 (.accdb) 转换为 SQLite？

如何将 Access 数据库 accdb 转换为 SQLite 数据库 sqlite 也许你可以使用几个步骤算法 1 导出转换 Access表或查询到Excel文件 2 将 Excel 文件另存为 CSV 文件 3 使用任何 SQLLit
将子级的宽度设置在父级宽度和最大宽度之间

我想构建一个有一些限制的 CSS 菜单父级的高度和宽度 div 未知的数量 li 未知 ul 必须不小于 div width 一排 li 必须包含尽可能多的 li li 尽可能与max width of ul 我想要的是问题是实际上
“默认槽遇到非功能值。”在 Vue 3 Composition API 组件中

MCVE https github com hyperbotauthor minvue3cliapp https github com hyperbotauthor minvue3cliapp MCVE 直播 https codesandb
asp.net core 和 kestrel 线程池中的异步处理

我是 ASP NET Core 和 C 的新手来自 Java 世界我对 async await 关键字的工作原理有点困惑本文 https blogs msdn microsoft com ericlippert 2010 10 29
Windows 上的 Oracle JDK 11 安装程序和 JAR 文件关联

我刚刚在 Windows 10 上安装了 Oracle JDK 11 我注意到 PATH 变量不包含 JDK 11 路径此外 JAR 文件扩展名与 javaw 无关我们的用户过去常常双击 JAR 文件来执行客户端 Java SWING
如何在 Angular2 CLI 项目中设置 Stylus？

我想在我的 Angular2 CLI 项目中使用 Stylus 而不是标准 CSS 我环顾四周找不到任何关于如何设置它的可靠来源当您使用 Angular cli 运行启动项目时 ng new my app style styl 角度 6
使用 Forever 和 --prof 选项启动节点 V8 日志文件未创建

我正在尝试使用 forver 模块运行我的节点应用程序我还想传递 prof 选项来分析我的应用程序我正在使用的命令是 NODE ENV staging PORT 3000 NODE CONFIG DIR domains serving
在 WPF 资源字典中使用制表符和回车符

如何在 WPF XAML 资源字典中使用制表符和回车符这对我不起作用
抽象实体上的核心数据关系

当一个实体被设置为抽象时在两个实体之间创建一对一的关系是否合法抽象实体并不意味着要被实例化这就是你的原因cannot 创建这样的关系不过您可以做的是创建一种关系其中实体从抽象实体继承 From 苹果的文档 https devel
用于临时变量赋值的 Python 上下文管理器

我经常需要暂时用其他东西交换变量的值进行一些依赖于该变量的计算然后将变量恢复为其原始值例如 var 0 Assign temporary value and do computation var ori var var 1 do so
这个设计模式的名字是什么？

假设我需要将应用程序中的文本保存到文件中但允许用户拥有多种格式 pdf word txt 选择第一种方法可能是 if extension pdf ExportToPdf file else if extension txt Export
更改 UITableView、iPhone 中滚动条的宽度和颜色

我只能找到是否要显示滚动条或不使用 tableView showsVerticalScrollIndicator YES NO 但如何自定义滚动条的颜色宽度以及其他功能如果可能任何帮助将不胜感激 EDIT 我从代码片段中得到了这个想法
如何在 AngularJs 中存储和读取会话（值）？

我在存储和读取会话数据时遇到问题Angularjs 单击按钮后 emp name 应存储在session以及我如何读取存储的 emp namesession plnkr 中的示例 http plnkr co edit aX8A6b91obP
如何在函数式编程中使用多态性？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在不同域的远程计算机上启动 Windows 服务

我的电脑位于域 A 中远程服务器位于域 B 中我想使用 c 或任何其他语言或脚本从我的电脑重新启动服务器上的服务 Notes 我通过 VPN 连接到服务器这意味着我可以手动 RDP 服务器并可以手动重新启动服务我无法使用本地服务窗口
WCF 错误未提供客户端证书。在 ClientCredentials 中指定客户端证书

我正在尝试调用 WCF 服务我创建了一个自签名证书并安装在我的 localmachine personnal certificates 中并且我还在我的部分中添加了该证书但我不明白为什么会出现此错误这是我的 web config
如何替换子资源请求中的嵌入凭据？

我在 Ionic 应用程序的控制台中收到此错误 Deprecation Subresource requests whose URLs contain embedded credentials e g https user pass hos
应用程序邀请配置失败 Firebase iOS cocoapods

我在尝试新版本的 firebase 时遇到了一个构建错误 Terminating app due to uncaught exception com firebase appinvite reason App Invite configur
如何在 JavaScript 中实现函数数组？

我对 JavaScript 还很陌生我需要编写一对 20 x 20 矩阵函数我的所有函数都接受一个数字并返回一个数字即相同的签名例如 Myfunctions 1 2 应该返回一对可以在代码中调用的函数在 Java 中我通常会实现
multiprocessing.Pool.imap_unordered 的内存使用量稳步增长

我刚刚注意到我的程序在处理大文件时使用越来越多的内存不过它一次只处理一行所以我不明白为什么它会继续使用更多内存经过大量挖掘我意识到该程序由三个部分组成加载数据一次一行处理a中的每一行multiprocessing Pool

multiprocessing.Pool.imap_unordered 的内存使用量稳步增长

Update

multiprocessing.Pool.imap_unordered 的内存使用量稳步增长 的相关文章

随机推荐

热门标签

multiprocessing.Pool.imap_unordered 的内存使用量稳步增长的相关文章