Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？

2023-12-28

首先让我向您展示我当前的设置：

import multiprocessing.pool
from contextlib import closing
import os

def big_function(param):
   process(another_module.global_variable[param])


def dispatcher():
    # sharing read-only global variable taking benefit from Unix
    # which follows policy copy-on-update
    # https://stackoverflow.com/questions/19366259/
    another_module.global_variable = huge_list

    # send indices
    params = range(len(another_module.global_variable))

    with closing(multiprocessing.pool.Pool(processes=os.cpu_count())) as p:
        multiprocessing_result = list(p.imap_unordered(big_function, params))

    return multiprocessing_result

这里我使用在创建进程池之前更新的共享变量，其中包含大量数据，这确实提高了我的速度，所以现在看起来没有被腌制。该变量也属于导入模块的范围（如果它很重要）。

当我尝试创建这样的设置时：

another_module.global_variable = []

p = multiprocessing.pool.Pool(processes=os.cpu_count())

def dispatcher():
    # sharing read-only global variable taking benefit from Unix
    # which follows policy copy-on-update
    # https://stackoverflow.com/questions/19366259/
    another_module_global_variable = huge_list

    # send indices
    params = range(len(another_module.global_variable))

    multiprocessing_result = list(p.imap_unordered(big_function, params))

    return multiprocessing_result

p“记住”全局共享列表是空的，并且当从调度程序内部调用时拒绝使用新数据。

现在问题是：使用上面的第一个设置在 8 个核心上处理约 600 个数据对象，我的并行计算运行 8 秒，而单线程运行 12 秒。

我是这样想的：只要多处理pickles数据，并且每次都需要重新创建进程，我就需要pickle函数big_function()，所以我在这方面浪费了时间。使用全局变量部分解决了数据的情况（但我仍然需要在每次更新时重新创建池）。

我可以用以下实例做什么big_function()（这取决于其他模块、numpy 等的许多其他函数）？我可以创建吗os.cpu_count()它的副本一劳永逸，并以某种方式将新数据输入其中并接收结果，重用工人？

只是为了讨论“记住”问题：

another_module.global_variable = []
p = multiprocessing.pool.Pool(processes=os.cpu_count())

def dispatcher():
    another_module_global_variable = huge_list
    params = range(len(another_module.global_variable))
    multiprocessing_result = list(p.imap_unordered(big_function, params))
    return multiprocessing_result

问题似乎出在您创建时Pool实例。

这是为什么？

这是因为当你创建实例时Pool，它确实设置了工作线程的数量（默认情况下等于 CPU 核心的数量），并且它们都在那时启动（分叉）。这意味着工人拥有父母全球状态的副本（并且another_module.global_variable除其他事项外），并且使用写时复制策略，当您更新another_module.global_variable你在父母的过程中改变它。工人对旧值有参考。这就是为什么你有问题。

以下是几个链接，可以为您提供更多解释：this https://stackoverflow.com/a/42149043 and this https://docs.python.org/3/library/multiprocessing.html#contexts-and-start-methods.

这是一个小片段，您可以在其中切换全局变量值更改的行和启动进程的行，并检查子进程中打印的内容。

from __future__ import print_function
import multiprocessing as mp

glob = dict()
glob[0] = [1, 2, 3]


def printer(a):
    print(globals())
    print(a, glob[0])


if __name__ == '__main__':
    p = mp.Process(target=printer, args=(1,))
    p.start()
    glob[0] = 'test'
    p.join()

这是Python2.7代码，但它也适用于Python3.6。

这个问题的解决方案是什么？

好吧，回到第一个解决方案。您更新导入模块变量的值，然后创建进程池。

现在真正的问题是缺乏加速。

这是有趣的部分文档 https://docs.python.org/2/library/pickle.html#what-can-be-pickled-and-unpickled关于如何腌制函数：

请注意，函数（内置函数和用户定义函数）是通过“完全合格的”名称引用，而不是值。这意味着只有函数名称与模块名称一起被腌制函数是在中定义的。既不是函数的代码，也不是它的任何代码函数属性被腌制。因此定义模块必须是可在 unpickling 环境中导入，并且该模块必须包含命名对象，否则将引发异常。

这意味着您的函数酸洗不应该是一个浪费时间的过程，或者至少不是一个浪费时间的过程。导致缺乏加速的原因是，对于您传递给的列表中的约 600 个数据对象imap_unordered调用时，您将它们中的每一个传递给一个工作进程。再次，底层实现multiprocessing.Pool可能是这个问题的原因。

如果你深入multiprocessing.Pool实施后，你会看到两个Threads using Queue正在处理父进程和所有子（工作）进程之间的通信。因此，所有进程都不断需要函数参数并不断返回响应，最终导致父进程非常繁忙。这就是为什么“大量”时间花在“分派”工作上，将数据传入或传出工作进程。

对此该怎么办？

尝试随时增加工作进程中进程的数据对象数量。在您的示例中，您一个接一个地传递数据对象，并且您可以确保每个工作进程在任何时候都只处理一个数据对象。为什么不增加传递给工作进程的数据对象的数量？这样，您可以使每个进程更加繁忙，处理 10 个、20 个甚至更多的数据对象。据我所见，imap_unordered has an chunksize争论。它设置为1默认情况下。尝试增加它。像这样的事情：

import multiprocessing.pool
from contextlib import closing
import os

def big_function(params):
   results = []
   for p in params:
       results.append(process(another_module.global_variable[p]))
   return results

def dispatcher():
    # sharing read-only global variable taking benefit from Unix
    # which follows policy copy-on-update
    # https://stackoverflow.com/questions/19366259/
    another_module.global_variable = huge_list

    # send indices
    params = range(len(another_module.global_variable))

    with closing(multiprocessing.pool.Pool(processes=os.cpu_count())) as p:
        multiprocessing_result = list(p.imap_unordered(big_function, params, chunksize=10))

    return multiprocessing_result

几个建议：

我看到你创造了params作为索引列表，您可以使用它来选择特定的数据对象big_function。您可以创建代表第一个和最后一个索引的元组并将它们传递给big_function。这可能是增加工作量的一种方式。这是我上面提出的方法的另一种方法。
除非你明确喜欢Pool(processes=os.cpu_count())，可以省略。默认情况下它需要 CPU 核心数。

对于答案的长度或可能潜入的任何拼写错误，我们深表歉意。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？的相关文章

如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
PyTorch：加速数据加载

我正在使用 dendnet121 从 Kaggle 数据集进行猫狗检测我启用了cuda 看起来训练速度非常快然而数据加载或者可能是处理似乎非常慢有一些方法可以加快速度吗我尝试玩女巫批量大小但没有提供太多帮助我还将 num
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
Python Camelot无边框表格提取问题

我正在努力从 pdf 文件中提取一些无边框表格如下图所示我已经安装了 python camelot 如图所示here https github com socialcopsdev camelot并且仅适用于有边框的表格请参阅以下详细信
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1

随机推荐

从故事板设置的 UINavigationBar 背景颜色与代码设置的颜色不同

我的应用程序仅适用于iOS 8我正在与XCode 6 1 1 如果我通过故事板设置颜色设置Bar Tint属性上Navigation Bar部分所需的颜色是 56 186 145 I used 核心编码实用程序 http www cor
AVPlayer Live 流如何获取音频电平计量的电源

我试图在我的应用程序中显示一个仪表图它使用 AVPlayer 来传输实时音频流我知道对于 AVAudioPlayer 有一种方法尝试了解 AVAudioPlayer 和音频电平计量 https stackoverflow com qu
无法读取未定义的属性 - javascript 类

我想尝试 mobx 进行反应状态管理但是我无法让它工作我有一个简单的存储用于存储一个称为计数器的数字您可以增加减少它并增加 x 我有这个文件 store js 用于存储状态 import action makeObservab
为什么 path.toString() 的结果在 Linux 上无法显示所有字符，但在 Windows 上却可以

在我的 Java 代码中我使用 FileVisitor 遍历文件系统并创建路径结构然后将其转换为 json 对象以在 html 中呈现在 Windows 上运行即使针对 Linux 文件系统也可以正常运行在 Linux 上针对相同
Python 2.5 中的 urllib 或 urllib2 支持 https 吗？

我在这里先向您的帮助表示感谢我很困惑同样的代码适用于 python 2 6 但不适用于 2 5 这是代码 import cgi urllib urlparse urllib2 url https graph facebook com re
Android：使用电子邮件意图发送电子邮件，可以在发送之前更改消息吗？

我在用着 Intent emailIntent new Intent android content Intent ACTION SEND 要发送电子邮件我需要在消息中添加一些页脚当用户单击发送时是否有侦听器或某种方式可以编辑消息
添加自定义操作按钮 - ng2-smart-table

我正在尝试向自定义操作添加一个按钮但该操作中未添加新列导致该按钮与其他按钮重叠 Code settings actions custom name Button title Button columns name title Full
AngularJs 发布到 WebApi 始终为空

角度代码 getAuthorizationStatus function var deferred q defer http method POST url url data username scope username password
如何使用waitForKeyElements在选择图像后显示信息？

我编写了一个脚本将图像源 URL 中包含的数字添加到页面效果很好但是我还希望它在具有 AJAX 驱动选项卡的页面上运行我尝试过玩waitForKeyElements但我不知道如何让它工作而且我不明白 jQuery 当我使用 do
如何在没有扩展名的情况下使用单个 VS Code 键绑定运行多个命令？

是否可以在 VS Code 中从单个键绑定快捷方式运行多个命令就像宏操作一样但没有扩展名我知道有一些扩展可以做到这一点但是有没有内置的方法可以做到这一点就像是 command
按标签获取片段

我正在使用一个FragmentPagerAdapter创建具有不同片段的多页面 UI 我想做的是利用Fragment的位置来找到Fragment 我已经应用了查找片段名称标签的方法并使用 FindFragmentbyTag 但 FindFr
是否可以在 R 中绘制雷达图，其中每个圆圈都有不同的颜色？

使用 fsmb 包我创建了一个简单的雷达图这是一个可重现的示例 install packages fmsb library fmsb data lt data frame rbind rep 8 14 rep 0 14 c 3 4 4 4
让 CMake 在不包装脚本的情况下从源代码构建

我试图让 CMake 构建到目录 build 中如下所示project build 其中 CMakeLists txt 位于project 我知道我能做到 mkdir build cd build cmake 但这很麻烦我可以将它放在脚
片段 xml 文件中的工具：布局是什么？

我使用 ADT Eclipse 启动了一个基于主详细流程模板的新 Android 应用程序该模板创建两个活动一个主片段和一个细节片段以适应小屏幕和大屏幕我注意到activity item list xml文件有tools layo
顶点和边的模型架构

如何像 OrientDB 中那样验证图顶点和边数据例如如果我的图有格式的顶点边 name any name age 13 如何将它与定义良好的模式带有验证相关联在OrientDB中还具有将数据存储在顶点和边中的功能并且每
Listview setOnItemClickListener - 不适用于自定义列表视图，但适用于简单列表视图

我在获取时遇到问题listview item当单击列表项时我有listview item为了simple listview Arrayadapter 但我遇到了问题custom listview 我在用 listview setOnIte
多个脚本标签与单个脚本标签

使用嵌入代码的单个脚本标签或使用遍布整个 HTML 的相同代码的多个脚本标签之间是否有任何区别性能最佳实践等例如 versus Thanks With inline像你引用的脚本不太可能much不同之处然而每次浏览器的 HTML
使用 jQuery $.ajax() 将 JSON 数据传递到具有/自定义绑定模型的 .NET MVC 操作时出现问题

我正在尝试使用 jQuery ajax 将 JSON 数据从客户端浏览器传递到 ASP NET MVC Action 并使用自定义 ModelBinder 将其绑定到 NET 类客户端 JavaScript btnPatientSearc
C++ 基础知识：基于范围的 for 循环以及将 C 样式数组传递给函数

我正在尝试学习 C 但我无法理解这里的代码尽管我花了很多时间寻找答案 include
Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？

首先让我向您展示我当前的设置 import multiprocessing pool from contextlib import closing import os def big function param process anoth

Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？

Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？ 的相关文章

随机推荐

热门标签

Python 多处理：我可以使用更新的全局变量重用进程（已经并行化的函数）吗？的相关文章