如何从并行进程中运行的函数中检索值？

2024-03-07

Multiprocessing 模块对于 Python 初学者来说相当令人困惑，特别是对于那些刚刚从 MATLAB 迁移并因并行计算工具箱而变得懒惰的人。我有以下函数，运行时间约为 80 秒，我想通过使用 Python 的多处理模块来缩短这个时间。

from time import time

xmax   = 100000000

start = time()
for x in range(xmax):
    y = ((x+5)**2+x-40)
    if y <= 0xf+1:
        print('Condition met at: ', y, x)
end  = time()
tt   = end-start #total time
print('Each iteration took: ', tt/xmax)
print('Total time:          ', tt)

这会按预期输出：

Condition met at:  -15 0
Condition met at:  -3 1
Condition met at:  11 2
Each iteration took:  8.667453265190124e-07
Total time:           86.67453265190125

由于循环的任何迭代都不依赖于其他迭代，因此我尝试采用此方法服务器进程 https://docs.python.org/3/library/multiprocessing.html#sharing-state-between-processes从官方文档中可以在单独的进程中扫描范围的块。最后我想出了 vartec 的答案这个问题 https://stackoverflow.com/questions/10415028/how-can-i-recover-the-return-value-of-a-function-passed-to-multiprocessing-proce并可以编写以下代码。我还根据 Darkonaut 对当前问题的回答更新了代码。

from time import time 
import multiprocessing as mp

def chunker (rng, t): # this functions makes t chunks out of rng
    L  = rng[1] - rng[0]
    Lr = L % t
    Lm = L // t
    h  = rng[0]-1
    chunks = []
    for i in range(0, t):
        c  = [h+1, h + Lm]
        h += Lm
        chunks.append(c)
    chunks[t-1][1] += Lr + 1
    return chunks

def worker(lock, xrange, return_dict):
    '''worker function'''
    for x in range(xrange[0], xrange[1]):
        y = ((x+5)**2+x-40)
        if y <= 0xf+1:
            print('Condition met at: ', y, x)
            return_dict['x'].append(x)
            return_dict['y'].append(y)
            with lock:                
                list_x = return_dict['x']
                list_y = return_dict['y']
                list_x.append(x)
                list_y.append(y)
                return_dict['x'] = list_x
                return_dict['y'] = list_y

if __name__ == '__main__':
    start = time()
    manager = mp.Manager()
    return_dict = manager.dict()
    lock = manager.Lock()
    return_dict['x']=manager.list()
    return_dict['y']=manager.list()
    xmax = 100000000
    nw = mp.cpu_count()
    workers = list(range(0, nw))
    chunks = chunker([0, xmax], nw)
    jobs = []
    for i in workers:
        p = mp.Process(target=worker, args=(lock, chunks[i],return_dict))
        jobs.append(p)
        p.start()

    for proc in jobs:
        proc.join()
    end = time()
    tt   = end-start #total time
    print('Each iteration took: ', tt/xmax)
    print('Total time:          ', tt)
    print(return_dict['x'])
    print(return_dict['y'])

这大大将运行时间缩短至约 17 秒。但是，我的共享变量无法检索任何值。请帮我找出代码的哪一部分出了问题。

我得到的输出是：

Each iteration took:  1.7742713451385497e-07
Total time:           17.742713451385498
[]
[]

我从中期望：

Each iteration took:  1.7742713451385497e-07
Total time:           17.742713451385498
[0, 1, 2]
[-15, -3, 11]

您的示例中的问题是对标准可变结构的修改Manager.dict不会被传播。我首先向您展示如何与经理一起修复它，只是为了向您展示更好的选择。

multiprocessing.Manager有点重，因为它使用一个单独的进程只是为了Manager处理共享对象需要使用锁来保证数据一致性。如果您在一台机器上运行它，有更好的选择multiprocessing.Pool，以防您不必运行自定义Process课程，如果有必要的话，multiprocessing.Process和...一起multiprocessing.Queue将是常见的做法。

引用部分来自多处理docs. https://docs.python.org/3.7/library/multiprocessing.html#managers

Manager

如果标准（非代理）列表或字典对象包含在引用对象中，则对这些可变值的修改将不会通过管理器传播，因为代理无法知道其中包含的值何时被修改。但是，将值存储在容器代理中（这会触发setitem在代理对象上）确实通过管理器传播，因此为了有效地修改这样的项目，可以将修改后的值重新分配给容器代理...

在你的情况下，这看起来像：

def worker(xrange, return_dict, lock):
    """worker function"""
    for x in range(xrange[0], xrange[1]):
        y = ((x+5)**2+x-40)
        if y <= 0xf+1:
            print('Condition met at: ', y, x)
            with lock:
                list_x = return_dict['x']
                list_y = return_dict['y']
                list_x.append(x)
                list_y.append(y)
                return_dict['x'] = list_x
                return_dict['y'] = list_y

The lock这里将是一个manager.Lock例如，您必须作为参数传递，因为整个（现在）锁定操作本身并不是原子的。 (Here https://stackoverflow.com/a/52453247/9059420是一个更简单的例子Manager使用锁）

在大多数用例中，这种方法可能不如使用嵌套代理对象方便，但也演示了对同步的一定程度的控制。

由于 Python 3.6 代理对象是可嵌套的：

版本 3.6 中的更改：共享对象可以嵌套。例如，共享容器对象（例如共享列表）可以包含其他共享对象，这些对象都将由 SyncManager 管理和同步。

从Python 3.6开始你可以填写你的manager.dict在开始多处理之前manager.list作为值，然后直接附加到工作线程中，而无需重新分配。

return_dict['x'] = manager.list()
return_dict['y'] = manager.list()

EDIT:

这是完整的示例Manager:

import time
import multiprocessing as mp
from multiprocessing import Manager, Process
from contextlib import contextmanager
# mp_util.py from first link in code-snippet for "Pool"
# section below
from mp_utils import calc_batch_sizes, build_batch_ranges

# def context_timer ... see code snippet in "Pool" section below

def worker(batch_range, return_dict, lock):
    """worker function"""
    for x in batch_range:
        y = ((x+5)**2+x-40)
        if y <= 0xf+1:
            print('Condition met at: ', y, x)
            with lock:
                return_dict['x'].append(x)
                return_dict['y'].append(y)


if __name__ == '__main__':

    N_WORKERS = mp.cpu_count()
    X_MAX = 100000000

    batch_sizes = calc_batch_sizes(X_MAX, n_workers=N_WORKERS)
    batch_ranges = build_batch_ranges(batch_sizes)
    print(batch_ranges)

    with Manager() as manager:
        lock = manager.Lock()
        return_dict = manager.dict()
        return_dict['x'] = manager.list()
        return_dict['y'] = manager.list()

        tasks = [(batch_range, return_dict, lock)
                 for batch_range in batch_ranges]

        with context_timer():

            pool = [Process(target=worker, args=args)
                    for args in tasks]

            for p in pool:
                p.start()
            for p in pool:
                p.join()

        # Create standard container with data from manager before exiting
        # the manager.
        result = {k: list(v) for k, v in return_dict.items()}

    print(result)

Pool

最常见的是multiprocessing.Pool就会这么做。由于您希望将迭代分布在一个范围内，因此您在示例中面临额外的挑战。你的chunker即使每个进程都有大约相同的工作要做，函数也无法划分范围：

chunker((0, 21), 4)
# Out: [[0, 4], [5, 9], [10, 14], [15, 21]]  # 4, 4, 4, 6!

对于下面的代码，请获取代码片段mp_utils.py从我的回答来看here https://stackoverflow.com/a/52637805/9059420，它尽可能为块范围提供两个函数。

With multiprocessing.Pool your worker函数只需返回结果Pool将负责通过内部队列将结果传输回父进程。这result将是一个列表，因此您必须按照您想要的方式重新排列结果。您的示例可能如下所示：

import time
import multiprocessing as mp
from multiprocessing import Pool
from contextlib import contextmanager
from itertools import chain

from mp_utils import calc_batch_sizes, build_batch_ranges

@contextmanager
def context_timer():
    start_time = time.perf_counter()
    yield
    end_time = time.perf_counter()
    total_time   = end_time-start_time
    print(f'\nEach iteration took: {total_time / X_MAX:.4f} s')
    print(f'Total time:          {total_time:.4f} s\n')


def worker(batch_range):
    """worker function"""
    result = []
    for x in batch_range:
        y = ((x+5)**2+x-40)
        if y <= 0xf+1:
            print('Condition met at: ', y, x)
            result.append((x, y))
    return result


if __name__ == '__main__':

    N_WORKERS = mp.cpu_count()
    X_MAX = 100000000

    batch_sizes = calc_batch_sizes(X_MAX, n_workers=N_WORKERS)
    batch_ranges = build_batch_ranges(batch_sizes)
    print(batch_ranges)

    with context_timer():
        with Pool(N_WORKERS) as pool:
            results = pool.map(worker, iterable=batch_ranges)

    print(f'results: {results}')
    x, y = zip(*chain.from_iterable(results))  # filter and sort results
    print(f'results sorted: x: {x}, y: {y}')

示例输出：

[range(0, 12500000), range(12500000, 25000000), range(25000000, 37500000), 
range(37500000, 50000000), range(50000000, 62500000), range(62500000, 75000000), range(75000000, 87500000), range(87500000, 100000000)]
Condition met at:  -15 0
Condition met at:  -3 1
Condition met at:  11 2

Each iteration took: 0.0000 s
Total time:          8.2408 s

results: [[(0, -15), (1, -3), (2, 11)], [], [], [], [], [], [], []]
results sorted: x: (0, 1, 2), y: (-15, -3, 11)

Process finished with exit code 0

如果你有多个论点worker您将构建一个包含参数元组和交换的“任务”列表pool.map(...) with pool.starmap(...iterable=tasks)。有关更多详细信息，请参阅文档。

进程和队列

如果你不能使用multiprocessing.Pool由于某种原因，你必须采取自己处理进程间通信（IPC），通过传递一个multiprocessing.Queue作为你的工人职能的论点 - 进程并让它们将结果排队发送回父母。

您还必须构建类似池的结构，以便您可以迭代它来启动和加入流程，并且您必须get()结果从队列返回。更多关于Queue.get我写过的用法here https://stackoverflow.com/a/53132779/9059420.

采用这种方法的解决方案可能如下所示：

def worker(result_queue, batch_range):
    """worker function"""
    result = []
    for x in batch_range:
        y = ((x+5)**2+x-40)
        if y <= 0xf+1:
            print('Condition met at: ', y, x)
            result.append((x, y))
    result_queue.put(result)  # <--


if __name__ == '__main__':

    N_WORKERS = mp.cpu_count()
    X_MAX = 100000000

    result_queue = mp.Queue()  # <--
    batch_sizes = calc_batch_sizes(X_MAX, n_workers=N_WORKERS)
    batch_ranges = build_batch_ranges(batch_sizes)
    print(batch_ranges)

    with context_timer():

        pool = [Process(target=worker, args=(result_queue, batch_range))
                for batch_range in batch_ranges]

        for p in pool:
            p.start()

        results = [result_queue.get() for _ in batch_ranges]

        for p in pool:
            p.join()

    print(f'results: {results}')
    x, y = zip(*chain.from_iterable(results))  # filter and sort results
    print(f'results sorted: x: {x}, y: {y}')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从并行进程中运行的函数中检索值？的相关文章

如果单元格以文本字符串开头...公式

我有一个公式用于检查单元格是否以文本 A 开头返回拾取 B 代表收集和 C 代表预付但它似乎不能正常工作 A 和 C 均返回预付费 LOOKUP LEFT A1 A B C Pick Up Collect Prepaid 我不知道l
为什么使用SignTool进行代码签名时需要指定时间戳服务器？

时间戳是可选参数所以有人可以解释带时间戳的exe文件和不带时间戳的exe文件之间的区别吗如果我跳过此选项会发生什么如果您跳过时间戳选项那么当您的证书过期时 exe 将不再具有有效的证书如果您使用时间戳服务器那么 exe 将始终具
ASP.NET 入口点？

刚刚创建了一个空白的 ASP NET Web 应用程序切入点在哪里我看到 Default aspx 似乎是调用的默认模板我猜 Site Master 充当布局文件 Global asax 似乎提供了一些用于事件处理的方法存根然后是
在IOS5中实现SIP功能

我想构建一个 iPhone 应用程序它可以选择通过 SIP VoIP 拨打电话但目前我不知道如何开始有谁有关于这个主题的一些信息或者可能有一个我可以用来实现 SIP 功能的演示项目提前致谢你前面还有一条漫长而有趣的路您需要选择
Angular2 http.post 被执行两次

我遇到一个奇怪的问题 Angular2 的 RC1 Http 服务执行 http post 调用两次我已经调试了我的应用程序并且我知道这不是点击事件问题导致核心服务调用的所有调用 public create json Object p
跳过一行GridBagLayout

我在 JFrame 上使用 GridBagLayout 我希望能够跳过一两行但将这些行显示为空白然后在这些行后面有一个按钮我在文档中找不到任何方法来执行我所描述的操作有谁知道我可以执行此操作的任何方法吗发现它比添加空组件干净得多
PostgreSQL 使用 JPA 和 Hibernate 抛出“列的类型为 jsonb，但表达式的类型为 bytea”

这是我的实体类映射到表中postgres 9 4 我正在尝试将元数据存储为jsonb在数据库中输入 Entity Table name room categories TypeDef name jsonb typeClass JsonBi
如何在 SpringDoc OpenAPI 3 中引用文件？

我有 Spring Boot 项目我想在其中记录我的 API 这里是正在处理的 Web 服务的示例 ApiResponses value ApiResponse responseCode 200 content Content media
1° 夏令时 Java 和 JS 表现出不同的行为

假设巴西利亚 GMT 0300 夏令时于 21 10 2012 00 00 00 此时时钟应提前一小时 Java new Date 2012 1900 9 21 0 0 0 Sun Oct 21 01 00 00 BRST 2012 Chr
如何通过 jQuery onblur 提交表单

所以我尝试通过 jQuery onblur 提交表单即一旦焦点离开密码字段表单就会通过 jQuery 提交有类似的问题但这不是我要找的我尝试使用 document getElementById 但它不起作用任何帮助表示赞赏提前
如何从停止的地方开始播放视频

我正在使用 VideoView 来播放视频如果我退出应用程序在返回应用程序即在 onResume 中时它应该从停止的位置播放视频要获取当前进度在 onPause 中检查 long progress mVideoView get
Laravel Echo 不监听推送事件

尝试使用 laravel 和 vuejs 创建一种聊天应用程序发送消息后我会从 laravel 触发事件该事件会使用正确的事件类反映在推送器调试控制台上但根本不会调用来自 vuejs 的监听回调 created window Ech
尝试访问从资产复制到数据\数据\的数据库中的DatabaseHelper时出现空指针异常

我有一个数据库助手类代码如下这个助手的类任务是将数据库从应用程序附带的资产文件夹复制到我的应用程序的 data data 中以便我可以使用它一旦我将数据库放入 data data 我能够我想添加它并执行 CRUD 操作并且该数据
如何将 Ant 路径转换为文件集？

我正在编写一个 Ant 脚本来将项目打包到 WAR 文件中该软件由多个项目组成它们有自己的源目录库等 WAR 任务有一个嵌套元素lib我目前正在研究这个问题我目前有所需库的参考作为Path 包含几个FileSets 我在类路径引用中
gwt - 在 RPC 调用中使用 List？

我有一个 RPC 服务方法如下 public List
在 Android 上使用 pocketsphinx 未检测到关键字

谁能解释一下如何使用 pocketsphinx 将语音转换为文本我试试这个 import com example speechtutor SpeechRecognizerRecorder import com example speech
文件构造函数说明

我无法理解以下文件构造函数 public File String parent String child and public File File parent String child 参数有什么作用parent and child该文件
Spring JMS开始根据请求监听jms队列

Spring提供 JMSListener用于监听来自特定队列的消息的注释还有一个替代方案实施JmsListenerConfigurer http docs spring io spring docs current spring fram
关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的
寻求有关标记视频系统上的“相关视频”查询的建议

好吧我运行一个小型视频网站在实际的视频页面上有一条与大多数视频页面例如 YouTube 类似的相关视频目前我所做的就是随机获取其标签之一并查找其他视频相同的标签毫不奇怪这不是一个好方法因为有些标签非常模糊有些视频被错误标记

随机推荐

链表中元素的频率[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有一个点类型的链接列表我想计算特定点的频率Code LinkedList
我的代码在输出前面打印一个新行[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在编写代码但遇到了问题我的代码在输出前面打印了一个新行我想避免这种情况这是我的代码 if movieName
file() [function.file]: php_network_getaddresses: getaddrinfo failed: 名称解析暂时失败

当我从文件中获取内容时出现以下错误 http www otherdomain com http www otherdomain com file function file php network getaddresses getaddri
Visual Studio Code：禁用特定文件类型的错误/警告检查

在工作中我的团队使用 Ruby 和 Treetop 解析器创建了我们自己的小型脚本语言该语言本身的语法与 Ruby 非常相似我使用 Ruby 和 Ruby 扩展为该语言的文件进行语法突出显示但 Ruby 扩展会抛出错误因为该语言实
垂直居中可变高度图像，同时保持最大宽度/高度

我想将未知宽度高度的图像放在页面上的中心同时确保它在大于页面时缩小即使用max width max height 我尝试使用display table cell方法但是max width在 Firefox 中对于使用声明的元素中
在 Jersey REST 客户端中设置内容类型/编码

您好我一直在尝试使用 jersey REST 客户端调用 REST POST API API 文档是网址方法邮寄标题信息 X GWS 应用程序名称 XYZ 接受 application json 或 application xml
VSCode 任务错误：/bin/bash: npm: 找不到命令

我一直在使用 Node 和 npm 然而现在什么时候做command shift p Tasks Run task npm build 我收到此错误消息执行任务 npm install bin bash npm 找不到命令终端进程终止
pdo 包装器真的太过分了吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我已经做了一些关于使用数据库包装器来处理我的数据的研究然而我读过一些帖子人们声称您不应该使用 PDO 作为数据库包装器因为它已经是一个了
查找并替换文本区域中的所有匹配字符串

我有这个 var textarea content textarea html textarea html replace PID 111111 这部分有效但它只找到文本区域中的第一个 PID 并将其替换为 1111111 我还需要更改大
尝试取消引用迭代器时出现分段错误

我正在尝试使用 std max element 查找向量的最大值当我运行程序时出现分段错误我认为这与 std end 超出向量的末尾有关我尝试将其更改为 std end tempdata 1 但无济于事 auto max std m
如何获取当前DOM树对应的HTML？

jQuery html html 似乎检索了其中的大部分内容除了包装标签 DOM 被大量修改因此原始源没有多大用处可靠吗只获取 jQuery 的输出并将其包裹起来是个好主意吗我在这里至少可以看到一些文档类型问题以及包含不应重新运
React JS - 如何通过 fetch 语句验证凭据

我的目标是创建一个运行 json Rest 服务的 React JS 登录页面在 Postman 中当我输入服务的 URL 时将其设置为以 POST 方式运行并在正文中输入以下 JSON 用户名 myUserName 密码 myPa
REST API 中基于令牌的身份验证

我尝试实现基于令牌的身份验证方法每次成功登录都会创建新的令牌如果用户选择保持登录状态或者用户使用移动设备则令牌将保留在 Redis 数据库中并且没有过期日期否则令牌将在 20 分钟后过期一旦用户通过身份验证就会从 Red
TAdoQuery.ParseSql 在 xe4 中不起作用

我有一个 Delphi 7 项目我使用TAdoQuery ParseSql 加载参数现在我在XE4中编译它参数类型有时是错误的是真的ftInteger但创建为ftSmallint 我可以做什么来解决这个问题我的数据库是SQL Se
如何使用 Interface Builder 在固定高度的页眉和页脚之间拉伸和锚定中心视图？

我有一个 UIView 它有 3 个子视图标题中心面板和页脚页眉和页脚都是固定高度的我可以设置它们的自动调整大小属性以便它们的行为符合我的要求页眉保持固定在顶部并拉伸以适合屏幕纵向或横向而页脚保持不变固定在底部并随屏幕延伸
如何获取Android上的文件路径？

我是android菜鸟我的问题是如何获取android中文件的真实路径我正在使用意图选择文件代码如下 Intent intent new Intent intent setType intent setAction Intent AC
Dockerfile Raspberry PI Python pip install “PermissionError: [Errno 1] 不允许操作”

给定 Dockerfile FROM python 3 10 slim RUN pip install user no cache dir Flask requests WORKDIR app COPY app app CMD python
Visual Studio 更新 (16.8.1) 导致 CI 构建失败

我们最近将构建服务器更新为使用 Visual Studio 16 8 1 和 Xamarin iOS 14 4 1 3 并且遇到了以前运行的 MSBuild 命令的问题作为记录我们正在构建一个 Xamarin Forms 解决方案并在
可以在使用 Bokeh 的 IPython 笔记本会话中在 output_notebook 和 output_file 之间切换吗？

我想知道是否可以在同一个 IPython 笔记本中使用 Bokeh 生成静态 HTML 输出和内联图我目前看到的是一旦我打电话output notebook or output file myfile html 我被困在使用那种输出方式
如何从并行进程中运行的函数中检索值？

Multiprocessing 模块对于 Python 初学者来说相当令人困惑特别是对于那些刚刚从 MATLAB 迁移并因并行计算工具箱而变得懒惰的人我有以下函数运行时间约为 80 秒我想通过使用 Python 的多处理模块来缩短这

如何从并行进程中运行的函数中检索值？

如何从并行进程中运行的函数中检索值？ 的相关文章

随机推荐

热门标签

如何从并行进程中运行的函数中检索值？的相关文章