multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数

2023-12-25

流量如何apply_async调用可迭代（？）函数和回调函数之间的工作？

设置：我正在读取 2000 个文件目录中所有文件的一些行，有些有数百万行，有些只有几行。提取一些标题/格式/日期数据来表征每个文件。这是在 16 个 CPU 的机器上完成的，因此对其进行多处理是有意义的。

目前，预期结果正在发送到列表（ahlala）这样我就可以打印出来；稍后，这将写入 *.csv。这是我的代码的简化版本，最初基于this https://stackoverflow.com/questions/12483512/python-multiprocessing-apply-async-only-uses-one-process非常有帮助的帖子。

import multiprocessing as mp

def dirwalker(directory):
  ahlala = []

  # X() reads files and grabs lines, calls helper function to calculate
  # info, and returns stuff to the callback function
  def X(f): 
    fileinfo = Z(arr_of_lines) 
    return fileinfo 

  # Y() reads other types of files and does the same thing
  def Y(f): 
    fileinfo = Z(arr_of_lines)
    return fileinfo

  # results() is the callback function
  def results(r):
    ahlala.extend(r) # or .append, haven't yet decided

  # helper function
  def Z(arr):
    return fileinfo # to X() or Y()!

  for _,_,files in os.walk(directory):
    pool = mp.Pool(mp.cpu_count()
    for f in files:
      if (filetype(f) == filetypeX): 
        pool.apply_async(X, args=(f,), callback=results)
      elif (filetype(f) == filetypeY): 
        pool.apply_async(Y, args=(f,), callback=results)

  pool.close(); pool.join()
  return ahlala

注意，如果我把所有的都放在代码中，代码就可以工作Z()，辅助函数，进入X(), Y(), or results()，但这是否是重复的或者可能比可能的速度慢？我知道每次函数调用都会调用回调函数，但是什么时候调用回调函数呢？是之后吗pool.apply_async()...完成流程的所有工作？如果在第一个函数的作用域（？）内调用这些辅助函数，不是应该更快吗？pool.apply_async()需要（在这种情况下，X()）？如果没有，我应该将辅助函数放入results()?

其他相关想法：守护进程为什么没有显示？我也很困惑如何对事物进行排队，以及这是否是问题所在。这似乎是一个开始学习的地方 http://hairycode.org/2013/07/23/first-steps-with-celery-how-to-not-trip/，但是在使用时可以安全地忽略队列apply_async，或者仅在明显的时间效率低下？

您在这里询问了一大堆不同的事情，所以我会尽力涵盖所有内容：

您传递给的函数callback一旦工作进程返回结果，就会在主进程（而不是工作进程）中执行。它是在一个线程中执行的Pool对象在内部创建。该线程消耗来自 a 的对象result_queue，用于获取所有工作进程的结果。线程从队列中取出结果后，执行callback。当回调正在执行时，无法从队列中提取其他结果，因此回调快速完成非常重要。以你的例子为例，一旦有一个电话X or Y你通过apply_async完成后，结果将被放入result_queue由工作进程执行，然后结果处理线程将从result_queue，和你的callback将被执行。

其次，我怀疑您没有看到示例代码发生任何事情的原因是因为您的所有工作函数调用都失败了。如果工作函数失败，callback永远不会被执行。除非您尝试从AsyncResult https://docs.python.org/2/library/multiprocessing.html#multiprocessing.pool.AsyncResult调用返回的对象apply_async。但是，由于您没有保存任何这些对象，因此您永远不会知道发生了故障。如果我是你，我会尝试使用pool.apply当您进行测试时，以便您在错误发生时立即看到它们。

工作人员可能失败的原因（至少在您提供的示例代码中）是因为X and Y被定义为另一个函数内的函数。multiprocessing通过在主进程中对它们进行 pickle 并在工作进程中取消它们来将函数和对象传递给工作进程。在其他函数内部定义的函数是不可picklable的，这意味着multiprocessing将无法在工作进程中成功取消它们。要解决此问题，请在模块的顶层定义这两个函数，而不是嵌入到模块中dirwalker功能。

你绝对应该继续打电话Z from X and Y，不在results。那样，Z可以在所有工作进程中同时运行，而不必在主进程中一次运行一个调用。请记住，你的callback函数应该尽可能快，这样就不会阻碍处理结果。执行中Z在那里会减慢速度。

下面是一些与您正在执行的操作类似的简单示例代码，希望能让您了解代码应该是什么样子：

import multiprocessing as mp
import os

# X() reads files and grabs lines, calls helper function to calculate
# info, and returns stuff to the callback function
def X(f): 
    fileinfo = Z(f) 
    return fileinfo 

# Y() reads other types of files and does the same thing
def Y(f): 
    fileinfo = Z(f)
    return fileinfo

# helper function
def Z(arr):
    return arr + "zzz"

def dirwalker(directory):
    ahlala = []

    # results() is the callback function
    def results(r):
        ahlala.append(r) # or .append, haven't yet decided

    for _,_,files in os.walk(directory):
        pool = mp.Pool(mp.cpu_count())
        for f in files:
            if len(f) > 5: # Just an arbitrary thing to split up the list with
                pool.apply_async(X, args=(f,), callback=results)  # ,error_callback=handle_error # In Python 3, there's an error_callback you can use to handle errors. It's not available in Python 2.7 though :(
            else:
                pool.apply_async(Y, args=(f,), callback=results)

    pool.close()
    pool.join()
    return ahlala


if __name__ == "__main__":
    print(dirwalker("/usr/bin"))

Output:

['ftpzzz', 'findhyphzzz', 'gcc-nm-4.8zzz', 'google-chromezzz' ... # lots more here ]

Edit:

您可以使用以下命令创建在父进程和子进程之间共享的 dict 对象multiprocessing.Manager class:

pool = mp.Pool(mp.cpu_count())
m = multiprocessing.Manager()
helper_dict = m.dict()
for f in files:
    if len(f) > 5:
        pool.apply_async(X, args=(f, helper_dict), callback=results)
    else:
        pool.apply_async(Y, args=(f, helper_dict), callback=results)

然后使X and Y采用第二个参数称为helper_dict（或者任何你想要的名字），一切就都准备好了。

需要注意的是，这是通过创建一个包含普通字典的服务器进程来实现的，并且所有其他进程都通过代理对象与该字典进行通信。因此，每次读取或写入字典时，您都在进行 IPC。这使得它比真正的听写慢很多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

multiprocessing

multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数的相关文章

查找 with: 块中定义的函数

这是一些代码理查德琼斯的博客 http www mechanicalcat net richard log Python Something I m working on 3 with gui vertical text gui labe
在 Django 中定义视图和 url。为什么调用函数时不使用括号？

我已经在经历 Python速成课程目前正在进行 Django Web应用程序项目学习日志阶段有些东西与我已经学到的相矛盾 views py file from django shortcuts import render def i
使用 python 制作本地服务器应用程序的最佳方法

我想要简单轻松地集成 python 和 vba 人们如果他们在阅读本文后亲自见到我阅读本文可能会杀了我但我正在使用 django 开发服务器来实现此目的有没有什么简单又好的方法仅举个例子我想使用 python 模块 openpy
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
Python 中的六边形自组织映射

我在寻找六边形自组织映射 http en wikipedia org wiki Self organizing map在Python上准备好模块如果存在的话绘制六边形单元格的方法将六边形单元作为数组或其他方式使用的算法 About
用 Python 编写一个无操作或虚拟类

假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟无操作对象这个对象应该是完全惰性
如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
在 python-docx 中搜索和替换

我有一个包含以下字符串的文档模板你好我的名字是鲍勃鲍勃是一个很好的名字我想使用 python docx 打开此文档并使用查找和替换方法如果存在来更改每个字符串 Bob gt Mark 最后我想生成一个新文档其中包含字符
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
如何使用 openpyxl 对工作簿中的 Excel 工作表/选项卡进行排序

我需要按字母数字对工作簿中的选项卡工作表进行排序我在用openpyxl https openpyxl readthedocs io en default 操作工作表您可以尝试排序workbook sheets list workboo
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
在 pip.conf 中指定多个可信主机

这是我尝试在我的中设置的 etc pip conf global trusted host pypi org files pythonhosted org 但是它无法正常工作参考 https pip pypa io en stable
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb

随机推荐

尝试通过 Notepad++ 编译 pascal 程序失败？

我正在尝试使用 Free Pascal 编译器上的 Notepad 来编译 pascal 文件我被指示使用以下脚本 NPP SAVE cd CURRENT DIRECTORY C FPC 2 6 4 bin i386 win32 ppcr
WPF按钮单击和命令不能一起工作MVVM

我正在使用 mvvm 开发一些 wpf 应用程序我试图同时使用按钮单击事件和命令但命令永远不会被执行此外当我仅使用命令而不使用单击事件时它工作得非常完美这是代码
我应该使用 XPath 还是只使用 DOM？

我有一堆分层数据存储在 XML 文件中我使用 TinyXML 将其封装在手工制作的类后面给定一个 XML 片段它将源签名描述为一组频率级别对如下所示
在handlebars.js 中切换默认大小写

我想实现一个自定义switch case with default在 HandlebarsJs 中的 Register Helper 函数的帮助下获取值 Example HTML div switch value case a A case
如何重用 Symfony2 中遗漏的某些字段的表单

我正在使用嵌入式表单来制作注册表单其中包含多个相关实体的字段正如我在此处的问题中向我解释的那样 Symfony2 表单中的数据对象与需要填写的内容不完全匹配 https stackoverflow com questions 76481
独立使用 Symfony Routing 时如何缓存路由？

我独立使用 Symfony 路由组件即不与 Symfony 框架一起使用这是我正在使用的基本代码
如何在CSS文件中指定图像路径？

我正在使用 Yii 框架并且有一个 CSS 文件该文件使用一些图像作为背景和类似的图像其他 PHP 代码可以使用 Yii app gt request gt baseUrl 为资源添加正确的路径前缀但是 css 文件不是 PHP 所
netcat 实用程序的替代品

netcat 实用程序有其他选择吗我想运行 docker API 但客户端系统上未安装 netcat 实用程序 docker 命令示例 echo e GET info HTTP 1 0 r n nc U var run docker so
从“char*”到“char”的转换无效

我收到标题中的错误它指向声明 for 循环的行对正在发生的事情有什么想法吗 include
如何在 sonar-project.properties 中指定通配符

我正在尝试使用 SonarQube 扫描我拥有的 UI 模块 UI 模块数量很多它们具有共同的结构每个模块都有自己的JS文件我需要指定sonar sources值匹配我的项目中的所有 JS 文件可以做这样的事情吗 sonar sou
更新android SDK：安装最新平台以实现新的API，例如“ShortcutManager”

这里我正在执行 Android Nougat 中介绍的 Android Shortcuts 演示应用程序快捷方式 https developer android com preview shortcuts html 我使用以下代码来创建应用
PCA改变簇的颜色

我想改变簇的颜色但保持形状 habillage iris Species颜色和形状都改变了什么能只改变颜色呢 library devtools install github kassambara factoextra library fa
iOS - 具有多个 UITableView 的水平 UIScrollView

UIScrollView水平滚动和UITableView在其中垂直滚动但水平滚动时无法加载不同的数据有一个滚动视图它在屏幕上水平滚动在其中我添加了多个表视图并希望在滑动时在表视图上显示不同的数据我已经尝试过但没有运气 NSAr
PHP try-catch 块：它们能够捕获无效的 arg 类型吗？

背景假设我有以下明显不正确的 PHP try vtest print array pop vtest catch Exception exx 为了与 array pop 一起使用 vtest 显然应该是一个数组而不是一个字符串然而当
AttributeError：'numpy.ndarray'对象没有属性'getdraw'

好吧我正在尝试为手势识别系统添加印度尼泊尔字体但我在 Pillow 库方面遇到了一些困难我按照枕头的文档进行操作但收到了 AttributeError 错误 My Code def put splitted text in bla
asp.Net MVC 视图模型在帖子中为空

我有一个复杂的视图模型我将其传递给创建视图当我在页面上输入数据并将其发布时模型是空的子对象中的字段和测试字段均为空为什么 public class ContactIncident Key public int Id get s
如何将对象数组传递为 jQuery Ajax 可以理解的格式？

我有一个 asmx Web 服务具有以下功能 WebMethod public List
OpenCV 深度学习人脸检测函数“cv::dnn::ConvolutionLayerImpl::getMemoryShapes”中的断言错误

我跟着tutorial https www pyimagesearch com 2018 02 26 face detection with opencv and deep learning 实现人脸检测image https ibb co
用于密码验证的正则表达式 Objective-C [重复]

这个问题在这里已经有答案了任何人都可以帮助我我需要正则表达式密码验证条件密码最多为 8 个字符的数字或字母并至少包含 1 个特殊字符提前致谢 2 8 A Za z0 9 W w W 此正则表达式允许使用 2 到 8 个字符的密码
multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数

流量如何apply async调用可迭代函数和回调函数之间的工作设置我正在读取 2000 个文件目录中所有文件的一些行有些有数百万行有些只有几行提取一些标题格式日期数据来表征每个文件这是在 16 个 CPU 的机器上完成的

multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数

multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数 的相关文章

随机推荐

热门标签

multiprocessing.Pool：使用 apply_async 的回调选项时调用辅助函数的相关文章