为什么 ProcessPoolExecutor 一直运行

2024-02-08

我尝试使用Python进程池执行器要计算一些 FFT 并行，请参见以下代码：

import concurrent.futures
import numpy as np
from scipy.fft import fft

def fuc(sig):
    C = fft(sig,axis=-1) 
    return C

def main()
    P, M, K = 20, 30, 1024
    FKP = np.array([P,M,K],dtype='cdouble')
    fkp = np.array([P,M,K],dtype='float32')
    fkp = np.random.rand(P,M,K)
    with concurrent.futures.ProcessPoolExecutor(max_workers=4) as ex:
        results = ex.map(fuc,(fkp[p,m].reshape(1,K) for p in range(P) for m in range(M)))
    FKP = list(results)

if __name__ == '__main__':
    main()

问题：

为什么内核一直很忙，但我在Windows任务管理器中没有看到4个worker？
我是否使用正确的方法在“FKP = list(results)”行中获得并行计算结果？

Q1 :
^{" why the kernel keeps busy, but I did not see 4 workers from windows task manager? "}

A1 :
让我们在代码本身中解决这个问题：

import os
import time
...
def fuc( sig ):
    print( ( "INF[{0:}]: fuc() starts   "
           + "running in process[{1:}]"
           + "-called-from-process[{2:}]"
             ).format( time.get_perf_ns(), os.getpid(), os.getppid() )
           )
    C = fft( sig, axis = -1 )
    print( ( "INF[{0:}]: fuc() FFT done "
           + "running in process[{1:}]"
           + "-called-from-process[{2:}]"
             ).format( time.get_perf_ns(), os.getpid(), os.getppid() )
           )
    return C

该代码将自行记录实际计算计划的 FFT 部分的时间、内容和时间。

Q2 :
^{" do I use the right way to get parallel calculated results in line "FKP = list(results)"? "}

A2 :
是的，但是每个 SER/COMMS/DES 进程到进程边界的跨越都会产生一系列显着的附加开销成本，其中所有数据都进行 SER/DES 编码（pickle.dumps()-CPU/RAM 成本相同[TIME]- + [SPACE]-域 + 非零 ipc-p2p-传输时间 ) :

def Pinf():
    print( ( "NEW[{0:}]: ProcessPoolExecutor process-pool has "
           + "started process[{1:}]"
           + "-called-from-process[{2:}]"
             ).format( time.get_perf_ns(), os.getpid(), os.getppid() )
           )

def main():
    ...
    # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    print( ( "INF[{0:}]: context-manager"
           + 30*"_" + " entry point"
             ).format( time.get_perf_ns()
           )
    # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    with concurrent.futures.ProcessPoolExecutor( max_workers = 4,
                                                 initializer = Pinf
                                                 ) as ex:
        # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        print( ( "INF[{0:}]: context-manager"
               + " is to start .map()"
                 ).format( time.get_perf_ns()
               )
        # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        results = ex.map( fuc,
                          ( fkp[p,m].reshape( 1, K )
                            for p   in range( P )
                            for   m in range( M )
                            )
                          )
        ...
        # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        print( ( "INF[{0:}]: context-manager"
               + " .map() returned / __main__ has received all <_results_>"
                 ).format( time.get_perf_ns()
               )
        # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
        pass
    # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    print( ( "INF[{0:}]: context-manager"
           + 30*"_" + " exited"
             ).format( time.get_perf_ns()
           )
    ...
    print( type( results ) )
    ...

有关每个进程池进程实例化的实际附加成本，请参阅报告的 ns-traces。详细信息是特定于平台的，如 { MacOS | Linux | Windows }-产生新进程的方法有很大不同。这同样适用于 Python 版本，因为较新的 Py3 版本在调用 Python 解释器进程复制方面做得很好，这与 Py2 和早期版本的 Py3.x 中常见的情况不同 - 有些复制调用 Python 的整个有状态副本-解释器，具有数据、文件描述符等的完整副本 - 由于所有关联的 RAM 分配用于存储调用 Python 解释器的 n 个副本，因此承受更大的进程实例化成本。

考虑到缩放比例：

>>> len( [ ( p, m ) for p in range( P ) for m in range( M ) ] )
600

效率很重要。仅将带有子范围索引的一个元组（p_start，p_end，m_start，m_end）传递给4个进程，其中应进行信号部分的FFT处理并返回其FFT结果的子列表，将避免传递相同的静态数据以小块形式多次传输，完全避免 596x 通过（CPU-RAM 和延迟方面）昂贵的 SER/COMMS/DES-SED/COMMS/DES ipc-p2p 数据传递通道。

欲了解更多详细信息，您可能想重新阅读this https://docs.python.org/3/library/concurrent.futures.html#processpoolexecutor and this https://docs.python.org/3/library/multiprocessing.html#contexts-and-start-methods.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 ProcessPoolExecutor 一直运行的相关文章

内部错误：当前事务被中止，命令被忽略直到事务块结束

使用多处理库在子进程中执行数据库调用时出现此错误 Visit Pastie http pastie org 811424 内部错误当前事务被中止命令被忽略直到交易块结束这是一个 Postgresql 数据库使用psycopg2司机
防止池进程导入 __main__ 和全局变量

我正在使用工作人员的多处理池作为更大的应用程序的一部分由于我用它来处理大量的简单数学所以我有一个无共享的架构其中工作人员需要的唯一变量作为参数传递因此我不需要工作子进程来导入任何全局变量我的 main 模块或者因此它导入的任
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
python 中的多线程：大多数时候它真的性能高效吗？

据我所知驱动编程的是性能因素multi threading在大多数情况下但不是全部无论 Java 还是 Python 我正在读这个启发性文章 https stackoverflow com questions 265687 why t
在 Django 中使用多处理时，应用程序尚未加载，出现异常

我正在做一个 Django 项目并尝试提高后端的计算速度该任务类似于 CPU 限制的转换过程这是我的环境 Python 3 6 1 姜戈 1 10 PostgreSQL 9 6 当我尝试通过 python 多处理库并行计算 API 时
OpenMP 动态调度与引导调度

我正在研究 OpenMP 的调度特别是不同的类型我了解每种类型的一般行为但澄清一下何时进行选择会很有帮助dynamic and guided调度英特尔的文档 https software intel com en us articl
多处理中的共享内存

我有三个大清单第一个包含位数组模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array
MPI Alltoallv 还是更好的单独发送和接收？（表现）

我有许多进程大约 100 到 1000 个每个进程都必须将一些数据发送到其他一些进程比如大约 10 个通常但并非总是必要如果 A 发送到 B B 也会发送到 A 每个进程都知道它必须从哪个进程接收多少数据所以我可以用MPI A
使用请求和多处理时的奇怪问题

请检查这个Python代码 usr bin env python import requests import multiprocessing from time import sleep time from requests import
多处理与 gevent

目前我正在使用带有发布订阅模式的 Zeromq 我有一个要发布的工作人员和许多 8 个订阅者所有人都会订阅相同的模式现在我尝试使用多处理来生成订阅者它可以工作我错过了一些消息我使用多重处理的原因是在每条消息到达时对其进行处理
如何在MPI中传递2D数组并使用C语言创建动态标签值？

我是 MPI 编程新手我有一个 8 x 10 数组需要用它来并行查找每行的总和在等级 0 进程 0 中它将使用 2 维数组生成 8 x 10 矩阵然后我会用tagnumber 作为数组的第一个索引值行号这样我可以使用唯一的缓
ZeroMQ 在 python 多处理类/对象解决方案中挂起

我正在尝试将 Python pyzmq 中的 ZeroMQ 与多处理一起使用作为一个最小的不是工作示例我有一个服务器类和一个客户端类它们都继承自multiprocessing Process 客户端作为子进程应向服务器子进程发送消
如何在多个进程之间共享字典？

我想知道是否可以跨多个进程共享字典的内容我一直在看http docs python org 2 library multiprocessing html shared ctypes objects http docs python org
Parallel.For 和 Break() 误解？

我正在研究 For 循环中的并行性中断看完之后this http tipsandtricks runicsoft com CSharp ParallelClass html and this http reedcopsey com 201
OpenMP：无法并行化嵌套 for 循环

我想将循环与其中的内循环并行化我的代码如下所示 pragma omp parallel for private jb ib shared n Nb lb lastBlock jj W WT schedule dynamic private
使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
超标量和 VLIW

我想问一些关于ILP的问题超标量处理器是标量处理器和矢量处理器的混合体那么我可以说矢量处理器的架构遵循超标量吗同时处理多个指令不会使体系结构超标量因为流水线多处理器或多核体系结构也可以实现这一点这意味着什么我读过超标量 CP
多处理：仅使用物理核心？

我有一个函数foo它消耗大量内存我想并行运行多个实例假设我有一个有 4 个物理核心的 CPU 每个核心有两个逻辑核心我的系统有足够的内存来容纳 4 个实例foo并行但不是 8 个此外由于这 8 个核心中的 4 个是逻辑核心我也不
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
将整个包传递给雪簇

我正在尝试并行化使用snow parLapply 一些依赖于包即除snow 调用函数中引用的对象parLapply必须使用显式传递给集群clusterExport 有没有办法将整个包传递到集群而不必显式命名每个函数包括用户函数调用的

随机推荐

d3.js 节点在强制布局中快速拖动时“跳回”

我正在使用具有零重力和电荷值的力布局 var force d3 layout force gravity 0 charge 0 friction 0 9 linkDistance 250 linkStrength 1 size width
MySql查询缓存中的“query_cache_wlock_invalidate”有什么用？

在添加MySql Query Cache的概念时我们有一个名为 query cache wlock invalidate 的参数我想知道这个参数有什么用 Thanks 当您在查询缓存中进行查询时通常会返回缓存的内容即使该查询使用另一
无法提交 Hibernate 事务；嵌套异常是 org.hibernate.Transaction 异常：JDBC 提交失败

我在应用程序中使用 Windows Azure SQL Server 当我连接到应用程序时它显示以下错误 org springframework transaction TransactionSystemException Could n
UIImageView内容模式

蓝线是图像视图的边界 UIImageView s contentMode is UIViewContentModeScaleAspectFit 我想保持原始图片的比例怎样才能让图片的左边缘在UIImageView的左边缘但不喜欢UIVi
Android 上的 PhoneGap 不会加载外部脚本

我正在制作一个简单的应用程序来加载谷歌地图但问题是每次我加载这个它无法在我的 Android 模拟器上运行而在桌面上则可以正常运行如何让 Phonegap 或 Android 允许外部脚本工作加载更新我总是收到此错误应用程序
我无法在 Android 真实手机上获取位置

public class LocationService extends Service private Handler mHandler new Handler private Timer mTimer null private int
有 typeid 可供参考吗？

我正在寻找一种获取类型名称的方法类似于typeid但仅供参考根据这一页 http en cppreference com w cpp language typeid typeid删除引用如果 type 是引用类型则结果引用引用的类型
在 C# 中生成运行哈希（或校验和）？

Preface 我正在执行具有验证提交阶段的数据导入这个想法是第一阶段允许从各种来源获取数据然后在数据库上运行各种插入更新验证操作提交被回滚但会生成验证哈希校验和提交阶段是相同的但是如果验证哈希校验和相同则将
使用 tfds.load() 无法访问 CelebA 数据集

我正在尝试在深度学习项目中使用 CelebA 数据集我有来自 Kaggle 的压缩文件夹我想解压缩然后将图像拆分为训练测试和验证但后来发现这在我的设备上是不可能的不那么强大 system 因此为了避免浪费时间我想使用 Tens
为什么安装opencv后缺少cv2.so？

今天我将opencv 2 4 4安装到Ubuntu 12 10 但是 import cv2 不起作用 root python Python 2 7 3 default Sep 26 2012 21 53 58 GCC 4 7 2 on li
Hello-jni 示例在 Android Studio 2.0 预览版中不起作用

我正在尝试实施hello jni sample https github com googlesamples android ndk tree master hello jni进入我的项目我有Gradle2 8 和 com android
切换按钮折叠在 Bootstrap 导航栏中不起作用

当导航栏折叠时我的切换按钮不起作用我已经检查了数据目标几次看起来没问题这是我的代码 div class navbar navbar fixed top navbar inverse div class container div d
REST API：请求正文为 JSON 或纯 POST 数据？

我目前正在构建一个 REST API 当前所有 GET 方法都使用 JSON 作为响应格式 POST 和 PUT 操作的最佳实践是什么在请求正文中使用 JSON 还是纯 POST 我找不到任何关于此事的信息例如我看到 Twitter
使用 appcfg.py 时出现意外的关键字参数“context”

我尝试通过 appcfg py 更新 Google App Engine 上的项目 C gt C Program Files x86 Google google appengine appcfg py update c secondApp
单击时按钮周围出现不需要的轮廓或边框

我的网站上有一个样式按钮但是当我单击它时它会创建一个不需要的边框或轮廓我不知道是哪个我怎样才能删除那个边框以下是与该按钮相关的所有代码 button border hidden cursor pointer outline non
UIGraphicsGetImageFromCurrentImageContext() - 内存泄漏

我正在打开相机UIImagePickerControllerSourceTypeCamera和一个习惯cameraOverlayView这样我就可以拍摄多张照片而无需使用照片步骤这很好用但是保存照片功能存在内存泄漏通过大量的调试
建设 DAL。使用 EDM（来自数据库）

我必须开发一个在 Windows wpf 中工作的 lob 应用程序但应该以两种方式部署使用本地数据库同一台计算机具有远程数据库在同一网络中我将使用从数据库生成的实体数据模型 dbcontext EF 4 0 VS2012 sq
NSURLConnection 返回错误而不是 401 响应

我有一个 Web API 对于特定请求如果一切正常则返回状态代码 200 如果用户未根据授权令牌登录则返回 401 如果响应状态为 200 则一切正常但如果响应状态为 401 则似乎无法正常工作返回代码为 1012 的连接错误而
使用指向非常量指针和指向相同地址的常量参数的指针的函数调用

我想编写一个函数输入一个数据数组并使用指针输出另一个数据数组我想知道如果两者都结果是什么src and dst指向相同的地址因为我知道编译器可以针对 const 进行优化这是未定义的行为吗我标记了 C 和 C 因为我不确定它们之间
为什么 ProcessPoolExecutor 一直运行

我尝试使用Python进程池执行器要计算一些 FFT 并行请参见以下代码 import concurrent futures import numpy as np from scipy fft import fft def fuc sig

为什么 ProcessPoolExecutor 一直运行

为什么 ProcessPoolExecutor 一直运行 的相关文章

随机推荐

热门标签

为什么 ProcessPoolExecutor 一直运行的相关文章