为什么 joblib 并行执行会使运行时间变慢？

2023-11-29

我想在 3D 中打乱值numpy-array，但仅当它们 > 0 时。

当我使用单核运行函数时，它比使用 2 个核运行要快得多。这远远超出了创建新的 python 进程的开销。我缺少什么？

以下代码输出：

random shuffling of markers started
time in serial execution:                          1.0288s
time executing in parallel with num_cores=1:       0.9056s
time executing in parallel with num_cores=2:     273.5253s

import numpy as np
import time
from random import shuffle
from joblib import Parallel, delayed  
import multiprocessing

import numpy as np

def randomizeVoxels(V,markerLUT):
    V_rand=V.copy()
    # the xyz naming here does not match outer convention, which will depend on permutation
    for ix in range(V.shape[0]):
        for iy in range(V.shape[1]):
            if V[ix,iy]>0:
                V_rand[ix,iy]=markerLUT[V[ix,iy]]

    return V_rand

V_ori=np.arange(1000000,-1000000,-1).reshape(100,100,200)

V_rand=V_ori.copy()

listMarkers=np.unique(V_ori)
listMarkers=[val for val in listMarkers if val>0]

print("random shuffling of markers started\n")

reassignedMarkers=listMarkers.copy()
#random shuffling of original markers
shuffle(reassignedMarkers)

markerLUT={}
for i,iMark in enumerate(listMarkers):
    markerLUT[iMark]=reassignedMarkers[i]

tic=time.perf_counter()

for ix in range(len(V_ori)):
    for iy in range(len(V_ori[0])):
        for iz in range(len(V_ori[0][0])):
            if V_ori[ix,iy,iz]>0:
                V_rand[ix,iy,iz]=markerLUT[V_ori[ix,iy,iz]]

toc=time.perf_counter()

print("time in serial execution: \t\t\t{: >4.4f} s".format(toc-tic))

#######################################################################3

num_cores = 1

V_rand=V_ori.copy()

tic=time.perf_counter()

results= Parallel(n_jobs=num_cores)\
    (delayed(randomizeVoxels)\
        (V_ori[imSlice,:,:],
        markerLUT
        )for imSlice in range(V_ori.shape[0]))

for i,resTuple in enumerate(results):
    V_rand[i,:,:]=resTuple

toc=time.perf_counter() 

print("time executing in parallel with num_cores={}:\t{: >4.4f} s".format(num_cores,toc-tic))

num_cores = 2

V_rand=V_ori.copy()

MASK = "time executing in parallel with num_cores={}:\t {: >4.4f}s"

tic=time.perf_counter() #----------------------------- [PERF-me]

results= Parallel(n_jobs=num_cores)\
    (delayed(randomizeVoxels)\
        (V_ori[imSlice,:,:],
        markerLUT
        )for imSlice in range(V_ori.shape[0]))

for i,resTuple in enumerate(results):
    V_rand[i,:,:]=resTuple

toc=time.perf_counter() #----------------------------- [PERF-me]

print( MASK.format(num_cores,toc-tic) )

Q : “我错过了什么？”

最有可能的是内存 I/O 瓶颈。

虽然numpy-这里处理的一部分似乎相当浅（shuffle 不计算一点，而是在一对位置之间移动数据，不是吗？），在大多数情况下，这不允许“时间足够” “（通过做任何有用的工作）以便让内存 I/O 被重新排序的 CPU 核心指令屏蔽（参考 1）。延迟成本用于当代超标量 CISC 架构最低级别的直接 + 跨 QPI 内存 I/O 操作，具有高度推测性分支预测（对于内存 I/O 绑定的非分支精心制作的部分没有用）和多核和多核 NUMA 设计）。

This is most probably why even the first spin-off concurrent process (no matter if enforced for camping on the same _{(here a shared-CPU-core time by an interleaving pair of a two-step dancing processes, again memory-I/O bound, with even worse chances for latency masking on shared memory-I/O channels...)} or any other _{(here adding cross-QPI add-on latency costs if having to perform non-local memory-I/O, again worsening chances for memory-I/O latency-masking)} CPU-core.

由 CPU 时钟升压策略的冲突效应强制执行的 CPU 核心跳跃（后来开始违反热管理，因此跳跃进程以驻扎在下一个较冷的 CPU 核心上）将使所有 CPU 核心缓存优势失效，由于下一个较冷的核心上没有预缓存的数据可用，因此必须再次重新获取所有（一旦预缓存到最快的 L1data 缓存中）数据（也许，对于内存占用较大的数组对象，甚至需要跨 QPI 获取），因此利用更多内核不会对最终效率产生微不足道的影响。

;o)
The numpy高性能和智能处理并不是应该受到指责的地方 - 恰恰相反 - 它显然揭开了 CPU 的面纱”饥饿“状态 - 多年来一直被认为是我们所有现代 CPU 的性能上限 - 这就是为什么我们看到如此多核心的 CPU，它们试图通过拥有越来越多的核心来规避这个瓶颈 - 请参阅引用的评论硅级分析多于。

最后但并非最不重要的
代码原样包含大量提高其性能的机会，numpy-smart-vectorized 是第一个命名的，避免range()-循环，所以有更多的技巧需要遵循，所有这些最终都会让你陷入同样的麻烦——CPU 饥饿上限

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 joblib 并行执行会使运行时间变慢？的相关文章

pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

UnsupportedOperationException：可序列化不支持默认值 - Jetpack Compose Navigation

我正在使用 Jetpack Compose Navigation 将 Health 实例传递给另一个可组合项下面的代码显示了我的健康等级和我的目的地健康 kt data class Health val height Int val w
Python：报纸模块 - 有什么方法可以直接从 URL 获取文章？

我正在使用 python 的报纸模块找到here 在教程中它描述了如何将不同报纸的构建集中起来它同时生成它们参见上面链接中的多线程文章下载有什么方法可以直接从网址列表中提取文章吗也就是说有什么方法可以将多个 url 输入到以下
计算两个任意形状之间的最小距离

我有两个任意形状现在我想计算两个形状之间的最小距离这里我附上图片首先绘制部分完成这个形状是圆弧和直线的组合现在当我要计算这些形状之间的最小距离时我遇到了问题使用 GWT java html5 canvas 绘制此形状为了计
Symfony 1.4 改进主义 save() 方法

我的数据库中有 500 个条目在我的后端我有行动例如 public function executeMyAction sfWebRequest request Get some data from table templates Doc
python中的并行/多线程差分进化

我正在尝试对生化过程进行建模并将我的问题构建为优化问题并使用它来解决differential evolution来自 scipy 到目前为止一切顺利我对具有 15 19 个参数的简化模型的实现感到非常满意我扩展了模型现在有 32
在 Spark Dataframe 中将字符串转换为日期

我有一个数据框 df1 与 2StringType fields Field1 字符串类型值 X Field2 字符串类型值 20180101 我想做的就是创建另一个数据框 df2 from df1有 2 个字段 Field1 字符串类
默认参数值错误：“实例成员不能在类型视图控制器上使用”

在我的视图控制器中 class FoodAddViewController UIViewController UIPickerViewDataSource UITextFieldDelegate UIPickerViewDelegate l
WPF DataGrid - 行选择/失去焦点防止颜色变化

当数据网格失去焦点并选择其中一行时我想防止我的程序更改行颜色我现在的代码是
如何针对我的数据类型使用 Facet Grid

我有这个 12 个时间序列生成的数据我使用它们将每个数据绘制为时间图ggplot2 我想将 12 个地块排列成 1 个单独的地块使其成为3D using facet grid其中列名是colname lt c 0 8 0 9 0 95
AttributeError：部分初始化的模块“tensorflow”没有属性“config”（很可能是由于循环导入）

我不断收到此错误 Traceback most recent call last File tensorflow py line 1 in
找不到引用的切入点

我正在开发我的第一个方面但遇到了以下麻烦我的方面类 Component Aspect public class MyAspect Pointcut execution com mypackage MyClass method publi
无法从 Asp.Net WebApi 操作方法连接到网站 URL

我正在尝试使用 Asp Net Web Api 项目中的 WebClient 连接到 URL 我的目的是获取内容并创建网站缩略图示例代码 using var client new WebClient var contents client
如何在 dplyr::across 中的 .names 参数内使用字符串操作函数

虽然我试图搜索它是否重复但我找不到类似的问题虽然一个similar那里有一个但这与我的要求有些不同我的问题是我们是否可以使用字符串操作函数substr or stringr str remove inside names的论证dpl
使用 PHP 覆盖文件中的行

覆盖文件中特定行的最佳方法是什么我基本上想在文件中搜索字符串 parsethis 并用其他内容覆盖该行的其余部分如果文件真的很大日志文件或类似的文件并且您愿意为了内存消耗而牺牲速度您可以打开两个文件并基本上做到这一点杰里米鲁滕建
我将 Microsoft Edge Chromium 与 Selenium 结合使用，并且不断将 msedge.exe 作为启动项

这是我用于在 Microsoft Edge Chromium 浏览器中使用 Selenium 的代码 from selenium webdriver edge options import Options from selenium web
EnumDisplayDevices 提供两个显示器，即使我有一个

我正在使用 Python 制作夜灯应用程序我正在使用 Windows API 来使用 Gamma Ramp 来完成我的任务我用了枚举显示设备W from 用户32 dll获取连接到我的电脑的显示器的信息和数量我的桌面上只有一台显示器
如何使用 Struts 2 在同一行中放置多个文本字段而不使用 theme="simple"？

我想设计一个使用 Struts 2 在同一行显示用户 ID 和密码的网页如何在不使用的情况下管理它theme simple
SELECT 所有最新记录的一列中具有非空值的不同关键字

继这个问题之后选择一列中具有非空值的最新记录我知道我的数据有问题 id keyword count date 1 ipod 200 2009 08 02 2 ipod 250 2009 09 01 3 ipod 150 2009 09 0
为什么 C# 复制中属性的密封重写不会重写基类型的访问器？

在 C 中重写自动属性并仅提供一个访问器通过以下方式进行反射PropertyInfo 失去另一个即使它是在基类中定义的乍一看可能很奇怪但似乎是合理的经过更详细的分析然而改变override to sealed override
为什么 joblib 并行执行会使运行时间变慢？

我想在 3D 中打乱值numpy array 但仅当它们 gt 0 时当我使用单核运行函数时它比使用 2 个核运行要快得多这远远超出了创建新的 python 进程的开销我缺少什么以下代码输出 random shuffling of

为什么 joblib 并行执行会使运行时间变慢？

为什么 joblib 并行执行会使运行时间变慢？ 的相关文章

随机推荐

热门标签

为什么 joblib 并行执行会使运行时间变慢？的相关文章