Python - 使用多处理并行处理受 CPU 限制的任务

2023-11-16

多元处理（英语：Multiprocessing），也译为多进程、多处理器处理、多重处理，指在一个单一电脑系统中，使用二个或二个以上的中央处理器，以及能够将计算工作分配给这些处理器。拥有这个能力的电脑系统，也被称为是多元处理器系统（Multiprocessing system）。当系统拥有多个处理器时，在同一时间中，可能有数个程序在执行。有时候，运行并发性程序，也会被称为是多元处理。只是当使用在软件时，通常会称为多元程序（multi-programming），或多任务处理（multitasking）。多元处理主要用于指超过一个以上处理器的电脑硬件架构的计算能力。在对称多处理（Symmetric multiprocessing）架构中，每个处理器的地位都平等，拥有同样的权限可以使用系统资源。在非对称式架构中，处理器之间的地位并不平等，系统资源以不同方式来分配给特定处理器。非对称架构，可分成非对称多处理（Asymmetric multiprocessing）系统、非均匀访存模型系统、与集群多处理系统。

什么是多线程软件？

所有软件都在“进程空间”中运行。这是内存中分配给运行程序的空间。像 Windows 和 Linux 这样的现代操作系统有一个内核管理器来管理这个进程空间并为每个进程或软件片段安排时间。操作系统 (OS) 可以调度的最小进程时间单位通常称为“线程” 。通常发生的情况是一段软件在单个线程的进程空间中运行。这称为单线程应用程序。这样做的缺点是软件不能真正完成某些高级任务，或者同时处理多行逻辑（特别是如果它在磁盘上做一些非常密集的事情，加载一些大的东西，你仍然希望程序对用户输入做出反应）。特别注意（相关但不是线程思想的核心）：在处理多项任务时，很多事情并不是同时发生的。这不完全正确。现代处理器（CPU 芯片）有“流水线”、预取、分支的方法，并有多个 cpu 内核来并行运行。但是，OS 调度程序实际上只是非常快速地调度东西，在不同线程之间来回切换（其中一些可能确实在 CPU 级别并行/同时发生）。较旧的操作系统使用一种称为协作多任务处理的概念。这是一个令人讨厌的情况，在这种情况下，更旧版本的 Windows（想想 Win 3.1）可能会被冻结，因为每个进程（或应用程序）都必须放弃其执行时间片以将其交给其他程序，因此它们可以继续。同样，这一切都发生得非常快，以产生一切都在同时发生的错觉。后来的操作系统开始使用今天很常见的东西，被称为抢占式多任务处理。这是一个操作系统有自己的任务调度器/管理器的系统，它控制所有内存和进程空间、线程、时间片等……程序不做决定。他们有一定的时间，仅此而已。如果他们挂起，操作系统将强制进程耗尽内存并将其关闭。

多线程应用程序允许调度多个线程。软件进程会告诉操作系统创建多个线程，因为它会做一些其他的事情，需要在自己的进程空间中运行，向其他进程报告，等等。进度条就是一个很好的经典例子。它允许您继续使用程序做事，继续工作，同时您会看到进度条正在做它的事情。这是通过一个线程处理进度条而另一个线程处理您的用户输入和更新 UI 来实现的；他们必须小心合作。多线程变得非常棘手，您必须非常小心以确保您的程序是线程安全的（例如同时访问共享数据/内存）。

Python - 使用多处理并行处理受 CPU 限制的任务

线程不适合 CPU 密集型任务，应该使用多处理。在这里，我想用基准数字来证明这一点，同时也表明在 Python 中创建多个进程与创建多个线程一样简单。

首先，让我们选择一个简单的计算用于基准测试。我不希望它完全是人为的，所以我将使用因式分解的简化版本——将数字分解为其质因数。这是一个非常幼稚且未优化的函数，它接受一个数字并返回一个因子列表：

def factorize_naive(n):    """ A naive factorization method. Take integer 'n', return list of        factors.    """    if n < 2:        return []    factors = []    p = 2    while True:        if n == 1:            return factors        r = n % p        if r == 0:            factors.append(p)            n = n / p        elif p * p >= n:            factors.append(n)            return factors        elif p > 2:            # Advance in steps of 2 over odd numbers            p += 2        else:            # If p == 2, get to 3            p += 1    assert False, "unreachable"

现在，作为基准测试的基础，我将使用以下串行（单线程）因子分解器，它接受要分解的数字列表，并返回一个将数字映射到其因子列表的字典：

def serial_factorizer(nums):    return {n: factorize_naive(n) for n in nums}

线程版本如下。它还需要一个要分解的数字列表，以及要创建的线程数量。然后它将列表分成块并将每个块分配给一个单独的线程：

def threaded_factorizer(nums, nthreads):    def worker(nums, outdict):        """ The worker function, invoked in a thread. 'nums' is a            list of numbers to factor. The results are placed in            outdict.        """        for n in nums:            outdict[n] = factorize_naive(n)    # Each thread will get 'chunksize' nums and its own output dict    chunksize = int(math.ceil(len(nums) / float(nthreads)))    threads = []    outs = [{} for i in range(nthreads)]    for i in range(nthreads):        # Create each thread, passing it its chunk of numbers to factor        # and output dict.        t = threading.Thread(                target=worker,                args=(nums[chunksize * i:chunksize * (i + 1)],                      outs[i]))        threads.append(t)        t.start()    # Wait for all threads to finish    for t in threads:        t.join()    # Merge all partial output dicts into a single dict and return it    return {k: v for out_d in outs for k, v in out_d.iteritems()}

请注意，主线程和工作线程之间的接口非常简单。每个工作线程都有一些工作要做，之后它就简单地返回。因此，主线程唯一要做的就是用合适的参数启动nthreads 个线程，然后等待它们完成。

我使用 2、4 和 8 个线程运行了串行与线程分解器的基准测试。基准是分解一组恒定的大数，以最小化由于随机机会引起的差异。所有测试都在我的 Ubuntu 10.04 笔记本电脑上运行，该笔记本电脑配备英特尔酷睿 i7-2820MQ CPU（4 个物理内核，超线程）。

以下是结果：

水平轴是以秒为单位的时间，因此较短的条形意味着更快的执行。是的，将计算拆分为多个线程实际上比串行实现要慢，而且使用的线程越多，速度就越慢。

如果您不熟悉 Python 线程的实现方式和 GIL（全局解释器锁），这可能有点令人惊讶。要理解为什么会发生这种情况，您最好阅读Dave Beazley关于该主题的文章和演示文稿。他的作品非常全面且易于理解，我认为在这里完全没有必要重复其中的任何内容（结论除外）。

现在让我们做同样的事情，只是使用进程而不是线程。Python 出色的多处理模块使进程像线程一样易于启动和管理。事实上，它提供了与线程模块非常相似的 API。这是多进程分解器：

def mp_factorizer(nums, nprocs):    def worker(nums, out_q):        """ The worker function, invoked in a process. 'nums' is a            list of numbers to factor. The results are placed in            a dictionary that's pushed to a queue.        """        outdict = {}        for n in nums:            outdict[n] = factorize_naive(n)        out_q.put(outdict)    # Each process will get 'chunksize' nums and a queue to put his out    # dict into    out_q = Queue()    chunksize = int(math.ceil(len(nums) / float(nprocs)))    procs = []    for i in range(nprocs):        p = multiprocessing.Process(                target=worker,                args=(nums[chunksize * i:chunksize * (i + 1)],                      out_q))        procs.append(p)        p.start()    # Collect all results into a single result dict. We know how many dicts    # with results to expect.    resultdict = {}    for i in range(nprocs):        resultdict.update(out_q.get())    # Wait for all worker processes to finish    for p in procs:        p.join()    return resultdict

这里与线程解决方案唯一真正的区别是输出从工作线程传回主线程/进程的方式。使用multiprocessing，我们不能简单地将 dict 传递给子进程并期望它的修改在另一个进程中可见。有几种方法可以解决这个问题。一种是使用来自multiprocessing.managers.SyncManager的同步字典。我选择的是简单地创建一个Queue，并让每个工作进程将结果字典放入其中。mp_factorizer然后可以将所有结果收集到一个字典中，然后加入进程（请注意，如多处理文档中所述，加入应该在进程写入的队列中的所有结果都被消耗之后调用）。

我运行了相同的基准测试，将mp_factorizer的运行时间添加到图表中：

如您所见，有很好的加速。最快的多进程版本（拆分为 8 个进程）运行速度是串行版本的 3.1 倍。虽然我的 CPU 只有 4 个物理内核（每个内核中的一对硬件“线程”共享大量执行资源），但 8 进程版本运行速度更快，这可能是由于操作系统没有分配在“繁重”任务之间优化 CPU。加速与 4 倍相去甚远的另一个原因是工作在子流程之间的分配不均。有些数字的因式分解速度比其他数字快得多，目前没有人关注工作人员之间的负载平衡任务。这些是值得探索的有趣主题，但超出了本文的范围。对于我们的需求，最好的建议是运行基准测试并根据结果决定最佳并行化策略。

这篇文章的目标有两个。第一，提供一个简单的演示，说明 Python 线程如何不利于加速受 CPU 限制的计算（它们实际上非常适合减慢它们的速度！），而多处理确实以并行方式使用多核 CPU，正如预期的那样. 第二，展示多处理使编写并行代码与使用线程一样简单。在进程之间同步对象比在线程之间同步对象需要做更多的工作，但除此之外代码非常相似。如果你问我，对象同步更困难是件好事，因为共享的对象越少越好。这就是为什么多进程编程通常被认为比多线程编程更安全且更不容易出错的主要原因。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 使用多处理并行处理受 CPU 限制的任务的相关文章

具有多个输入的kerasvalidation_data

我尝试使用validation data方法但是有问题 model fit X macd train X rsi train X ema train Y train sample weight sample weight validati
Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
Python 异常 - args 属性如何自动设置？

假设我定义了以下异常 gt gt gt class MyError Exception def init self arg1 pass 然后我实例化该类以创建异常对象 gt gt gt e MyError abc gt gt gt e ar
如何让Python的socket服务器永远运行

我有这段代码创建了一个简单的Python套接字服务器但是每次客户端断开连接时它都会关闭如何让它永远运行 import socket HOST PORT 8000 s socket socket socket AF INET socket
向 polls urls.py 添加额外的过滤器会导致测试失败

按照 djangoproject 的教程我尝试让 urls py 过滤掉没有选择下面 urlpattern 的民意调查 urlpatterns patterns url r ListView as view queryset Poll o
如何使 Django ManyToMany “直通”查询更加高效？

我使用的是 ManyToManyField 和 through 类这会在获取事物列表时产生大量查询我想知道是否有更有效的方法例如这里有一些描述书籍及其几位作者的简化类它们通过角色类定义编辑器插画家等角色 class Per
如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees

随机推荐

Newtonsoft.Json基本使用

Newtonsoft Json基本使用使用强类型进行序列化反序列化准备一个学生类 public class Student public string Name get set public int Age get set public
Android系统启动流程

文章目录总结 1 rc脚本语法规则 2 init进程启动 init first stage init second stage 3 ServiceManager启动 4 Zygote进程启动 5 Launcher启动总结 android
[sql]使用sql语句增加列，并且设置默认值

有的时候我们需要对已存在的表进行插入列的情况当然可以使用navicat等工具直接可视化操作命令行的话如下 alter table 表名 add column 列名数据类型 default 默认值 demo alter table
flutter开发实战-MethodChannel实现flutter与iOS双向通信

flutter开发实战 MethodChannel实现flutter与iOS双向通信最近开发中需要iOS与flutter实现通信这里使用的MethodChannel 如果需要flutter与Android实现双向通信请看 https
O-RAN专题系列-38：管理面-WG4.MP.V07-规范解读-第5章-软件管理

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址目录第5章软件管理 5 1 Software Package 5 2 Software Inventory消息 5 3 Software
@Transactional事务注解

1 实现原理基于AOP面向切面的它将具体业务与事务处理部分解耦代码侵入性很低 2 Transactional注解可以作用于哪些地方作用于类当把 Transactional 注解放在类上时表示所有该类的public方法都配置相同的
使用正则表达式验证邮箱格式？

需满足的验证逻辑 1 之前必须有内容且只能是字母大小写数字下划线减号点 2 和最后一个点之间必须有内容且只能是字母大小写数字点减号且两个点不能挨着 3 最后一个点之后必须有内容且内容只能是字母大小写数字且长度为大
python @register_第7.21节 Python抽象类—register注册虚拟子类

上两节介绍了Python抽象类的真实子类的定义和使用本节介绍另一种抽象类的实现方法虚拟子类方法一相关概念虚拟子类是将其他的不是从抽象基类派生的类注册到抽象基类让Python解释器将该类作为抽象基类的子类使用因此称为虚拟子类
Lua中的协程Coroutine

一协程是什么 1 线程首先复习一下多线程我们都知道线程 Thread 每一个线程都代表一个执行序列当我们在程序中创建多线程的时候看起来同一时刻多个线程是同时执行的不过实质上多个线程是并发的因为只有一个CPU 所以实质上同一个
android语言切换的源码逻辑

android语言的分发会通过AMS去分发 AMS中保存着正在运行的进程并分别分发给各个进程各个进程在收到对应的事件的时候会重启当前的页面来应用config的改变页面重启的过程中 Resource会读取当前的config 根据保
【编程练习】回转寿司

题目来源牛客美团2021校招笔试编程题第3题题目描述题解参考了别人的思路这个问题可以分解为经典贪心回转当不考虑回转环形情形时只需要用贪心求解最大连续子串值即可当考虑回转环形情形时可反向思考就是求解非环形连
matlab神经网络工具箱实现两个输入的BP神经网络

请问各位大佬 matlab神经网络工具箱怎么实现具有两个特征的BP神经网络啊是将以行为单位将每个样本的每一个特征按列存放就可以吗
upload-labs第1~2关小试牛刀

第一关文件重命名工具 Burp 蚁剑原理文件名修改源码解析先在前端判断是否为图片格式是的话就开始上传也就是前端绕过先传一个jpg格式的再用burp抓包改包就可以实现前端验证绕过绕过过程文件上传肯定离不开一句话木
全球根服务器分别部署在哪里？

全球真的只有13台根服务器么 10台根服务器都在美国如果根服务器被关闭我们会不会被断网关于DNS部署与根服务器的几点论述知名网络黑客防御专家东方联盟创始人郭盛华透露根名称服务器是任何域名系统 DNS 服务器它响应 DNS 根区
AI Challenger 2018 即将进入决赛，八大数据集抢先看

雷锋网 AI 研习社消息由创新工场搜狗美团点评美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛今年的大赛主题是用 AI 挑战真实世界的问题主办方提供超过 300 万人民币奖金 8 月 29 日至 11
CMake下调用anaconda的pytorch及numpy传参CV::Mat给python（多线程版）

经测试发现上次写的 CMake下调用anaconda的pytorch及numpy传参CV Mat给python 在多线程下就挂了经过各种实验终于完成了多线程的实现在此分享一下主要结构如下 Created by daybeha on
Vue中的三种绑定方式

1 属性绑定 div img alt div
《逆袭进大厂》 C++ 八股文问题目录

如果有没看过前两期的小伙伴们可以点击下面两篇文章去温习一下逆袭进大厂之C 篇49问49答绝对的干货逆袭进大厂第二弹之C 进阶篇59问59答 4W字超强汇总知乎逆袭进大厂第三弹之C 提高篇79问79答知乎不逼逼了逆袭进大
解决 mac zsh 所有命令失效

https www cnblogs com zhangrunhao p 9970656 html
Python - 使用多处理并行处理受 CPU 限制的任务

多元处理英语 Multiprocessing 也译为多进程多处理器处理多重处理指在一个单一电脑系统中使用二个或二个以上的中央处理器以及能够将计算工作分配给这些处理器拥有这个能力的电脑系统也被称为是多元处理器系统 Multip

Python - 使用多处理并行处理受 CPU 限制的任务

Python - 使用多处理并行处理受 CPU 限制的任务 的相关文章

随机推荐

热门标签

Python - 使用多处理并行处理受 CPU 限制的任务的相关文章