线程和多处理模块之间有什么区别？

2024-03-19

我正在学习如何使用threading和multiprocessingPython 中的模块可并行运行某些操作并加速我的代码。

我发现这很难（也许是因为我没有任何理论背景）来理解threading.Thread()对象和一个multiprocessing.Process() one.

另外，我并不完全清楚如何实例化一个作业队列，并让其中只有 4 个（例如）作业并行运行，而另一个则在执行之前等待资源释放。

我发现文档中的示例很清楚，但不是很详尽；一旦我尝试使事情变得复杂一点，我就会收到很多奇怪的错误（例如无法腌制的方法等等）。

那么，我什么时候应该使用threading and multiprocessing模块？

您能给我链接一些资源来解释这两个模块背后的概念以及如何正确使用它们来完成复杂的任务吗？

朱利奥·佛朗哥怎么说 https://stackoverflow.com/a/18114475对于多线程与多处理来说是正确的一般来说.

However, Python^* has an added issue: There's a Global Interpreter Lock that prevents two threads in the same process from running Python code at the same time. This means that if you have 8 cores, and change your code to use 8 threads, it won't be able to use 800% CPU and run 8x faster; it'll use the same 100% CPU and run at the same speed. (In reality, it'll run a little slower, because there's extra overhead from threading, even if you don't have any shared data, but ignore that for now.)

但也有例外。如果您的代码的繁重计算实际上并未发生在 Python 中，而是在某些具有执行正确 GIL 处理的自定义 C 代码的库中（例如 numpy 应用程序），您将从线程中获得预期的性能优势。如果繁重的计算是由您运行并等待的某个子进程完成的，情况也是如此。

更重要的是，在某些情况下这并不重要。例如，网络服务器花费大部分时间从网络读取数据包，而 GUI 应用程序花费大部分时间等待用户事件。在网络服务器或 GUI 应用程序中使用线程的原因之一是允许您执行长时间运行的“后台任务”，而无需停止主线程继续服务网络数据包或 GUI 事件。这对于 Python 线程来说效果很好。（用技术术语来说，这意味着 Python 线程为您提供并发性，即使它们不为您提供核心并行性。）

但是，如果您用纯 Python 编写 CPU 密集型程序，那么使用更多线程通常没有帮助。

使用单独的进程就没有GIL这样的问题，因为每个进程都有自己单独的GIL。当然，与任何其他语言一样，您仍然需要在线程和进程之间进行权衡 - 在进程之间共享数据比在线程之间共享数据更困难且更昂贵，运行大量进程或创建和销毁进程的成本可能会很高但 GIL 严重影响了进程的平衡，而对于 C 或 Java 来说，情况并非如此。因此，您会发现自己在 Python 中比在 C 或 Java 中更频繁地使用多处理。

与此同时，Python 的“自带电池”哲学带来了一些好消息：编写可以通过一行更改在线程和进程之间来回切换的代码非常容易。

如果您根据独立的“作业”设计代码，除了输入和输出之外，不与其他作业（或主程序）共享任何内容，则可以使用concurrent.futures http://docs.python.org/3/library/concurrent.futures.html围绕线程池编写代码的库，如下所示：

with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
    executor.submit(job, argument)
    executor.map(some_function, collection_of_independent_things)
    # ...

您甚至可以获取这些作业的结果并将其传递给进一步的作业，按执行顺序或完成顺序等待事物等；阅读有关的部分Future对象以获取详细信息。

现在，如果事实证明您的程序不断使用 100% CPU，并且添加更多线程只会使其速度变慢，那么您就会遇到 GIL 问题，因此您需要切换到进程。您所要做的就是更改第一行：

with concurrent.futures.ProcessPoolExecutor(max_workers=4) as executor:

唯一真正需要注意的是，作业的参数和返回值必须是可腌制的（并且不会花费太多时间或内存来腌制）才能跨进程使用。通常这不是问题，但有时却是问题。

但如果您的工作不能独立怎么办？如果您可以根据工作来设计代码传递消息从一个到另一个，仍然很容易。你可能需要使用threading.Thread or multiprocessing.Process而不是依赖池。你必须创建queue.Queue or multiprocessing.Queue明确对象。（还有很多其他选项——管道、套接字、带有羊群的文件……但重点是，你必须这样做某物如果执行器的自动魔法不够，则手动进行。）

但是如果您甚至不能依赖消息传递怎么办？如果您需要两项工作来改变相同的结构并查看彼此的变化怎么办？在这种情况下，您将需要进行手动同步（锁、信号量、条件等），并且如果您想使用进程，还需要显式共享内存对象来启动。这是多线程（或多处理）变得困难的时候。如果你能避免它，那就太好了；如果你不能，你将需要阅读比某人可以放入 SO 答案更多的内容。

从评论中，您想了解 Python 中线程和进程之间的区别。真的，如果您阅读朱利奥·佛朗哥的答案和我的答案以及我们所有的链接，那应该涵盖所有内容……但是摘要肯定会很有用，所以这里是：

线程默认共享数据；进程则不然。
As a consequence of (1), sending data between processes generally requires pickling and unpickling it.^**
作为（1）的另一个结果，在进程之间直接共享数据通常需要将其放入低级格式，如值、数组和ctypes types.
进程不受 GIL 的约束。
在某些平台（主要是 Windows）上，创建和销毁进程的成本要高得多。
进程有一些额外的限制，其中一些在不同平台上是不同的。看编程指南 http://docs.python.org/3/library/multiprocessing.html#multiprocessing-programming了解详情。
The threading模块不具备某些功能multiprocessing模块。（您可以使用multiprocessing.dummy要在线程之上获取大部分缺失的 API，或者您可以使用更高级别的模块，例如concurrent.futures不用担心。）

_{* It's not actually Python, the language, that has this issue, but CPython, the "standard" implementation of that language. Some other implementations don't have a GIL, like Jython.}

_{** If you're using the fork https://docs.python.org/3/library/multiprocessing.html#contexts-and-start-methods start method for multiprocessing—which you can on most non-Windows platforms—each child process gets any resources the parent had when the child was started, which can be another way to pass data to children.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

线程和多处理模块之间有什么区别？的相关文章

如何在cvxpy中编写多个约束？

我想在 cvxpy 下的优化问题中添加许多约束在 matlab 中我可以通过添加一行 subject to 然后使用 for 循环来生成约束我怎样才能在 cvxpy 中做同样的工作因为 cvxpy 中没有服从概念有什么建议吗
Python：如何删除圆括号内的文本？

我试过了但没用 return re sub myResultStats text 建议 thanks 尝试这个 return re sub myResultStats text 括号表示捕获组因此您必须转义它们
从 SQL Server 中调用 Python 文件

我的文件名中有 Python 脚本 C Python HL py 在此 Python 脚本中有预测模型以及对 SQL 数据库中某些表的更新我想将此文件称为 SQL 作业我怎样才能做到这一点这个问题不一样如何在 SQL Server
通过 pyodbc 连接到 Azure SQL 数据库

我使用 pyodbc 连接到本地 SQL 数据库该数据库工作正常 SQLSERVERLOCAL Driver SQL Server Native Client 11 0 Server localdb v11 0 integrated se
这是我尝试安装 pip3 时得到的结果

这是我尝试安装 pip3 时得到的结果 sudo apt get install python3 pip Reading package lists Done Building dependency tree Reading state i
python: X 服务器上的致命 IO 错误 11（资源暂时不可用）：0.0

我正在尝试读取一些图像稍后打算对它们执行一些任务同时将图像读入内存我想显示动画 gif 图像为此我必须使用线程现在它给出错误 python Fatal IO error 11 Resource temporarily unava
使用python同时播放两个正弦音

我正在使用 python 来播放正弦音音调基于计算机的内部时间以分钟为单位但我想根据秒同时播放一个音调以获得和谐或双重的声音这就是我到目前为止所拥有的有人能指出我正确的方向吗 from struct import pack fr
VSCode Jupyter Notebook - 恢复缓存版本

我正在使用在 Ubuntu 19 10 上运行的 VSCode v 1 48 0 创建一个 Jupyter Notebook VSCode 崩溃了不幸的是我没有保存笔记本当我重新启动时它是空的我已经能够在 config Code Us
导入错误：无法导入名称 urandom

我正在构建一个新的 Linux 环境并在 Python 上看到以下错误 python c import random Traceback most recent call last File
python中remove方法的安全使用

我从列表继承了一个 UserList 类并实现了以下方法来删除标记为已删除的条目 def purge deleted self for element in list iter self if ele mark deleted lt 1 s
如何将 Jinja 与 Twisted 一起使用？

我正在计划使用 Python 与 Twisted Storm 和 Jinja 一起开发一个讨论软件问题是 Jinja 不是为 Twisted 或异步套接字库而设计的并且使用 Twisted 提供的性能是我不打算使用 Flask 的原因
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
captureWarnings 设置为 True 不会捕获警告

我想记录所有警告我以为这样的设定captureWarnings to True应该可以解决问题但事实并非如此代码 import logging import warnings from logging handlers import
pip：证书失败，但curl 有效

我们在客户端安装了根证书 https 连接适用于curl 但如果我们尝试使用pip 它失败 Could not fetch URL https installserver 40443 pypi simple pep8 There was a
如何克服 numpy.unique 的 MemoryError

我正在使用 Numpy 版本 1 11 1 并且必须处理一个二维数组 my arr shape 25000 25000 所有值都是整数我需要一个唯一的数组值列表使用时lst np unique my arr 我正进入状态 Traceb
在Python中计算矩阵乘以其转置（AA^T）的最快方法

在Python中将矩阵与其转置 AA T 相乘的最快方法是什么我认为 NumPy SciPy 没有考虑使用例如时涉及的对称性 np dot or np matmul 得到的矩阵总是对称的所以我可以想象有一个更快的解决方案 None
使用 JSON 可序列化枚举自动生成棉花糖模式

创建与我的模型相同的棉花糖模式的日子已经一去不复返了我发现这个优秀的答案 https stackoverflow com a 42892443 4097322这解释了我如何使用简单的装饰器从 SQA 模型自动生成模式因此我实现了它并替换
张量流多元线性回归不收敛

我正在尝试使用张量流训练具有正则化的多元线性回归模型由于某种原因我无法获取以下代码的训练部分来计算我想要用于梯度下降更新的误差我在设置图表时做错了什么吗 def normalize data matrix averages np av
如何访问模板缓存？ - 姜戈

I am 缓存 HTML在几个模板内例如 cache 900 stats stats endcache 我可以使用以下方式访问缓存吗低级图书馆例如 html cache get stats 我确实需要对模板缓存进行一些细粒度的控制有任
用于获取有关 SVN 存储库信息的 Python 库？

我正在寻找一个可以从 SVN 存储库中提取至少以下信息的库 not工作副本修订号及其作者和提交消息每个修订版中的更改添加删除修改文件有Python库可以做到这一点吗对于作者和提交消息我可以解析 db revprops 0

随机推荐

ui内的输入组件：repeat，如何保存提交的值

我正在显示数据库中的问题列表对于每个问题我必须显示选项列表在本例中为单选按钮
AWS CloudSearch 上传 JSON：值标签不能是数组或对象

我正在运行 lambda 函数 NodeJS 将一些文档上传到 AWS Cloud Search 我不断收到以下错误 errorMessage The value of tags cannot be a JSON array or obje
如何在忽略索引对齐的情况下分配列

假设我有两个数据框x and y在 Pandas 中我想填写一列x对列进行排序的结果y 我试过这个 x foo y bar order ascending False 但这没有用我suspect因为熊猫对齐索引之间x and y 具有相
couchdb 视图使用另一个视图？

我对 couchdb 中的视图有疑问目前我有许多视图例如 view A view B view Z 对于每个视图它们包含相同范围的键但具有不同的值 IE view A key key 1 value 10 key key 2 val
作为函数输入传递的 python 字典在该函数中的作用类似于全局函数，而不是局部函数

我对下面的行为感到非常困惑情况 1 3 和 4 的表现符合我的预期但情况 2 却没有为什么情况 2 允许函数全局更改字典条目的值即使函数从未返回字典我使用函数的一个主要原因是将函数中的所有内容与代码的其余部分隔离但如果我选择在函
VBA Excel Outlook 电子邮件正文格式

我有自动发送电子邮件的 useform 我想更改电子邮件的正文其中一些将基于带有文本的单元格因此它可以是动态的有些将在代码中修复现在在运行我需要对象的错误我将感谢您的帮助我希望电子邮件正文中的每一行都是分开的 Sub send
Erlang编译器错误

我有以下代码 loop Data gt receive Key Value gt Key Value Data Key gt member Key Data 14 loop Data stop gt io format server sto
在 Snow Leopard 上安装 Mac OS X SDK 10.5

有没有一种简单的方法可以在 Snow Leopard 上安装下载 Mac OS X 10 5 SDK 我通过 Mac App Store 安装了 Xcode 4 0 如果需要的话我也可以从开发者网站下载它但我不知道它是否包含10 5 S
如何定义C结构：c-linkage和udt

我有用 C ABI 接口用 X 语言编写的 dll 我想在我的 C 程序中使用这个 C ABI 我在main cpp中写道 extern C struct Foo const char const data unsigned len str
如何在 Jenkins WEB GUI 中显示生成的 trx 文件？

我有一堆测试结果文件 trx 在目录中构建完成后TestResults 是否可以在 Jenkins 中显示这些测试结果如何我尝试了 MSTest Jenkins 插件但它只允许一个trx每个作业的文件 trx文件在每次构建后生成并以
初始化 log4j 文件时出现异常

当尝试从配置文件初始化 hibernate 时我得到 NullPointerException 根本原因如图所示 Caused by org apache commons logging LogConfigurationException
为什么Tomcat需要安装JDK？ [复制]

这个问题在这里已经有答案了据我所知 JRE是运行时 JDK是用于Java代码的开发但在生产中的 Tomcat 服务器上将无法开发 Java 应用程序所以我的问题是为什么我们不能只安装 JRE 来运行 Tomcat 为什么运行 To
Ruby on Rails 3 中的类方法 — 我完全迷失了！

背景here http www railway at 2010 03 09 named scopes are dead 在上面的链接中给出了以下示例 class lt lt self def by author author where
为什么 OpenJDK 将私有方法放入 vtable 中？

看起来开放JDK 8 http hg openjdk java net jdk8 jdk8 hotspot file 87ee5ee27509 src share vm oops klassVtable cpp l575放置非私有方法fin
如何在 Delphi 7 中的文件中保存 UTF-16（Little Endian）和字符串值？

我想将编辑框中的值和 UTF 16 Little Endian 值保存在文件中我将举一个简单的例子来更好地理解我的问题 Edit Box Value gt Good Hex value FFFEFF15410042004300 which
如何将环境变量添加到 Azure Devops 管道中

我正在为 Node 应用程序设置 Azure 管道并使用 Jest 来测试 API 和集成源代码位于 Azure DevOps 上代码部署在 Azure 门户中当我运行测试时它在管道中失败因为 env 从未在远程存储库中检查环
在 C++ 中将 HTTP 响应正文与标头分离

我目前正在为某个项目编写自己的 C HTTP 类我正在尝试找到一种方法将响应正文与标头分开因为这是我需要返回的唯一部分如果您不熟悉这里是原始 http 标头的示例 HTTP 1 1 200 OK Server nginx 0 7 6
如何对不同形状使用同一组修改器

作为我学习 SwiftUI 项目的一部分我做了一些形状旋转下面有代码我想知道如何避免每个形状使用相同的三行修饰符 func getShape shape Int i Int gt AnyView switch shape case 0
为什么当我“使用”BinaryReader 对象时我的 FileStream 对象被释放？

考虑以下函数 private int GetSomethingFromFile FileStream fs using BinaryReader br new BinaryReader fs fs Seek 0 SeekOrigin Beg
线程和多处理模块之间有什么区别？

我正在学习如何使用threading和multiprocessingPython 中的模块可并行运行某些操作并加速我的代码我发现这很难也许是因为我没有任何理论背景来理解threading Thread 对象和一个multiproces

线程和多处理模块之间有什么区别？

线程和多处理模块之间有什么区别？ 的相关文章

随机推荐

热门标签

线程和多处理模块之间有什么区别？的相关文章