多处理：为什么与子进程共享 numpy 数组，而复制列表？

2024-04-28

我用过这个script https://stackoverflow.com/questions/13121790/using-multiprocessing-manager-list-instead-of-a-real-list-makes-the-calculation（参见最后的代码）来评估当父进程被分叉时全局对象是否被共享或复制。

简而言之，该脚本创建了一个全局data对象，子进程迭代data。该脚本还监视内存使用情况，以评估对象是否在子进程中被复制。

结果如下：

data = np.ones((N,N))。子进程中的操作：data.sum()。结果：data is shared（无副本）
data = list(range(pow(10, 8)))。子进程中的操作：sum(data)。结果：data is copied.
data = list(range(pow(10, 8)))。子进程中的操作：for x in data: pass。结果：data is copied.

由于写时复制，结果 1) 是预期的结果。我对结果 2) 和 3) 有点困惑。为什么是data copied?

Script

source https://stackoverflow.com/questions/13121790/using-multiprocessing-manager-list-instead-of-a-real-list-makes-the-calculation

import multiprocessing as mp
import numpy as np
import logging
import os

logger = mp.log_to_stderr(logging.WARNING)

def free_memory():
    total = 0
    with open('/proc/meminfo', 'r') as f:
        for line in f:
            line = line.strip()
            if any(line.startswith(field) for field in ('MemFree', 'Buffers', 'Cached')):
                field, amount, unit = line.split()
                amount = int(amount)
                if unit != 'kB':
                    raise ValueError(
                        'Unknown unit {u!r} in /proc/meminfo'.format(u = unit))
                total += amount
    return total

def worker(i):
    x = data.sum()    # Exercise access to data
    logger.warn('Free memory: {m}'.format(m = free_memory()))

def main():
    procs = [mp.Process(target = worker, args = (i, )) for i in range(4)]
    for proc in procs:
        proc.start()
    for proc in procs:
        proc.join()

logger.warn('Initial free: {m}'.format(m = free_memory()))
N = 15000
data = np.ones((N,N))
logger.warn('After allocating data: {m}'.format(m = free_memory()))

if __name__ == '__main__':
    main()

详细结果

运行 1 输出

[WARNING/MainProcess] Initial free: 25.1 GB [WARNING/MainProcess] After allocating data: 23.3 GB [WARNING/Process-2] Free memory: 23.3 GB [WARNING/Process-4] Free memory: 23.3 GB [WARNING/Process-1] Free memory: 23.3 GB [WARNING/Process-3] Free memory: 23.3 GB

运行2输出

[WARNING/MainProcess] Initial free: 25.1 GB [WARNING/MainProcess] After allocating data: 21.9 GB [WARNING/Process-2] Free memory: 12.6 GB [WARNING/Process-4] Free memory: 12.7 GB [WARNING/Process-1] Free memory: 16.3 GB [WARNING/Process-3] Free memory: 17.1 GB

运行3输出

[WARNING/MainProcess] Initial free: 25.1 GB [WARNING/MainProcess] After allocating data: 21.9 GB [WARNING/Process-2] Free memory: 12.6 GB [WARNING/Process-4] Free memory: 13.1 GB [WARNING/Process-1] Free memory: 14.6 GB [WARNING/Process-3] Free memory: 19.3 GB

它们都是写时复制。你所缺少的是，当你这样做时，例如，

for x in data:
    pass

中包含的每个对象的引用计数data暂时加 1，一次一个，如下x依次绑定到每个对象。为了int对象，CPython 中的引用计数是基本对象布局的一部分，因此对象会被复制（您did改变它，因为引用计数发生了变化）。

为了使一些东西更类似于numpy.ones案例，尝试，例如，

data = [1] * 10**8

那么只有一个唯一的对象引用了许多（10**8) 次列表，因此几乎没有什么需要复制（同一对象的引用计数会多次递增和递减）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多处理：为什么与子进程共享 numpy 数组，而复制列表？的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

res.cookie未在浏览器中设置cookie

我目前正在尝试使用 React 客户端设置 Node Express 应用程序以与之交互我设置了护照来处理 JWT 身份验证当用户登录时我验证电子邮件密码然后我设置cookie res cookie jwt token httpO
ViewModel 中的 MediaElement.play()

我正在努力解决以下问题我正在使用 MVVM 模式构建 WP8 应用程序我的 view xaml 中有一个媒体元素并且在 viewmodel cs 中有控制该媒体元素的逻辑例如播放停止暂停和音量如何使用绑定从我的视图模型在此媒
表“DBNAME.hibernate_sequence”不存在

我有一个使用 spring data jpa 的 Spring Boot 2 0 1 RELEASE 应用程序
为什么express服务器接收到的前端数据是未定义的？

我目前正在开发社交媒体 Mern Stack React 应用程序我使用 Node js 和 Express 作为我的后端服务还使用 mongoose 来存储我的数据并使用 axios 和 redux thunk 将后端连接到前端到
TFS 2008 在编辑时自动检出代码

我正在开发一个已添加到 TFS 服务器的 Visual Studio 2008 项目我不确定为 TFS 配置了哪些设置和策略这是由单独的部门而不是开发人员完成的每次我对代码文件进行编辑时都会自动检出该文件无需自己显式检出代码文件
Xamarin.Android 应用程序仅在干净编译时找到启动器活动

我有一个Xamarin Android标记为 MainLauncher 的活动称为 Login 当我第一次按 F5 时应用程序在模拟器中正常启动然后我停下来进行一些代码更改再次按 F5 我可以看到应用程序在模拟器中启动当我收到以下
从目标中包含/排除整个组

我的项目有一个包含数百个文件的组组织成几十个两级子组该组中的文件本身经常被更改我希望这些文件包含在某些目标中但不包含在其他目标中在 Xcode 3 x 中每次更改组后我只需获取有关组本身的信息转到目标选项卡然后重新
Android Studio - 无法识别的 VM 选项“MaxPermSize=256m”

我刚刚在 Elementary OS 0 3 Freya 上安装了 Android Studio 并使用终端运行它然而在我第一次启动时显示一条错误消息 Gradle 测试项目刷新失败无法启动守护进程这个问题可能是由守护进程的配
在 vs code 中连接到 Azure Devops 私有 NuGet

我们有一个私人NuGet喂养它一直与Visual Studio 我们的开发人员通过他们的联系Azure帐户与私人提要我想在迁移到 VS Code 时保留相同的功能使用找到的文档here https learn microsoft co
连接 2 个控制器并可以访问第二个控制器中的第一个控制器属性

我对角镖有疑问 1 个用于触发作用域的 html 文件和 2 个控制器类索引 html subCtrl 用户名第一控制器 Controller selector mainController publishAs mainCtrl cla
纹理openGl。 C++、qt

我试图用草纹理覆盖我的地形由高度图制成但它没有按预期工作我什至无法在简单的 GL QUAD 上获取纹理结果是多色网络 void GLWidget initializeGL glEnable GL TEXTURE 2D 在 QGLwi
实体框架中的级联更新

我有以下涉及 2 个类的场景 public class Parent Key public int Id get set Other properties here public virtual IList
在本地主机（Chrome 和 FF）上，过期时间少于 1 年时未设置 cookie

我在本地主机上遇到问题并且在Chrome and Firefox not Edge 这段代码可以正常工作并且会设置 cookie HttpPost public ActionResult Change string val var co
Jprofiler Linux 上的远程分析。如何更改探查器数据文件的路径

我正在 Linux 盒子上运行 java java 6 应用程序并进行其他设置 agentpath home myuser jprofiler bin linux x64 libjprofilerti so nowait 端口 7777 在
基于另一个属性的地幔属性类别？

如何使用 Github Mantle 根据同一类中的另一个属性来选择属性类或者在更坏的情况下 JSON 对象的另一部分例如如果我有一个像这样的对象 content mention text some text created at 1
VS2012 单元测试：如何更改 TestResults 文件夹的位置

我将所有单元测试项目都放在解决方案文件夹下的一个文件夹中并且希望将 TestResults 文件夹放在与测试项目相同的文件夹中而不是放在解决方案目录中我发现这可以通过测试设置文件来完成如何在VS 2010中指定单元测试结果的位置 h
更新 mtl 后找不到模块“Control.Monad.State”

我想用Control Monad Except模块但结果发现我有一个过时的 mtl 包它导致了导入错误我有一个过时的模块Control Monad Error 所以我做了 sudo cabal install mtl 并且安装了2 2
使用 Flutter 确认购买

扑动的in app purchase插件已更新至版本0 3 0 将 Google Play 库迁移到2 0 3 根据 Google Play Library v2 所有购买都必须在 3 天内测试订单为 5 分钟内得到确认否则将被自动取
让 std::complex 通过 std::is_floating_point 测试

我想要类型double float complex
多处理：为什么与子进程共享 numpy 数组，而复制列表？

我用过这个script https stackoverflow com questions 13121790 using multiprocessing manager list instead of a real list makes t

多处理：为什么与子进程共享 numpy 数组，而复制列表？

多处理：为什么与子进程共享 numpy 数组，而复制列表？ 的相关文章

随机推荐

热门标签

多处理：为什么与子进程共享 numpy 数组，而复制列表？的相关文章