dask：并行模型中的共享内存

2024-01-10

我已经阅读了 dask 文档、博客等，但我仍然不是 100% 清楚如何做到这一点。我的用例：

我有大约 10GB 的参考数据。一旦加载，它们就是只读的。通常我们将它们加载到 Dask/Pandas 数据框中
我需要这些参考数据来处理（丰富、修改、转换）每天大约 500 个 mio 事件（多个文件）
“流程”是大约 40 个任务的管道。执行顺序是相关的（依赖性）。
每个单独的任务并不复杂或耗时，主要是查找、丰富、映射等。
事件之间不存在依赖性。理论上，我可以通过单独的线程处理每个事件，将输出合并到一个文件中，然后就完成了。输出事件甚至不需要与输入事件具有相同的顺序。

总之：

我们可以大规模并行化事件处理
每个并行线程都需要相同的 10 GB（原始）引用数据
处理单个事件意味着将 40 个任务的序列/管道应用于它们
每个单独的任务并不耗时（读取参考数据并修改事件）

可能的陷阱/问题：

花费更多的时间在序列化/反序列化上，而不是处理数据（我们在一些使用类似管道的方法的试验中确实经历过这种情况）
引用数据被多次加载，每个（并行）进程加载一次
最好我想在我的笔记本电脑上开发/测试它，但我没有足够的内存来加载参考数据。可能是解决方案是否会利用内存映射？

最有效的解决方案似乎是，如果我们只能将引用数据加载到内存中一次，则使其可供处理事件的多个其他进程只读

通过在每台计算机中加载参考数据来扩展到多台计算机。将文件名推送到计算机以执行。

知道如何实现这一目标吗？

非常感谢你的帮助

我还遇到过运行令人尴尬的并行作业的类似问题，这些作业都在同一个查找“引用”表（或并行进程的每个实例所需的任何大内存只读变量）中获取数据。在遵循“写时复制”语义的环境中（例如linux），将查找表放置在全局范围内总是非常有效，如下所示：多处理中的共享内存对象 https://stackoverflow.com/questions/10721915/shared-memory-objects-in-multiprocessing

这是一个简单的并行工作流程：

from multiprocessing import Pool

# Load your reference data, do that only once 
# here in the parent process
my_ref_lookup = load_ref_data(your_data_file)

def your_parallel_function(my_file_path):
    my_new_data = load_data(my_file_path)
    # process my_new_data with some lookup in my_ref_lookup 
    # which is known from the parent process. 

    processed_data = do_stuff(my_new_data)

    # you could here write something on disk
    # and/or return the processed_data

    return processed_data

with Pool(processes = 5) as Pool:
   list_of_result = Pool.map(your_parallel_function, your_list_of_file_paths)

这里执行的是your_parallel_function将并行执行，例如5个worker，在里面取5个文件your_list_of_file_paths一次所有子进程都可以访问my_ref_lookup无需复制它们。

在使用 Dask 和 bag 系列一段时间后，我从未发现过比这类似或更简单的行为。在我尝试使用 Dask 时，在全局范围内以这种方式共享的只读变量最终被尽可能多的需要它的工作人员复制，这导致内存爆炸并导致我的内核崩溃。我从未在 Dask 的任何文档中看到过这种情况的处理。 Dask 文档中唯一与此相关的远程参考是关于避免全局状态：https://docs.dask.org/en/latest/delayed-best-practices.html#avoid-global-state https://docs.dask.org/en/latest/delayed-best-practices.html#avoid-global-state但这显示了共享变量被延迟函数修改的情况，这与当前仅共享“只读”数据的问题不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

dask：并行模型中的共享内存的相关文章

如何从字典构造defaultdict？

如果我有d dict zip range 1 10 range 50 61 我怎样才能建立一个collections defaultdict出于dict 唯一的论点defaultdict似乎采取的是工厂功能我必须初始化然后再经历原来的d并
字符串的“相关矩阵”。名义数据的相似度

这是我的数据框 df store 1 store 2 store 3 store 4 0 banana banana plum banana 1 orange tangerine pear orange 2 apple pear melon
通过pip安装lxml时出错：需要Microsoft Visual C++ 14.0

我使用的是 Windows 10 机器最近从 python 2 7 迁移到 3 5 当尝试通过 pip 安装 lxml 时它会停止并抛出此错误消息构建 lxml etree 扩展错误需要 Microsoft Visual C 14
SQLAlchemy 闭包表关系定义

我最近开始使用 SQL Alchemy 开展一个涉及攀岩区域和路线的项目区域是分层的因为单个区域可以包含多个区域而多个区域又可以包含其他区域路线直接与单个区域关联但也与该区域的父区域关联等等为了实现这一点我选择使用Bill
pandas 用 nan 值切割了一系列

我想将 pandas cut 函数应用于包含 NaN 的序列期望的行为是它对非 NaN 元素进行存储并为 NaN 元素返回 NaN import pandas as pd numbers with nan pd Series 3 1 2
Bokeh 相当于 matplotlib 子图

我正在寻找一种方法来创建包含多个子图的绘图例如 fig ax0 ax1 plt subplots nrows 2 sharex True 可以在 matplotlib 中完成然后可以通过以下方式解决ax0 and ax1 有没有办法在
使用数据库数据模型生成 SQLAlchemy 模型、架构和 JSON 响应

将 Flask 和 SQLAlchemy 用于 Python Web 应用程序我的目标是创建一个系统在其中我可以从现有 PostgreSQL 数据库导入数据模型并将它们映射到相应 SQLAlchemy 模型中的字段使用这些 SQL
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o
Python 有哪些 SOAP 客户端库，它们的文档在哪里？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 matplotlib 中查看然后自动关闭图形？

我必须检查我的参数设置是否正确因此我需要绘制许多图为了绘制这些图我选择使用 matplotlib 每次检查后我需要单击左上角的关闭按钮这很微不足道那么有没有什么方法可以让剧情在3 5秒左右显示并且无需点击就自动关闭呢我知道关于
我的本地 postgresql 数据库 url 的形式是什么？

我正在学习 Flask sqlalchemy 教程https pythonhosted org Flask SQLAlchemy quickstart html a minimal application https pythonhoste
Pandas 无法读取使用 h5py 创建的 hdf5 文件

当我尝试读取使用 h5py 创建的 HDF5 格式文件时出现 pandas 错误我想知道我是否只是做错了什么 import h5py import numpy as np import pandas as pd h5 file h5py
PySide2/QML 填充 Gridview 模型/委托并为其设置动画

我是 QML 的新手正在寻求以下几点帮助如何基于 TextField 输入如 Regex 通过 PySide2 过滤 Gridview 模型中的 QAbstractListModel 数据标题如何在鼠标悬停时为 Gridview
如何用不同的颜色填充seaborn.distplot中的区域

是否可以用颜色填充两条阈值线 line1 和 line2 之外的区域并通过 distplot 绘制的 KDE 曲线限制 Y 轴代表我的应用程序的 3 sigmas import pylab as pl import seaborn as
随机数生成器每次仅返回一个数字

Python 是否有一个随机数生成器每次只返回一个随机整数next 函数被调用数字不应该重复并且生成器应返回区间内的随机整数 1 1 000 000 这是独一无二的我需要生成超过一百万个不同的数字这听起来好像非常消耗内存以防所有数
在 matplotlib 中添加新的导航模式

我正在编写一个 wx matplotlib 应用程序并且在向 matplotlib 导航工具栏添加新工具时遇到相当大的困难基本上我想添加选择工具选取框套索等以切换受控子图的鼠标模式到目前为止我还没有找到任何功能可以让我轻松地做
使用 PyODBC 选择表中的列名

我正在编写一个 Python 程序该程序使用 PyODBC 从 Microsoft Access mdb 文件中选择一些数据我需要发现几个不同表的列名在 SQL Server 中这可以通过使用类似的查询来完成 SELECT c na
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
从 C++ 检索 Python 类型

这个问题实际上是以下两个问题的延伸如何在 Python 中实现 C 类以供 C 调用 https stackoverflow com questions 9040669 how can i implement a c class in
Django migrate：不创建表

经过一些错误后我删除了数据库删除了所有迁移文件我留下了init py 现在当我跑步时 python migrate py makemigrations It creates migrations correctly python m

随机推荐

在 R 中合并列

我想使用 R 将数据框的两列合并为一长列下面有一个可重现的数据 data lt data frame x c 4 5 6 7 7 7 y c 3 4 5 6 7 7 data x y 1 4 3 2 5 4 3 6 5 4 7 6 5 7
Waypoint npm - 错误：无法解析“waypoint”

我有一个 vue 项目并安装了 waypoints npm install waypoints 我尝试导入它 import waypoint from waypoints 但出现错误错误无法解析 Mypath 中的路径点我究竟做错了
我需要服务器向所有客户端发送消息（Python、套接字）

这是我的服务器程序它如何将从每个客户端接收到的数据发送到每个其他客户端 import socket import os from threading import Thread import thread def listener cli
'#' 在 Mocha 中有特殊含义吗？

describe indexOf it doSth 在 Mocha 中有特殊含义吗什么是describe and it实际上呢抱歉没有找到相关文档describe and it describe and it遵循一种称为BDD 意思是
使用 Zend 框架 2 未在 JSON 中呈现 404 HTTP 错误

我正在使用 zend Framework2 创建一个简单的 Restful api 并且我参考了 Rob Allen 关于该主题的注释以及 http hounddog github com blog getting started with
使用 C# 枚举 Excel 工作簿中单元格的有效方法

枚举工作簿中每个工作表中的每个单元格的最有效方法是什么对于包含约 130 000 个单元格的工作簿下面的方法似乎相当有效在我的机器上打开文件大约需要 26 秒枚举单元大约需要 5 秒不过我不是 Excel 专家并且希望与更广
WebAPI 控制器中的 MVC 路由

关于 MVC 和 WebAPI 中的路由的快速问题我在路由config cs中添加了一条路由 routes MapRoute name ConfirmEmail url ConfirmEmail userid defaults new c
App Engine Cloud Trace 是否需要 AppState？

谷歌的应用程序引擎已经升级了他们的开发者控制台它包括一个名为云踪迹 https cloud google com tools cloud trace 这是改进版吗AppStats https cloud google com appeng
使用 Django 在用户注册时填写用户个人资料

我正在开发一个应用程序使用 Django 提供的用户默认身份验证以及django registration redux 同样在文档中他们建议将用户配置文件链接到OneToOneField在不同的模型中如下解释 https docs
Groovy 家长/孩子私人领域访问奇怪与关闭

在 Groovy 中我有一个父类和一个子类其中父类的构造函数尝试使用闭包设置父类字段的值如以下代码所示 try def x new ChildClass catch ex ex printStackTrace System err c
如何在 CLion 中正确设置环境变量 TERM

在 OSX 上使用 CLion 我正在创建一个简单的控制台应用程序我想在其中执行system clear 当我在 OSX 终端中运行该应用程序时它可以正常工作当我使用 CLion 终端运行它时 system clear 失败并显示消息
Android 无法使用前置摄像头录制视频，MediaRecorder 启动失败：-19

我有两个不同的代码库有同样的问题第一个是直接从developer android com 复制的代码 http developer android com guide topics media camera html custom cam
Spark 1.6.Token只能通过kerberos或web认证来颁发

我在 shell 驱动程序脚本中的 Spark submit 之前调用 kinit keytab 问题是它本身可以工作但是当我通过 Oozie 调用 shell 驱动程序脚本时出现以下错误 Stdoutput py4j protoco
为什么我的子类实例不包含基类的属性（当我尝试使用它们时导致 AttributeError）？

我有这个基类和子类 class Event def init self sr1 None foobar None self sr1 sr1 self foobar foobar Event class wrappers to provide
当文件上传超过 ASP.NET MVC 中允许的大小时显示自定义错误页面

我的主要问题是当上传的文件超过允许的大小 web config 中的 maxRequestLength 时我想显示自定义错误页面上传大文件时在调用控制器中的上传操作方法之前会引发 HttpException 这是预料之中的我尝试捕
ASP.Net Core - API 身份验证错误时没有重定向

在我的 ASP NET Core 项目中我有一些具有 jwt 授权的 API 控制器如下所示 Route api v1 controller public class MyController Controller HttpGet ac
Android 视图 - 如何通过 XML 配置“松散”的视图元素？

这就是我想要实现的目标在 TabWidget 中使用 TextView 即调用TabHost TabSpec setIndicator View 代替TabHost TabSpec setIndicator String 我想在 XML
计算 nCr 的更好方法

方法一 C n r n n r r 方法2 在书里我发现了这个 C n r 可以写成C n 1 r C n 1 r 1 例如 C 7 4 C 6 4 C 6 3 C 5 4 C 5 3 C 5 3 C 5 2 After solving
权限拒绝：读取 com.android.providers.contacts.CallLogProvider

我在特定手机和运营商上遇到此异常 Verizon 的 Samsung Galaxy S3 我已经在 Sprint 的 Evo 和 AT T 的 Galaxy Nexus 上进行了测试没有一个给我这个错误我想知道电话运营商是否对操作系统进
dask：并行模型中的共享内存

我已经阅读了 dask 文档博客等但我仍然不是 100 清楚如何做到这一点我的用例我有大约 10GB 的参考数据一旦加载它们就是只读的通常我们将它们加载到 Dask Pandas 数据框中我需要这些参考数据来处理丰富修改

dask：并行模型中的共享内存

dask：并行模型中的共享内存 的相关文章

随机推荐

热门标签

dask：并行模型中的共享内存的相关文章