使用变量设置 Dask Worker

2023-12-03

我想在工作人员加载时分发一个更大的对象（或从磁盘加载）并将其放入全局变量（例如calib_data）。这对 Dask 工作人员有用吗？

好像是客户端方法注册工人回调在这种情况下可以做你想做的事。你仍然需要某处放置你的变量，因为在 python 中没有真正的全局范围。例如，某个地方可以是导入模块的任何属性，然后任何工作人员都可以访问该属性。您还可以将其添加为工作实例本身的属性，但我认为没有明显的理由要这样做。

一种有效的方法是劫持随机选择的内置模块；但我并不特别推荐这个（见下文）

def attach_var(name, value):
    import re
    re.__setattr__(name, value)

client.run(attach_var, 'x', 1)

def use_var():
    # any function running on a worker can do this, via delayed or
    # whatever method you pass with
    import re
    return re.x

client.run(use_var)

不过，在继续之前，您是否已经考虑过delayed(calib_data) or scatter，这会将您的变量复制到需要的位置，例如，

futures = client.scatter(calib_data, broadcast=True)

或者确实使用普通的方式将数据加载到工作人员中delayed语义学

dcalib = dask.delayed(load_calib_data)()
work = dask.delayed(process_stuff)(dataset1, dcalib)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dask

使用变量设置 Dask Worker 的相关文章

Pandas 数据帧太大而无法附加到 dask 数据帧？

我不确定我在这里缺少什么我认为 dask 可以解决我的内存问题我有 100 多个以 pickle 格式保存的 pandas 数据帧我希望将它们全部放在同一个数据框中但不断遇到内存问题我已经增加了 jupyter 中的内存缓冲区看
使用 Dask 导入大型 CSV 文件

我正在使用 Dask 导入一个非常大的 csv 文件 680GB 但是输出不是我所期望的我的目标是仅选择一些列 6 50 并可能过滤它们我不确定因为似乎没有数据 import dask dataframe as dd file pa
有没有办法获得 dask 中每组最大的项目？

我有以下数据集 location category percent A 5 100 0 B 3 100 0 C 2 50 0 4 13 0 D 2 75 0 3 59 0 4 13 0 5 4 0 我正在尝试获取数据框中按位置分组的最大类别
演员和幕后工作者

client Client 127 0 0 1 8786 direct to workers True future1 client submit Counter workers ninja actor True counter1 futu
使用 Python 在 Parquet 中嵌套数据

我有一个文件每行一个 JSON 这是一个示例 product id abcdef price 19 99 specs voltage 110v color white user Daniel Severo 我想创建一个包含以下列的镶木地板
如何将 dask 数据帧保存到与 dask 调度程序/工作人员相同的机器上的镶木地板？

我试图通过 Dask Dataframe 保存到与 dask 调度程序工作人员所在的同一台机器上的镶木地板然而我在这期间遇到了麻烦我的 Dask 设置我的 python 脚本在本地计算机笔记本电脑 16 GB RAM 上执行但
如何使用 dask 和特定 AWS 配置文件从 s3 读取镶木地板文件

如何使用 s3 读取 parquet 文件dask以及特定的 AWS 配置文件存储在凭证文件中达斯克用途s3fs它使用boto 这是我尝试过的 gt gt gt import os gt gt gt import s3fs gt gt
将 SQL 查询读入 Dask DataFrame

我正在尝试创建一个函数该函数将 SQL SELECT 查询作为参数并使用 dask 将其结果读入 dask DataFramedask read sql query功能我是 dask 和 SQLAlchemy 的新手我首先尝试了这个
Dask 分布式工作线程在运行许多任务时总是会泄漏内存

有哪些策略可以解决或调试这个问题 distribution worker 警告内存使用率很高但工作线程没有数据可存储到磁盘也许其他进程正在泄漏内存进程内存 26 17 GB 工作内存限制 32 66 GB 基本上我只是在一台机器上
在 Dask 数组上使用 scikit-learn cosine_similarity - python

我有 Dask 来处理无法放入内存的大量向量并使用 scikit learn cosine similarity 来计算这些向量之间的余弦相似度即 import dask array as da from sklearn metrics
Dask 中的二维布尔索引

我想使用 Dask 进行二维索引这是该任务的示例 array1 xr DataArray 1 3 4 7 6 4 15 2 chunk 2 array2 xr DataArray 1 3 4 9 1 4 3 2 chunk 2 array
无法转置 dask.dataframe - 出现未绑定本地错误

我正在尝试转置一个非常大的数据框由于文件的大小我使用了 Dask 并搜索了如何转置 dask 数据帧 import pandas as pd import numpy as np import dask dataframe as dd
使用 dask 加载大型压缩数据集

我正在尝试将一个大型压缩数据集加载到 python 中其结构如下 year zip year month 很多 csv 文件到目前为止我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi
使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个
重塑 dask 数组（从 dask 数据框列获得）

我是 dask 新手正在尝试弄清楚如何重塑从 dask 数据帧的单列获得的 dask 数组但遇到了错误想知道是否有人知道修复方法无需强制计算谢谢 Example import pandas as pd import numpy a
数据类型映射参数中的键只能使用列名

我已经使用 dask read sql table 从 Oracle 数据库成功引入了一张表但是当我尝试引入另一个表时出现此错误KeyError 只有列名可以用作数据类型映射参数中的键我已经检查了我的连接字符串和架构所有这些都很好
如何加快大型 xlsx 文件的导入速度？

我想要处理一个 200MB 的大型 Excel xlsx 文件包含 15 个工作表和 100 万行每行 5 列并根据数据创建 pandas 数据框 Excel 文件的导入速度非常慢最多 10 分钟不幸的是 Excel 导入文件格式
dask 数据帧的 iloc 相当于什么？

我遇到一种情况我需要按位置索引 dask 数据帧我看到没有 iloc方法可用还有其他选择吗或者我是否需要使用基于标签的索引例如我想 import dask dataframe as dd import numpy as np i
将 lambda 函数应用于 dask 数据框

我正在寻找申请lambda如果列中的标签小于一定百分比则使用 dask 数据框的函数来更改列中的标签我使用的方法适用于 pandas 数据框但相同的代码不适用于 dask 数据框代码如下 df pd DataFrame A ant
在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

我们如何选择 nthreads and nprocsDask 中每个工人的分布情况我有 3 个工作线程 2 个工作线程有 4 个核心每个核心有一个线程 1 个工作线程有 8 个核心根据输出lscpu每个worker上的Linux命令

随机推荐

滑动ListView时item变大

我想在 android 中实现一个列表效果如 Ultravisi Iphone 应用程序中显示的效果类似的效果可以在 Android 中的 2015 年米兰世博会应用程序上查看我希望向下滑动 ListView 时顶部项目变大我不知道
可变引用上的自定义迭代器中的生命周期参数问题

我想实现一个如下所示的自定义迭代器但无法解决引用问题 use itertools Product use std ops Range struct Iter2DMut lt a T a gt data a mut T shape usiz
从另一个数组中过滤掉一个数组[重复]

这个问题在这里已经有答案了所以我有 2 个对象数组看起来像这样 this balanceCodes ID 1 StringValue dummy ID 2 StringValue data this allCodes ID 1 Stri
为什么 go.Scatter 打印额外的行，而 px.line 却没有？

这是我的 graph objects 代码 go Figure go Scatter x continent df date y continent df new cases smoothed 而我的情节表达代码是这样的 px line c
spring jdbc hikari 连接池 - 不断登录和注销数据库

我正在使用 spring boot data jpa 来连接到 Oracle 数据库 Spring使用HikariCP对于 JDBC 连接默认情况下创建大小为10的固定连接池问题是在 Oracle 数据库日志中它显示我的应用程序不断
将 inputRichText 绑定到 Bean

我试图将 xp inputRichText 绑定到 bean ChatBean 但是当代码尝试将字段更新到 bean 时出现此验证错误 java lang IllegalArgumentException argument type mis
ipyparallel 异常：“您已尝试连接到 IPython 集群，但找不到控制器”

我刚刚开始使用 ipyparallel 我正在使用 VS2017 并将其导入为 import ipyparallel as ipp 然后尝试使用以下命令启动它 def main rc ipp Client if name main main
从请求对象/表单集合获取数据时，对象引用未设置为对象的实例

我正在尝试使用 MVC Ajax 实现一个简单的添加操作我的代码如下 Public Class Model public int number1 get set public int number2 get set HttpPost pu
使用querySelectorAll更改多个元素的样式属性

我有以下函数触发时将使 DIV 变得半透明 function changeOpacity el var elem document getElementById el elem style transition opacity 0 5s
用于启动应用程序的Appium-Activity不存在或无法启动！确保它存在并且是可启动的活动

我正在尝试使用 appium 运行在 eclipse 上创建的测试文件当我在连接到系统的真实 Android 设备上执行测试时出现以下错误运行命令时遇到内部错误错误启动应用程序时发生错误原始错误用于启动应用程序的 Activi
从文档中检索单个属性

今天是个好日子假设我们有一个集合和一个文档如下所示 test doc ID 123 a x y 2000 z 1000 x var y 3500 z
如何使用 Swift 调试 SceneKit 中的自定义几何体

我正在尝试学习如何在 SceneKit 中创建自定义几何体但是我尝试制作一个三角形但它没有显示任何内容我不知道如何调试这个有没有办法判断三角形是否有效我只是不知道从哪里开始作为参考相关的游乐场代码如下请注意它是针对 Sw
代码中的 WCF 跟踪不遵循 MessageLogging 设置

我需要在我的应用程序中使用 WCF 跟踪但需要尽可能通过代码进行控制建议我在 app config 文件中安装以下部分
无法从 Angular ui-view 内部访问 JavaScript

我有一个带有 Angular ui 视图的主模板 index html 在这个主模板中我导入了一堆 Javascript 文件我希望这些文件可用于将在 ui view 中加载的 html 模板内的内容但 JS 函数似乎无法访问 sam
React.Component 和 Component 之间有什么区别？

我见过两种访问方式Component import React from react class Foo extends React Component and import React Component from react class
在页面加载时动画滚动到 ID

我正在尝试在页面加载时将滚动动画设置为特定 ID 我做了很多研究并发现了这一点 html body animate scrollTop title1 height 1000 但这似乎是从ID开始并动画到页面顶部 HTML 位于页面的中间很
JDialog 允许用户仅更改对话框的宽度

有谁知道是否可以限制用户调整 JDialog 大小的方式我知道我可以调用方法 setResizible boolean 并禁用或允许用户调整 JDialog 的大小但是有没有办法限制用户更改窗口的高度但允许他更改宽度如果我创建的对话框
如何正确实现从 iOS 应用程序到 watchOS2 并发症的设置传输

我想要实现的目标如下并发症以 30 为间隔在后台更新分钟每当手表应用程序运行时并发症都会更新并且接收自己的更新数据并发症随时更新 iOS 应用程序运行并且用户更改了影响的设置观察数据例如天气观测位置的变化或显示单位第
Nodejs AWS SDK S3 生成预签名 URL

我正在使用 NodeJS AWS SDK 生成预签名的 S3 URL 该文档给出了生成预签名 URL 的示例这是我的确切代码省略了敏感信息 const AWS require aws sdk const s3 new AWS S3 AW
使用变量设置 Dask Worker

我想在工作人员加载时分发一个更大的对象或从磁盘加载并将其放入全局变量例如calib data 这对 Dask 工作人员有用吗好像是客户端方法注册工人回调在这种情况下可以做你想做的事你仍然需要某处放置你的变量因为在 python

使用变量设置 Dask Worker

使用变量设置 Dask Worker 的相关文章

随机推荐

热门标签