在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

2024-04-24

我们如何选择--nthreads and --nprocsDask 中每个工人的分布情况？我有 3 个工作线程，2 个工作线程有 4 个核心，每个核心有一个线程，1 个工作线程有 8 个核心（根据输出lscpu每个worker上的Linux命令）。

这取决于你的工作量

默认情况下，Dask 创建一个进程，其中的线程数与计算机上的逻辑核心数相同（由下式确定）multiprocessing.cpu_count()).

dask-worker ... --nprocs 1 --nthreads 8  # assuming you have eight cores
dask-worker ...                          # this is actually the default setting

如果您主要做的事情是，使用少量进程和每个进程使用许多线程是很好的numeric工作负载，例如 Numpy、Pandas 和 Scikit-Learn 代码中常见的工作负载，不受 Python 全局解释器锁 (GIL) 的影响。

但是，如果您将大部分计算时间都花在操作纯 Python 对象（例如字符串或字典）上，那么您可能希望通过使用更多的进程（每个进程的线程数更少）来避免 GIL 问题

dask-worker ... --nprocs 8 --nthreads 1

根据基准测试，您可能会发现更平衡的分割更好

dask-worker ... --nprocs 4 --nthreads 2

使用更多进程可以避免 GIL 问题，但会因进程间通信而增加成本。如果您的计算需要大量的工作人员间通信，您会希望避免许多进程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？的相关文章

带有大文件的 Amazon s3 上的 dask read_csv 超时

s3 上的 dask read csv 大文件超时 s3fs S3FileSystem read timeout 5184000 one day s3fs S3FileSystem connect timeout 5184000 one d
Spark应用程序状态中的FAILED和ERROR有什么区别

我正在尝试创建已提交的 Spark 应用程序的状态图当应用程序被视为失败时我有点迷失了各州来自这里 https github com apache spark blob d6dc12ef0146ae409834c78737c11605
集群上运行的 Dask 程序出现文件未找到错误

我有 4 台机器 M1 M2 M3 和 M4 调度程序客户端工作线程都在 M1 上运行我已将 csv 文件放入 M1 中其余的机器都是工人当我在 dask 中使用 read csv 文件运行程序时它给我错误找不到文件当您的一
Spark Streaming：接收器故障后如何不重新启动接收器

我们正在使用自定义 Spark 接收器它从提供的 http 链接读取流数据如果提供的http链接不正确则接收失败问题是spark会不断重启接收器并且应用程序永远不会终止问题是如果接收器失败如何告诉 Spark 终止应用程序这
使用 pandas 从 Google Cloud Storage 读取 CSV 文件

我正在尝试将一堆 CSV 文件从 Google Cloud Storage 读取到 pandas 数据帧中如中所述将 csv 从 Google Cloud 存储读取到 pandas 数据框 https stackoverflow com
为 Spark 创建 JAR

我正在关注这个guide https spark apache org docs 1 2 0 quick start html 但是当我尝试使用以下命令创建 JAR 时我无法在 Spark 中运行 Scalasbt I have 简单 s
使用 dask 加载大型压缩数据集

我正在尝试将一个大型压缩数据集加载到 python 中其结构如下 year zip year month 很多 csv 文件到目前为止我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi
如何从 url 列表创建 Dask DataFrame？

我有一个 URL 列表我很想将它们读取到 dask 数据框中立刻但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗这是一个例子 link http web mta info developers data d
使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个
为什么 CAP 定理中 RDBMS 不能容忍分区，但为什么它可用？

关于 RDBMS 是 CAP 定理中的 CA 我不明白的两点 1 它说RDBMS是not 分区容忍但 RDBMS 怎么样 any less比 MongoDB 或 Cassandra 等其他技术更具有分区容错性是否有一种 RDBMS 设置可
重塑 dask 数组（从 dask 数据框列获得）

我是 dask 新手正在尝试弄清楚如何重塑从 dask 数据帧的单列获得的 dask 数组但遇到了错误想知道是否有人知道修复方法无需强制计算谢谢 Example import pandas as pd import numpy a
为什么 Hadoop 不使用 MPI 来实现？

如果我错了请纠正我但我的理解是 Hadoop 不使用 MPI 进行不同节点之间的通信造成这种情况的技术原因是什么我可以冒险进行一些猜测但我对 MPI 是如何在幕后实现的了解不够无法知道我是否正确想想看我对 Hadoop
在 Spark 中将简单的一行字符串转换为 RDD

我有一条简单的线 line Hello world 我想将其转换为只有一个元素的 RDD 我努力了 sc parallelize line 但它得到 sc parallelize line collect H e l l o w o r l
使用非唯一索引列日期提取 Dask 数据框中的最新值

我对 pandas 数据帧非常熟悉但对 Dask 还很陌生所以我仍在尝试并行化我的代码我已经使用 pandas 和 pandarallel 获得了我想要的结果所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度假设
使用xarray，如何在多维数据集上并行化一维操作？

我有一个 4D xarray 数据集我想在特定维度此处为时间上的两个变量之间进行线性回归并将回归参数保留在 3D 数组中其余维度我设法通过使用此串行代码获得了我想要的结果但速度相当慢 add empty arrays to s
dask 可以用于在核心之外进行分组和重新编码吗？

我有 8GB csv 文件和 8GB RAM 每个文件每行有两个字符串格式如下 a c c a f g a c c a b f c a 对于较小的文件我删除重复项计算前两列中每行的副本数然后将字符串重新编码为整数如下 https s
与共享数据相比，消息传递的性能损失

最近有很多关于不使用锁和使用 Erlang 等消息传递方法的讨论或者关于使用不可变的数据结构例如函数式编程与 C Java 中的比较但我关心的是以下几点 AFAIK Erlang 不保证消息传递消息可能会丢失如果还要担心消息丢失
使用 COMPS 构建 C/C++ 应用程序时出错：硬编码路径

我正在尝试构建一个使用 C C 绑定开发的 COMPASs 应用程序当我构建应用程序时出现以下错误您知道我该如何解决这个问题吗 xxxx xxx c increment gt buildapp increment BSC Barcel
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y

随机推荐

如何通过反射判断 C# 方法是否为 async/await？

e g class Foo public async Task Bar await Task Delay 500 如果我们反思这个类和方法我如何确定这是否是一个实际的 async await 方法而不仅仅是一个恰好返回任务的方法 cla
获得正确的图像旋转[重复]

这个问题在这里已经有答案了我有一个简单的问题当我将图像加载到 Windows 窗体时PictureBox有些图片是旋转的有些则不是基本上用户选择带有OpenFileDialog当选择图片时 private void OpenFD
使用 JPA 实体作为域模型是一个好习惯吗？

或者创建一个由域模型组成的域层并与 JPA 实体对话以进行数据库访问两种方法的优缺点是什么谢谢这确实取决于您对域进行编码的方式一般来说在 Java 中我更喜欢创建一组单独的 JPA 注释的 DTO 来处理持久性此类 DTO 将
尝试将应用程序二进制文件上传到 App Store Connect 时，Xcode 12 出现错误

在 Mac OS 10 15 7 的 Xcode 12 1 中当我尝试将应用程序二进制文件上传到 App Store Connect 时我得到 App Store Connect 操作错误请将 iTMSTransporter 更新为
Android 上的嵌套 Fragment 和 ViewPager 问题

我将 FragmentStatePagerAdapter 与视图分页器结合使用该视图分页器嵌套在 Android 上的片段中因此我将 ChildFragmentManager 与 FragmentStatePagerAdapter 结
引用 Attach() 中新定义的变量

我想对数据框的列进行许多修改然而由于需要大量的列和转换我想避免一遍又一遍地使用数据框名称在 SAS 数据步骤中您可以在一个数据步骤内创建一个变量并在定义后立即引用它 data A set A varA varB gt 1 varC
如何检测pyside2中Qwebengine内的按钮点击

我在 pyside2 中编写了一个应用程序它在 QWebEngine 中打开一个网页该网页有 2 个按钮我不明白如何检测 pyside2 应用程序模块中的按钮单击我需要对该按钮单击执行其他操作 Example 下面是我的代码 fro
main:Object 的未定义方法“run”

部署时我得到以下输出 cap aborted NoMethodError undefined method run for main Object config deploy rb 37 in block 2 levels in
我在使用 FileSystemWatcher [vb.net] 时遇到问题

这是我第一次使用 FileSystemWatcher 但它不起作用在受监视的路径中创建文件时不会触发它我的目标是监视程序文件目录中的更改我会将复制的文件与在线列表我下载的进行比较我还没有完成该部分如果找到匹配项它将做什么我究
Jackson自定义反序列化器仅获取列表xml中的最后一个值

我有以下 xml
SKMaps 显示黑色/蓝色背景

我正在使用 SKMaps 在 android 中实现路线导航为此我展示了一个使用 SKMap 的单独活动当我第一次展示该活动时地图会显示并且导航正在工作如果我从这个活动返回并再次启动这个导航活动那么它将显示一个带有黑色蓝色背景
在 C# 中使用鼠标单击在图片框上绘制线条

我正在尝试制作一个程序可以在图片框 http msdn microsoft com en us library system windows forms picturebox 28v vs 110 29 aspx使用鼠标单击要绘制线的起点
从输入跳到 CellTable 中的输入

我有一个 CellTable 其中包含一堆渲染到的单元格
迷你图渲染速度慢并且浏览器挂起

迷你图 http omnipotent net jquery sparkline 非常适合制作小型内联图但是如果它们所在的容器是隐藏的则不能简单地将它们绘制在幕后然后显示它们您必须首先显示容器然后调用 sparkline disp
从子域登录 Facebook（太多“有效 OAuth 重定向 URI”）

我遇到了以下问题我正在使用 Facebook js sdk 进行登录过程在应用程序设置中Site URL被设定为 http example com http example com 应用程序域 are example com www e
无法在 NestedScrollView 内完全滚动

不知何故我无法在 NestedScrollView 内完全滚动我的 NestedScrollView 内部是一个 TextView 其中有很多文本下面有一个按钮当我向下滚动时我只能看到按钮的顶部只有几个像素它滚动得不够远这是
在Kestrel中重写后获取原始URL

Apache 将根据重写的 URL 选择要提供服务的文件但原始 URL 将传递给脚本 Kestrel 将重写的 URL 传递到管道中可通过HttpContext Request Path 是否可以访问原网址来自中间件重写后遵循 Tse
.Net Core 2.0 - 获取 AAD 访问令牌以与 Microsoft Graph 一起使用

当使用 Azure AD 身份验证启动新的 Net Core 2 0 项目时您将获得一个可以登录租户的工作示例太棒了现在我想获取登录用户的访问令牌并使用它来使用 Microsoft Graph API 我没有找到任何有关如何实现这一目
在 odoo12 的表单视图中隐藏操作/更多按钮

我想在 odoo12 中仅隐藏操作更多按钮而不是打印按钮我发现一些类似的问题在 odoo12 中不起作用不是一个像样的答案而是你的一个方向源码中我的版本是11 odoo 11 0 addons web static src js
在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

我们如何选择 nthreads and nprocsDask 中每个工人的分布情况我有 3 个工作线程 2 个工作线程有 4 个核心每个核心有一个线程 1 个工作线程有 8 个核心根据输出lscpu每个worker上的Linux命令

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？ 的相关文章

随机推荐

热门标签

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？的相关文章