本地 Dask 工作线程无法连接到本地调度程序

2024-04-01

在 OSX 10.12.6 上运行 Dask 0.16.0 时,我无法连接本地dask-worker给当地人dask-scheduler。我只是想关注官方达斯克教程 https://github.com/dask/dask-tutorial/blob/master/04_distributed.ipynb。重现步骤:

Step 1: run dask-scheduler

Step 2: Run dask-worker 10.160.39.103:8786

该问题似乎与 dask 调度程序有关,而不是与工作人员有关,因为我什至无法通过其他方式访问该端口(例如,nc -zv 10.160.39.103 8786).

然而,该进程显然仍在机器上运行:


我的第一个猜测是,由于网络规则,您的计算机可能不接受看起来来自外部世界的网络连接。您可能想尝试使用dask-worker localhost:8786看看是否有效。

另外,提醒一下,您始终可以直接从 Python 启动调度程序和工作线程,而无需创建 dask-scheduler 和 dask-worker 进程

from dask.distributed import Client
# client = Client('scheduler-address:8786')
client = Client()  # create scheduler and worker automatically

作为一种万无一失的方法,您还可以通过processes=False这将完全避免网络问题

client = Client(processes=False)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

本地 Dask 工作线程无法连接到本地调度程序 的相关文章

  • Dask 数据帧连接并重新分区大文件以实现时间序列和关联

    我有 11 年的数据 每秒一条记录 行 大约超过 100 列 它用一系列日期时间进行索引 用 Pandas 创建to datetime 我们需要能够在列之间进行一些相关性分析 这样一次只能加载 2 列 我们可能会在长达 11 年的时间内以较
  • 如何使用 Dask.array 高效地将大型 numpy 数组发送到集群

    我的本地计算机上有一个大型 NumPy 数组 我想将其与集群上的 Dask array 并行化 import numpy as np x np random random 1000 1000 1000 然而 当我使用 dask array
  • 如何将压缩的 (gz) CSV 文件读入 dask Dataframe 中?

    有没有办法读取通过 gz 压缩到 dask 数据帧中的 csv 文件 我直接尝试过 import dask dataframe as dd df dd read csv Data gz 但出现 unicode 错误 可能是因为它正在解释压缩
  • 在“from_delayed”JSON 文件中发现 DASK 元数据不匹配

    我刚刚开始我的冒险DASK我正在学习 json 格式的示例数据集 我知道对于初学者来说这不是世界上最简单的数据格式 我有一个数据集json格式 我通过加载数据dd read json到数据框 一切顺利 问题发生在 例如 compute or
  • Dask 中的遮罩

    我只是想知道是否有人可以帮助我展示如何使用 dask 在掩码数组上应用 sum 或 mean 等函数 我希望仅计算没有掩码的值的数组的总和 平均值 Code import dask array as da import numpy as n
  • 如何加快Python中的嵌套交叉验证?

    据我发现 还有另外 1 个这样的问题 加速嵌套交叉验证 https stackoverflow com questions 49629112 speed up nested cross validation 但是 在尝试了该网站和微软上建议
  • 带有大文件的 Amazon s3 上的 dask read_csv 超时

    s3 上的 dask read csv 大文件超时 s3fs S3FileSystem read timeout 5184000 one day s3fs S3FileSystem connect timeout 5184000 one d
  • dask 和 pandas 数据帧中 apply 的不兼容性

    的一个样本triggers我的专栏Dask数据框看起来像下面这样 0 Total Traffic DNS UDP 1 TCP RST 2 Total Traffic 3 IP Private 4 ICMP Name triggers dty
  • 在python中读取15M行csv文件的有效方法

    对于我的应用程序 我需要读取多个文件 每个文件有 15 M 行 将它们存储在 DataFrame 中 并将 DataFrame 保存为 HDFS5 格式 我已经尝试过不同的方法 特别是具有 chunksize 和 dtype 规范的 pan
  • 如何在 dask/distributed 中存储工作线程局部变量

    使用dask 0 15 0 分布式1 17 1 我想记住每个工作人员的一些事情 比如访问谷歌云存储的客户端 因为实例化它是昂贵的 我宁愿将其存储在某种工作者属性中 执行此操作的规范方法是什么 或者全局变量是正确的选择吗 关于工人 您可以通过
  • 使用 dask 加载大型压缩数据集

    我正在尝试将一个大型压缩数据集加载到 python 中 其结构如下 year zip year month 很多 csv 文件 到目前为止 我已经使用 ZipFile 库迭代每个 CSV 文件并使用 pandas 加载它们 zf ZipFi
  • 如何从 url 列表创建 Dask DataFrame?

    我有一个 URL 列表 我很想将它们读取到 dask 数据框中 立刻 但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗 这是一个例子 link http web mta info developers data d
  • 数据类型映射参数中的键只能使用列名

    我已经使用 dask read sql table 从 Oracle 数据库成功引入了一张表 但是 当我尝试引入另一个表时 出现此错误KeyError 只有列名可以用作数据类型映射参数中的键 我已经检查了我的连接字符串和架构 所有这些都很好
  • 如何在单线程中运行 dask.distributed 集群?

    如何在单个线程中运行完整的 Dask distributed 集群 我想用它来调试或分析 注意 这是一个常见问题 我将这里的问题和答案添加到 Stack Overflow 中 仅供将来重用 本地调度程序 如果您可以使用单机调度程序的 API
  • 使用非唯一索引列日期提取 Dask 数据框中的最新值

    我对 pandas 数据帧非常熟悉 但对 Dask 还很陌生 所以我仍在尝试并行化我的代码 我已经使用 pandas 和 pandarallel 获得了我想要的结果 所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度 假设
  • dask 数据帧的 iloc 相当于什么?

    我遇到一种情况 我需要按位置索引 dask 数据帧 我看到没有 iloc方法可用 还有其他选择吗 或者我是否需要使用基于标签的索引 例如 我想 import dask dataframe as dd import numpy as np i
  • npartitions 在 Dask 数据框中的作用是什么?

    我看到参数了npartitions有很多功能 但我不明白它有什么用 有什么用 http dask pydata org en latest dataframe api html dask dataframe read csv http da
  • 将 lambda 函数应用于 dask 数据框

    我正在寻找申请lambda如果列中的标签小于一定百分比 则使用 dask 数据框的函数来更改列中的标签 我使用的方法适用于 pandas 数据框 但相同的代码不适用于 dask 数据框 代码如下 df pd DataFrame A ant
  • 使用 Dask 处理大型压缩 csv 文件

    设置是我有八个大的 csv 文件 每个 32GB 每个文件都用 Zip 压缩为 8GB 文件 我无法使用未压缩的数据 因为我想节省磁盘空间 但没有剩余 32 8GB 空间 我无法加载一个文件 例如pandas因为它不适合内存 我认为 Das
  • Pandas hub_table 更快的替代品

    我正在使用熊猫pivot table在大型数据集 1000 万行 6 列 上运行 由于执行时间至关重要 因此我尝试加快流程 目前 处理整个数据集大约需要 8 秒 这太慢了 我希望找到替代方案来提高速度 性能 我当前的 Pandas 数据透视

随机推荐

  • Java 将枚举编译成什么?

    我和一位同事讨论了 Java 如何表示枚举 我的印象是它们是严格的整数 就像 C C 一样 或者 如果您添加行为 类型安全枚举 它将被包装在一个类中 他相信如果它足够小 Java 会将其压缩为一个字节 不过 我在 Oracle 网站上发现了
  • 组织依赖项目的最佳方式?

    我有一组依赖于其他项目 你可以说实用程序 的项目 问题是每次我更改这些实用程序中任何一个的代码时 我的同事都需要采用最新的代码并在他们的计算机上构建以使用最新的代码组件 有没有好的标准溶液 或者只是将 dll 集中在共享文件夹中 P S 我
  • 谷歌地图 API 点标记

    目前我使用 StyledMarker 图标 带有自定义颜色的默认气泡图标 但我发现有些网站使用更紧凑的 点 点标记的图片 http 3 bp blogspot com kgIKcUsffkA TspZ9QrlraI AAAAAAAAAZc
  • com.google.gson.JsonPrimitive 无法转换为 com.google.gson.JsonObject

    我有一个来自 PHP 的 json 列表 Json test 1 message try it test 2 message try it test 3 message try it final error gt 1 json gt jso
  • 为什么路由不能与 ElasticSearch Bulk API 一起使用?

    我正在向 ElasticSearch 设置批量请求并指定要路由到的分片 但是当我运行它时 文档会被发送到不同的分片 这是 ElasticSearch 批量中的错误吗 当我只索引单个文档时它就有效 当我搜索时它有效 但当我进行批量导入时则不然
  • 如何在混合移动应用程序中实施 Google Analytics?

    我正在使用 HTML5 CSS 和 jQuery Mobile 编写一个混合移动应用程序 我将使用 Cordova Js 将 HTML5 应用程序转换为适用于 iOS 和 Android 的本机移动应用程序 我想使用 Google Anal
  • vim 有 C++11 语法文件吗?

    特别是初始化列表的显示非常糟糕 vector
  • 为什么 vue v-model 不适用于数组 prop?

    我有一个自定义组件 它采用modelValue道具并发出update modelValue事件 在父组件中 我传递一个数组 测试组件 vue
  • Azure 服务总线“发送”抛出由于对象的当前状态而导致操作无效

    我不确定发生了什么变化 但突然我得到一个 InvalidOperationException 由于对象的当前状态 操作无效 我的代码以前确实有效 但我不记得更改过任何内容 我正在使用 Microsoft Azure ServiceBus 4
  • 创建 d3.js SVG 文本元素后获取其宽度

    我正在尝试获取一堆的宽度text我用 d3 js 创建的元素 这就是我创建它们的方式 var nodesText svg selectAll text data dataset enter append text text function
  • 如何在会话中运行多个图 - Tensorflow API

    张量流API https github com tensorflow models tree master research object detection提供了一些预先训练的模型 并允许我们使用任何数据集来训练它们 我想知道如何在一个张
  • 在 Pydroid 3 终端中安装 Git

    我正在使用 Pydroid3 并且想在 Pydroid 终端中使用 Git 在我的 Termux 终端中 我能够按照此处所述安装 Git git 命令现在只能在 Termux 终端中识别 但不能在 Pydroid 中识别 无法在 Pydro
  • Keras/Tensorflow 中涉及梯度的自定义损失函数

    我发现这个问题之前已经被问过几次了 但没有任何解决方案 我的问题很简单 我想实现一个损失函数 它计算预测梯度和真值之间的 MSE 最终转向更复杂的损失函数 我定义了以下两个函数 def my loss y true y pred x dyd
  • 自定义警报对话框边框

    我正在创建一个自定义对话框 其示例代码为 final AlertDialog dialog protected AlertDialog createDialog int dialogId AlertDialog Builder builde
  • 如何设计深度卷积神经网络? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 据我了解 所有 CNN 都非常相似 它们都有一个卷积层 后面是池化层和 relu 层 有些具有专门的层 例如 FlowNet 和 Segn
  • Iphone 迭代 NSString 的子字符串出现次数

    我想找到 NSString 中所有出现的子字符串 并逐一迭代以对该 NSString 进行一些更改 我该怎么做呢 怎么样 find first occurrence of search string in source string NSR
  • Angular2 模块级样式表

    我正在使用模块化结构设计我的网站sass questions tagged sass我愿意以这样的方式组织样式表 在每个模块级别 而不是组件级别 定义样式表 然后将其导入所有组件中以保持整个模块的标准布局 那么这是一个好方法吗 如果是的话
  • 如何使用 distutils 和/或 setuptools 在 mac os x 上创建 .dylib C 扩展?

    我需要使用 distutils 和 或 setuptools 创建一个 C 扩展 它可以在运行时和编译时动态使用 用于不同的目的 这在 Linux 上不是问题 但在 OS X 上却是问题 默认情况下 distutils 在 OS X 上创建
  • mongodb 字段以 $ 开头的奇怪行为

    在这个帖子上MongoDB 查找嵌套元素 https stackoverflow com questions 8983482 mongodb finding nested elements 作者声称 mongodb 文档结构是 car re
  • 本地 Dask 工作线程无法连接到本地调度程序

    在 OSX 10 12 6 上运行 Dask 0 16 0 时 我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b