Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在分布式 dask 中,我们如何为每个工作人员选择 --nthreads 和 --nprocs ?
我们如何选择 nthreads and nprocsDask 中每个工人的分布情况 我有 3 个工作线程 2 个工作线程有 4 个核心 每个核心有一个线程 1 个工作线程有 8 个核心 根据输出lscpu每个worker上的Linux命令
distributedcomputing
Dask
daskdistributed
本地 Dask 工作线程无法连接到本地调度程序
在 OSX 10 12 6 上运行 Dask 0 16 0 时 我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b
Dask
daskdistributed
dask 中不支持项目分配的解决方法
我正在尝试将我的代码库从 numpy 数组转换为 dask 因为我的 numpy 数组超出了Memory Error限制 但是 我发现可变数组的功能尚未实现dask arrays所以我得到了 NotImplementedError Item
python
python3x
Dask
daskdistributed
Dask 数据帧并行任务
我想从数据帧创建功能 附加列 并且我有以下许多功能的结构 遵循本文档https docs dask org en stable delayed best practices html https docs dask org en stabl
Dask
daskdistributed
daskdataframe
daskdelayed
集群上运行的 Dask 程序出现文件未找到错误
我有 4 台机器 M1 M2 M3 和 M4 调度程序 客户端 工作线程都在 M1 上运行 我已将 csv 文件放入 M1 中 其余的机器都是工人 当我在 dask 中使用 read csv 文件运行程序时 它给我错误 找不到文件 当您的一
Dask
daskdistributed
daskdelayed
在 dask 中生成批量图像
我刚开始dask因为它提供了强大的并行处理能力 我身边有40000我磁盘上的图像 我将使用它来使用一些 DL 库构建分类器 例如Keras or TF 我在 pandas 数据框中收集了这个元信息 图像路径和相应的标签 如下所示 img p
python
python3x
Dask
daskdistributed
daskdelayed
带有大文件的 Amazon s3 上的 dask read_csv 超时
s3 上的 dask read csv 大文件超时 s3fs S3FileSystem read timeout 5184000 one day s3fs S3FileSystem connect timeout 5184000 one d
python
amazonwebservices
amazons3
Dask
daskdistributed
Dask:Dataframe groupBy 上的独特方法
我想知道在使用 Dask 进行 groupBy 聚合后是否可以获取给定列中唯一项目的数量 我在文档中没有看到类似的内容 它可以在 pandas dataframe 上使用并且非常有用 我已经看到一些与此相关的问题 但我不确定它是否已实施 有
python
Dask
daskdistributed
dask dataframe groupby 导致一个分区内存问题
我正在将 64 个压缩的 csv 文件 可能是 70 80 GB 读入一个 dask 数据帧 然后使用聚合运行 groupby 这项工作从未完成 因为显然 groupby 创建了一个只有一个分区的数据框 这个帖子 https stackov
groupby
Dask
daskdistributed
Dask:定期更新已发布的数据集并从其他客户端提取数据
我想将数据附加到published dask dataset来自队列 如 redis 然后其他 python 程序将能够获取最新数据 例如每秒 分钟一次 并执行一些进一步的操作 这可能吗 应该使用哪个附加接口 我应该将它加载到pd Data
Dask
daskdistributed
daskdataframe
如何正确使用dask的upload_file()将本地代码传递给worker
我有一个函数local code py我想通过 dask 传递给工作人员的文件 我在这里看到了问题的答案 说这可以使用upload file 功能 但我似乎无法让它工作 因为我仍然得到ModuleNotFoundError 相关部分代码如下
python
Dask
daskdistributed
演员和幕后工作者
client Client 127 0 0 1 8786 direct to workers True future1 client submit Counter workers ninja actor True counter1 futu
Dask
daskdistributed
dask 持久行为不一致
如果我注释掉这一行 我发现 dask 的奇怪行为仍然存在 client Client memory limit 20GB n workers 1 Connect to distributed cluster and override def
python
python3x
Dask
daskdistributed
在 Dask 中排序
我想找到替代方案pandas dataframe sort value在 dask 中运行 我走过来了设置索引 但它会按单个列排序 如何对 Dask 数据框的多列进行排序 目前为止Dask似乎还不支持多列排序 但是 创建一个新列来连接已排序
Sorting
Dask
daskdistributed
daskdelayed