Dask

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample

python Dask

dask groupby 不合并分区

我有一组数据我想要对其进行一些简单的 groupby count 操作但我似乎无法使用 dask 来完成此操作我很可能不理解 dask 中执行 groupby reduce 的方式特别是当索引位于分组键中时所以我将用玩具数据来说明

python pandas Dask

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

我们如何选择 nthreads and nprocsDask 中每个工人的分布情况我有 3 个工作线程 2 个工作线程有 4 个核心每个核心有一个线程 1 个工作线程有 8 个核心根据输出lscpu每个worker上的Linux命令

distributedcomputing Dask daskdistributed

使用 Dask 处理大型压缩 csv 文件

设置是我有八个大的 csv 文件每个 32GB 每个文件都用 Zip 压缩为 8GB 文件我无法使用未压缩的数据因为我想节省磁盘空间但没有剩余 32 8GB 空间我无法加载一个文件例如pandas因为它不适合内存我认为 Das

python csv Compression Dask

Python Dask - 2 个 DataFrame 的垂直串联

我正在尝试垂直连接两个 Dask DataFrame 我有以下 Dask DataFrame d A B C D E F 1 4 8 1 3 5 6 6 2 2 0 0 9 4 5 0 6 35 0 1 7 10 9 4 0 7 2 6 1

python27 DataFrame concatenation Dask

将 lambda 函数应用于 dask 数据框

我正在寻找申请lambda如果列中的标签小于一定百分比则使用 dask 数据框的函数来更改列中的标签我使用的方法适用于 pandas 数据框但相同的代码不适用于 dask 数据框代码如下 df pd DataFrame A ant

python DataFrame Dask

Dask“没有名为 xxxx 的模块”错误

使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数在工人中我有以下错误没有名为 worker 的模块但是我无法弄清楚我在这里做错了什么这是我的代码示例 import worker def run self

python Dask

npartitions 在 Dask 数据框中的作用是什么？

我看到参数了npartitions有很多功能但我不明白它有什么用有什么用 http dask pydata org en latest dataframe api html dask dataframe read csv http da

python DataFrame Dask

dask 可以用于在核心之外进行分组和重新编码吗？

我有 8GB csv 文件和 8GB RAM 每个文件每行有两个字符串格式如下 a c c a f g a c c a b f c a 对于较小的文件我删除重复项计算前两列中每行的副本数然后将字符串重新编码为整数如下 https s

python pandas Dask

python dask DataFrame，支持（可并行化）行应用吗？

我最近发现dask http dask pydata org en latest index html旨在成为一个易于使用的 python 并行处理模块对我来说最大的卖点是它可以与熊猫一起使用在阅读了其手册页后我找不到一种方法来完成这

python pandas parallelprocessing Dask

dask 数据帧的 iloc 相当于什么？

我遇到一种情况我需要按位置索引 dask 数据帧我看到没有 iloc方法可用还有其他选择吗或者我是否需要使用基于标签的索引例如我想 import dask dataframe as dd import numpy as np i

python Dask

本地 Dask 工作线程无法连接到本地调度程序

在 OSX 10 12 6 上运行 Dask 0 16 0 时我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b

Dask daskdistributed

使用xarray，如何在多维数据集上并行化一维操作？

我有一个 4D xarray 数据集我想在特定维度此处为时间上的两个变量之间进行线性回归并将回归参数保留在 3D 数组中其余维度我设法通过使用此串行代码获得了我想要的结果但速度相当慢 add empty arrays to s

python Dask pythonxarray

dask 中不支持项目分配的解决方法

我正在尝试将我的代码库从 numpy 数组转换为 dask 因为我的 numpy 数组超出了Memory Error限制但是我发现可变数组的功能尚未实现dask arrays所以我得到了 NotImplementedError Item

python python3x Dask daskdistributed

dask 数据帧 head() 返回空 df

我有一个 dask 数据框其中一列上有索引问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目因此如果我执行 df re

python Dask

使用非唯一索引列日期提取 Dask 数据框中的最新值

我对 pandas 数据帧非常熟悉但对 Dask 还很陌生所以我仍在尝试并行化我的代码我已经使用 pandas 和 pandarallel 获得了我想要的结果所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度假设

python pandas Dask

python 或 dask 并行生成器？

是否有可能在Python中也许使用dask 也许使用多重处理将生成器放置在核心上然后并行地单步执行生成器并处理结果它需要特别是生成器或带有 iter 生成器生成的所有生成元素的列表不适合内存尤其有了熊猫我可以打电话rea

python pandas pythonmultiprocessing Dask

Dask 的默认 pip 安装给出“ImportError：没有名为 toolz 的模块”

我安装了Dask https github com dask dask像这样使用点 pip install dask 当我尝试做时import dask dataframe as dd我收到以下错误消息 gt gt gt import da

python installation pip ImportError Dask

Dask 分布式。如何在正在计算的函数中获取任务密钥ID？

我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job

python27 Distributed distributedcomputing Dask

如何在单线程中运行 dask.distributed 集群？

如何在单个线程中运行完整的 Dask distributed 集群我想用它来调试或分析注意这是一个常见问题我将这里的问题和答案添加到 Stack Overflow 中仅供将来重用本地调度程序如果您可以使用单机调度程序的 API

python Dask