Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误 当“replace=False”时,无法获取比总体更大的样本
我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample
python
Dask
dask groupby 不合并分区
我有一组数据 我想要对其进行一些简单的 groupby count 操作 但我似乎无法使用 dask 来完成此操作 我很可能不理解 dask 中执行 groupby reduce 的方式 特别是当索引位于分组键中时 所以我将用玩具数据来说明
python
pandas
Dask
在分布式 dask 中,我们如何为每个工作人员选择 --nthreads 和 --nprocs ?
我们如何选择 nthreads and nprocsDask 中每个工人的分布情况 我有 3 个工作线程 2 个工作线程有 4 个核心 每个核心有一个线程 1 个工作线程有 8 个核心 根据输出lscpu每个worker上的Linux命令
distributedcomputing
Dask
daskdistributed
使用 Dask 处理大型压缩 csv 文件
设置是我有八个大的 csv 文件 每个 32GB 每个文件都用 Zip 压缩为 8GB 文件 我无法使用未压缩的数据 因为我想节省磁盘空间 但没有剩余 32 8GB 空间 我无法加载一个文件 例如pandas因为它不适合内存 我认为 Das
python
csv
Compression
Dask
Python Dask - 2 个 DataFrame 的垂直串联
我正在尝试垂直连接两个 Dask DataFrame 我有以下 Dask DataFrame d A B C D E F 1 4 8 1 3 5 6 6 2 2 0 0 9 4 5 0 6 35 0 1 7 10 9 4 0 7 2 6 1
python27
DataFrame
concatenation
Dask
将 lambda 函数应用于 dask 数据框
我正在寻找申请lambda如果列中的标签小于一定百分比 则使用 dask 数据框的函数来更改列中的标签 我使用的方法适用于 pandas 数据框 但相同的代码不适用于 dask 数据框 代码如下 df pd DataFrame A ant
python
DataFrame
Dask
Dask“没有名为 xxxx 的模块”错误
使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数 在工人中我有以下错误 没有名为 worker 的模块 但是我无法弄清楚我在这里做错了什么 这是我的代码示例 import worker def run self
python
Dask
npartitions 在 Dask 数据框中的作用是什么?
我看到参数了npartitions有很多功能 但我不明白它有什么用 有什么用 http dask pydata org en latest dataframe api html dask dataframe read csv http da
python
DataFrame
Dask
dask 可以用于在核心之外进行分组和重新编码吗?
我有 8GB csv 文件和 8GB RAM 每个文件每行有两个字符串 格式如下 a c c a f g a c c a b f c a 对于较小的文件 我删除重复项 计算前两列中每行的副本数 然后将字符串重新编码为整数如下 https s
python
pandas
Dask
python dask DataFrame,支持(可并行化)行应用吗?
我最近发现dask http dask pydata org en latest index html旨在成为一个易于使用的 python 并行处理模块 对我来说最大的卖点是它可以与熊猫一起使用 在阅读了其手册页后 我找不到一种方法来完成这
python
pandas
parallelprocessing
Dask
dask 数据帧的 iloc 相当于什么?
我遇到一种情况 我需要按位置索引 dask 数据帧 我看到没有 iloc方法可用 还有其他选择吗 或者我是否需要使用基于标签的索引 例如 我想 import dask dataframe as dd import numpy as np i
python
Dask
本地 Dask 工作线程无法连接到本地调度程序
在 OSX 10 12 6 上运行 Dask 0 16 0 时 我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b
Dask
daskdistributed
使用xarray,如何在多维数据集上并行化一维操作?
我有一个 4D xarray 数据集 我想在特定维度 此处为时间 上的两个变量之间进行线性回归 并将回归参数保留在 3D 数组中 其余维度 我设法通过使用此串行代码获得了我想要的结果 但速度相当慢 add empty arrays to s
python
Dask
pythonxarray
dask 中不支持项目分配的解决方法
我正在尝试将我的代码库从 numpy 数组转换为 dask 因为我的 numpy 数组超出了Memory Error限制 但是 我发现可变数组的功能尚未实现dask arrays所以我得到了 NotImplementedError Item
python
python3x
Dask
daskdistributed
dask 数据帧 head() 返回空 df
我有一个 dask 数据框 其中一列上有索引 问题是如果我执行 df head 它总是返回一个空的 df 而 df tail 总是返回正确的 df 我检查过 df head 总是检查第一个分区中的前 n 个条目 因此 如果我执行 df re
python
Dask
使用非唯一索引列日期提取 Dask 数据框中的最新值
我对 pandas 数据帧非常熟悉 但对 Dask 还很陌生 所以我仍在尝试并行化我的代码 我已经使用 pandas 和 pandarallel 获得了我想要的结果 所以我想知道是否可以使用 Dask 扩大任务规模或以某种方式加快速度 假设
python
pandas
Dask
python 或 dask 并行生成器?
是否有可能在Python中 也许使用dask 也许使用多重处理 将生成器 放置 在核心上 然后并行地单步执行生成器并处理结果 它需要特别是生成器 或带有 iter 生成器生成的所有生成元素的列表不适合内存 尤其 有了熊猫 我可以打电话rea
python
pandas
pythonmultiprocessing
Dask
Dask 的默认 pip 安装给出“ImportError:没有名为 toolz 的模块”
我安装了Dask https github com dask dask像这样使用点 pip install dask 当我尝试做时import dask dataframe as dd我收到以下错误消息 gt gt gt import da
python
installation
pip
ImportError
Dask
Dask 分布式。如何在正在计算的函数中获取任务密钥ID?
我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件 用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job
python27
Distributed
distributedcomputing
Dask
如何在单线程中运行 dask.distributed 集群?
如何在单个线程中运行完整的 Dask distributed 集群 我想用它来调试或分析 注意 这是一个常见问题 我将这里的问题和答案添加到 Stack Overflow 中 仅供将来重用 本地调度程序 如果您可以使用单机调度程序的 API
python
Dask
1
2
3
4
5
6
»