Dask

并行 dask for 循环比常规循环慢？

如果我尝试使用 dask 并行化 for 循环它最终会比常规版本执行得慢基本上我只是按照 dask 教程中的介绍性示例进行操作但由于某种原因它在我这边失败了我究竟做错了什么 In 1 import numpy as np from

python NumPy parallelprocessing Dask

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y

python Future Dask iterableunpacking concurrentfutures

如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x

python Indexing Dask

Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视

python pandas performance NumPy Dask

将字符串转换为字典，然后访问键：值？？？如何访问 Python 中的数据？

我在访问字典内的数据时遇到问题系统 Macbook 2012Python Python 3 5 1 Continuum Analytics Inc 我正在与一个dask dataframe http dask pydata org en

python pandas Dictionary datamanipulation Dask

dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row

python Dask

dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column

python pandas Dask

如何查找分布式dask中任务失败的原因？

我正在开发一个分布式计算系统dask distributed 我通过以下方式提交给它的任务Executor map功能有时会失败而其他看起来相同的功能却可以成功运行该框架是否提供了诊断问题的方法 update我所说的失败是指增加 Bok

python Distributed Dask

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample

python Dask

dask groupby 不合并分区

我有一组数据我想要对其进行一些简单的 groupby count 操作但我似乎无法使用 dask 来完成此操作我很可能不理解 dask 中执行 groupby reduce 的方式特别是当索引位于分组键中时所以我将用玩具数据来说明

python pandas Dask

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

我们如何选择 nthreads and nprocsDask 中每个工人的分布情况我有 3 个工作线程 2 个工作线程有 4 个核心每个核心有一个线程 1 个工作线程有 8 个核心根据输出lscpu每个worker上的Linux命令

distributedcomputing Dask daskdistributed

使用 Dask 处理大型压缩 csv 文件

设置是我有八个大的 csv 文件每个 32GB 每个文件都用 Zip 压缩为 8GB 文件我无法使用未压缩的数据因为我想节省磁盘空间但没有剩余 32 8GB 空间我无法加载一个文件例如pandas因为它不适合内存我认为 Das

python csv Compression Dask

Python Dask - 2 个 DataFrame 的垂直串联

我正在尝试垂直连接两个 Dask DataFrame 我有以下 Dask DataFrame d A B C D E F 1 4 8 1 3 5 6 6 2 2 0 0 9 4 5 0 6 35 0 1 7 10 9 4 0 7 2 6 1

python27 DataFrame concatenation Dask

将 lambda 函数应用于 dask 数据框

我正在寻找申请lambda如果列中的标签小于一定百分比则使用 dask 数据框的函数来更改列中的标签我使用的方法适用于 pandas 数据框但相同的代码不适用于 dask 数据框代码如下 df pd DataFrame A ant

python DataFrame Dask

Dask“没有名为 xxxx 的模块”错误

使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数在工人中我有以下错误没有名为 worker 的模块但是我无法弄清楚我在这里做错了什么这是我的代码示例 import worker def run self

python Dask

npartitions 在 Dask 数据框中的作用是什么？

我看到参数了npartitions有很多功能但我不明白它有什么用有什么用 http dask pydata org en latest dataframe api html dask dataframe read csv http da

python DataFrame Dask

dask 可以用于在核心之外进行分组和重新编码吗？

我有 8GB csv 文件和 8GB RAM 每个文件每行有两个字符串格式如下 a c c a f g a c c a b f c a 对于较小的文件我删除重复项计算前两列中每行的副本数然后将字符串重新编码为整数如下 https s

python pandas Dask

python dask DataFrame，支持（可并行化）行应用吗？

我最近发现dask http dask pydata org en latest index html旨在成为一个易于使用的 python 并行处理模块对我来说最大的卖点是它可以与熊猫一起使用在阅读了其手册页后我找不到一种方法来完成这

python pandas parallelprocessing Dask

dask 数据帧的 iloc 相当于什么？

我遇到一种情况我需要按位置索引 dask 数据帧我看到没有 iloc方法可用还有其他选择吗或者我是否需要使用基于标签的索引例如我想 import dask dataframe as dd import numpy as np i

python Dask

本地 Dask 工作线程无法连接到本地调度程序

在 OSX 10 12 6 上运行 Dask 0 16 0 时我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b

Dask daskdistributed