dask groupby 不合并分区

2024-04-28

我有一组数据，我想要对其进行一些简单的 groupby/count 操作，但我似乎无法使用 dask 来完成此操作。

我很可能不理解 dask 中执行 groupby/reduce 的方式，特别是当索引位于分组键中时。所以我将用玩具数据来说明我的问题。

首先我创建一个包含 3 列的数据框。

import pandas as pd
import numpy as np

np.random.seed(0)
df = pd.DataFrame(
    {"A": np.random.randint(6, size=20),
     "B": np.random.randint(6, size=20),
     "C": np.random.rand(20)}
 )
 df = df.set_index("A")

所以我有一个带有索引和 2 列的数据框。在熊猫中我会这样做：

result = df.groupby(["A", "B"]).C.count().reset_index().set_index("A")

最后我想将结果保存在镶木地板文件中。

现在让我们进入 dask，我可以执行基本相同的操作：

import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=4)
result = ddf.groupby(["A", "B"]).C.count().reset_index().set_index("A")

调用compute会得到相同的结果。然而，当检查图表时我发现：

GroupBy/Count 的计算图 https://i.stack.imgur.com/ObKPU.png

我们看到一切都被简化为一个分区。我可以理解，当要分组的数据分布在不同的分区中或者实际分组键的数量很少时，这或多或少是必要的。

但就我而言，索引位于分区中，因此我希望得到一个完全并行的图。此外，分组键的数量与初始行的数量具有相同的数量级（除以因子2或3）。

就像这段代码得到的一样：

result = ddf.map_partitions(
     lambda x: x.groupby(
         [x.index, x.B]
     ).C.count().reset_index().set_index("A")
)

给出了下图：并行计算图 https://i.stack.imgur.com/fnlFg.png

那么有没有办法用正常的 groupby/reduce dask 函数获得这个并行图？

当分组键的数量非常大时，这一点非常重要。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dask

dask groupby 不合并分区的相关文章

按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
Buildozer Numpy RuntimeError：工具链损坏：无法链接简单的 C 程序

用 Python 编写我的第一个 Android 应用程序并使用 Buildozer 对其进行打包因为稍后在项目中需要使用numpy 所以我尝试打包以下测试代码 import numpy import kivy kivy require
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
(venv) (base) 都在 python 项目上活跃，我如何只进入 venv？

所以我将 vscode 与 conda 对于 django 项目一起使用并尝试激活名为 venv 的虚拟环境它来自 base C Users User Desktop pfa master pfa master venv Script
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

RStudio Shiny renderDataTable 字体大小

我正在尝试减小 renderDataTable 中的字体大小但找不到任何控制字体大小的示例我读到可以通过 jquery 控制它但我找不到任何例子任何指导都会非常有帮助因为我正在使用闪亮的 ioslides 演示文稿并且我的数据表
Spring Security 帐户锁定

您好我有一个使用 Spring webflow 和 Spring Security 的 j2ee 应用程序我想实现帐户锁定以便在密码失败 3 次后帐户将被锁定我该如何实现这个你能用一个认证失败处理程序 http static sp
在列名中使用保留字

这是一些简单的代码但我只是不知道为什么我不能使用这个词作为表的实体 CREATE TABLE IF NOT EXISTS users key INT PRIMARY KEY NOT NULL AUTO INCREMENT username
Powershell 按多个属性分组

我试图确定是否有更简单的方法来编写 Powershell 函数该函数按多个属性对数组进行分组并对组中指定的属性求和类似于以下内容 Ungrouped data ID ID2 Value A A1 100 A A2 200 A A2 30
Android Oreo 上的操作系统阻止了地理围栏转换 PendingIntent

这只发生在 Android Oreo 上我正在使用 Play 服务 11 4 2 我正在使用 GeofencingClient 和 addGeofences 方法将地理围栏注册到正在处理地理围栏转换的 IntentService 中并将
在 Javascript 中获取类的所有实例

我以为这个问题已经有了答案但我似乎找不到答案如何在 Javascript 中的此类的所有实例上运行特定的类方法这必须在我不知道实例名称的情况下完成我想我可以在类中使用某种静态变量来存储所有实例但这在 JS 中似乎不存在那么如何在
在 Angular dart 上设置全局 Http 请求标头

如何配置 Http 服务向调用添加标头我尝试以下方法 class GlobalHttpHeaders static setup Injector inj HttpDefaultHeaders http inj get HttpDefau
如何在表单数组中添加无效的表单控件而不影响其功能

我想创建一个动态表单将表单控件必需的表单控件添加到表单数组中表单控件无效因为它需要由用户填写为空但是当我添加表单控件时出现错误 ExpressionChangedAfterItHasBeenCheckedError 表达式在
如何使用 Moq 返回数据或值列表？

谁能告诉我如何使用 Moq 框架使用模拟对象返回数据列表并将返回的数据列表分配给另一个 List 变量 public class SomeClass public virtual List
如何在 Python 3.2 程序中优雅地包含 Python 3.3 from None 异常语法？

我正在尝试重新引发异常以便为用户提供有关实际错误的更好信息 Python 3 3 包括PEP 409 http www python org dev peps pep 0409 它添加了raise NewException from No
获取 Bash 和 KornShell (ksh) 中命令的退出代码

我想写这样的代码 command some command safeRunCommand command safeRunCommand cmnd 1 cmnd if 0 then printf Error when executing co
如何使用相机谷歌地图 xcode 移动标记（图钉）

我在我的应用程序中使用谷歌地图 API 我的应用程序中有两个按钮第一个按钮在我的地图中添加一个标记图钉现在我想要第二个按钮将添加的图钉水平移动到页面中心并使其移动到页面顶部的 25 我希望相机用户正在查看的区域也移动它这是我的
使用 python 从 XSD 文件创建特定的 XML 文件

我有一个现有的 xsd 架构并且需要创建希望使用 Python 带有一些特定输入的 XML 文件最好的方法是什么我尝试了 Element Tree 和 xmlschema 但我无法判断它们是否允许从已知的 XSD 架构开始生成 XM
您应该通过属性访问同一类中的变量吗？

如果您有一个获取和设置实例变量的属性那么通常您总是使用该类外部的属性来访问它我的问题是你也应该在课堂上这样做吗如果有的话我总是使用该属性即使是在班级内但我想听到一些支持和反对的论据以确定哪个是最正确的以及为什么或者这只是项目
使 HTML5 视频海报与视频本身大小相同

有谁知道如何调整 HTML5 视频海报的大小使其适合视频本身的确切尺寸这是一个显示问题的 jsfiddle http jsfiddle net zPacg 7 http jsfiddle net zPacg 7 这是代码 HTML
Console.ReadLine() 末尾没有换行符？

问题很简单当我使用 Console ReadLine 控制台上打印的下一个内容将在下一行有什么办法可以继续打印该行吗提前致谢请检查控制台 Read 这不会导致新行或换行
MySQL 监听通知等效项

是否有相当于 PostgresQL 的notify http www postgresql org docs 9 1 static sql notify html and listen http www postgresql org doc
如何在 C# 中将 IEnumerable 转换为 Enum？

我已将多个字符串解析为枚举标志但看不到将它们合并为单个枚举位字段的巧妙方法我使用的方法循环遍历字符串值然后将值转换为 Enum 对象如下所示 Flags public enum MyEnum None 0 First 1 Seco
Spring - 使用 new 是一种不好的做法吗？

正在创建对象by hand 即使用new操作员而不是注册Springbean 和使用依赖注入被认为是不好的做法吗我的意思是确实Spring IoC容器必须了解应用程序中的所有对象吗如果是这样为什么你希望 Spring 创建 bea
dask groupby 不合并分区

我有一组数据我想要对其进行一些简单的 groupby count 操作但我似乎无法使用 dask 来完成此操作我很可能不理解 dask 中执行 groupby reduce 的方式特别是当索引位于分组键中时所以我将用玩具数据来说明

dask groupby 不合并分区

dask groupby 不合并分区 的相关文章

随机推荐

热门标签

dask groupby 不合并分区的相关文章