Dask dataframe：“set_index”可以将单个索引放入多个分区吗？

2024-01-29

根据经验，似乎每当你set_index在 Dask 数据帧上，Dask 始终将具有相同索引的行放入单个分区中，即使这会导致分区严重不平衡。

这是一个演示：

import pandas as pd
import dask.dataframe as dd

users = [1]*1000 + [2]*1000 + [3]*1000

df = pd.DataFrame({'user': users})
ddf = dd.from_pandas(df, npartitions=1000)

ddf = ddf.set_index('user')

counts = ddf.map_partitions(lambda x: len(x)).compute()
counts.loc[counts > 0]
# 500    1000
# 999    2000
# dtype: int64

然而，我在任何地方都找不到这种行为的保证。

我曾尝试自己筛选代码，但放弃了。我相信这些相互关联的函数之一可能包含答案：

set_index https://github.com/dask/dask/blob/8aea537d925b794a94f828d35211a5da05ad9dce/dask/dataframe/shuffle.py#L118
set_partitions https://github.com/dask/dask/blob/8aea537d925b794a94f828d35211a5da05ad9dce/dask/dataframe/shuffle.py#L210
rearrange_by_column https://github.com/dask/dask/blob/8aea537d925b794a94f828d35211a5da05ad9dce/dask/dataframe/shuffle.py#L398
rearrange_by_column_tasks https://github.com/dask/dask/blob/8aea537d925b794a94f828d35211a5da05ad9dce/dask/dataframe/shuffle.py#L534
SimpleShuffleLayer https://github.com/dask/dask/blob/cf82bb07d7070f0950b1cd7b33ff77fd384406f8/dask/layers.py#L364

当你set_index，是否单个索引永远不能位于两个不同的分区中？如果不是，那么该财产在什么条件下成立？

赏金：我将向来自信誉良好的来源的答案授予赏金。例如，引用实现来表明该属性必须成立。

单个索引是否永远不能位于两个不同的分区中？

不，这当然是允许的。达斯克甚至打算让这种情况发生。然而，由于一个bug https://github.com/dask/dask/issues/8437 in set_index，所有数据仍将位于一个分区中。

一个极端的例子（除了一个之外，每一行都是相同的值）：

In [1]: import dask.dataframe as dd
In [2]: import pandas as pd
In [3]: df = pd.DataFrame({"A": [0] + [1] * 20})
In [4]: ddf = dd.from_pandas(df, npartitions=10)
In [5]: s = ddf.set_index("A")
In [6]: s.divisions
Out[6]: (0, 0, 0, 0, 0, 0, 0, 1)

如您所见，Dask 的目的是0要在多个分区之间分割。然而，当洗牌真正发生时，所有的0s 仍然最终位于一个分区中：

In [7]: import dask
In [8]: dask.compute(s.to_delayed())  # easy way to see the partitions separately
Out[8]: 
([Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [],
  Empty DataFrame
  Columns: []
  Index: [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],)

这是因为code https://github.com/dask/dask/blob/a5aecac8313fea30c5503f534c71f325b1775b9c/dask/dataframe/shuffle.py#L796决定一行属于哪个输出分区不考虑重复项divisions。治疗divisions作为一个系列，它使用searchsorted https://pandas.pydata.org/docs/reference/api/pandas.Series.searchsorted.html with side="right"，这就是为什么所有数据总是在最后一个分区中结束的原因。

问题解决后我会更新这个答案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dask dataframe：“set_index”可以将单个索引放入多个分区吗？的相关文章

使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

Redux / RTK：为一个切片创建增强器？

在我的 Redux RTK 存储中的一个切片中要使该切片完成其工作我所需要做的就是使用以下命令创建一个实体适配器createEntityAdapter https redux toolkit js org api createEntit
类变量、范围解析运算符和不同版本的 PHP

我在 codepad org 中尝试了以下代码 class test const TEST testing 123 function test testing TEST echo self testing class new test 它返
如何编写自定义 POCO 串行器/解串器？

我想为 FIX 消息编写一个自定义 NET 序列化器反序列化器与 XML 不同基本上该消息的编码为
使用用户名和密码登录后如何抓取网站

我编写了一个网络爬虫可以使用关键字抓取网站但我想登录到我指定的网站并按关键字过滤信息如何实现这一点我发布了到目前为止我已经完成的代码 public class DB public Connection conn null publi
如何在 React.JS 中添加 ClassName 并删除 onScroll 事件？

我正在尝试制作一个粘性标题可以根据他在页面上的位置更改其背景颜色为此我尝试将 className active 添加到我的样式组件 StyledHeader 中当滚动位置 Y 高于 400 像素时它将出现低于 400 像素时消失
Selenium/Chrome/ChromeDriver 问题阻止 VPS 上的爬网（DevToolsActivePort 文件不存在）

我购买了第一个 VPS 它运行 CentOS 7 64 位在我今天开始使用这个 VPS 之前我对 CentOS 7 的经验绝对为零所以请对我宽容一点当尝试使用 Scrapy 和 Selenium 抓取一些动态生成的内容时脚本最终失
重新发送 DocuSign 电子邮件

是否有 API 端点允许我重新向收件人发送电子邮件有时用户可能无法收到或丢失包含签名链接的 DocuSign 电子邮件我希望能够根据需要再次发送这些电子邮件您可以使用修改收件人请求来触发向特定收件人重新发送电子邮件通知 PUT
Android 应用程序仅在 Eclipse 调试时因 SIGABRT Signal 6 崩溃

我有一个应用程序可以在没有附加调试器的设备上完美运行但是我在Eclipse中调试时遇到了问题当主线程挂起大约 10 秒或更长时间例如遇到断点后主线程会抛出 SIGABRT 显然来自 libc 我能想到的唯一解释是主线程上的消息队
LINQ except 如何工作？ [复制]

这个问题在这里已经有答案了可能的重复 LINQ 查找两个列表中的差异 https stackoverflow com questions 2404301 linq find differences in two lists 我想找到两个系
抽象类设计：为什么不定义公共构造函数？

看这里抽象类设计 http msdn microsoft com en us library ms229047 aspx http msdn microsoft com en us library ms229047 aspx It say
HTML 表格，某些列自动调整，其他列固定宽度

我正在尝试创建一个符合以下要求的表表格宽度必须定义为 0 浏览器应根据列宽计算宽度这是为了容纳列调整大小插件某些列可能具有固定宽度例如 50px 没有固定宽度的列必须自动适应内容我创建了一个小例子 http jsfiddle ne
Rails：around_* 回调

我已阅读以下文档http api rubyonrails org classes ActiveRecord Callbacks html http api rubyonrails org classes ActiveRecord Callb
如何判断是否不再需要 git stash？

是否可以判断是否已经应用了存储因此不再需要而无需执行git stash apply 假设我只使用一个分支这可以通过使用来防止pop而不是apply当应用隐藏时因此每次应用时都将其清除但是我有时使用 git stash 来保存正在
Apache：将 XAMPP/PHP 句柄从 application/x-httpd-php 更改为 application/x-httpd-php5

我的目标是不再需要拥有 htaccess 文件的本地副本和实时副本而是能够对本地实时配置使用相同的单个 htaccess 文件这将迫使我更好地理解配置服务器我的本地服务器是我计算机上的 XAMPP 而我的实时服务器是共享 Web 主
Firebase jobdispatcher 未在指定窗口内触发

我正在实施 Firebase Jobdispatcher 触发时间指定在 10 到 20 秒之间这是我安排工作的代码 public static void scheduleCompatibleJob Context context Fir
QGraphicsView：禁用自动滚动

我想要一个永远不会自动滚动的 QGraphicsView 类似基本上我的问题与http developer qt nokia com forums viewthread 2220 http developer qt nokia com
从 C# 模态表单显示 VB6 模态表单时，事件不会触发？

EDIT 我发现当VB6程序编译运行时事件工作正常没有问题只有当代码在 VB6 IDE 中运行时事件才会被破坏这并不能完全解决问题因为如果我们不能在IDE中调试的话开发效率会非常低但也许它可以让我们更深入地了解根本原因我猜
在reactjs中渲染第一个孩子或父母

我是reactjs的初学者并试图理解诸如父级和子级在reactjs中呈现什么以及如何呈现之类的概念通过研究我发现 React 首先渲染孩子然后渲染父母但我无法得到有效的答案如何以及为什么如果子进程无法渲染会发生什么我猜在 R
Azure Devops Powershell 不显示 Get-ChildItem 的文件名

我在 Azure DevOps 管道中使用以下任务vmImage ubuntu latest pwsh Get ChildItem Recurse Path Pipeline Workspace displayName Show folde
Dask dataframe：“set_index”可以将单个索引放入多个分区吗？

根据经验似乎每当你set index在 Dask 数据帧上 Dask 始终将具有相同索引的行放入单个分区中即使这会导致分区严重不平衡这是一个演示 import pandas as pd import dask dataframe as

Dask dataframe：“set_index”可以将单个索引放入多个分区吗？

Dask dataframe：“set_index”可以将单个索引放入多个分区吗？ 的相关文章

随机推荐

热门标签

Dask dataframe：“set_index”可以将单个索引放入多个分区吗？的相关文章