Dask 在 Groupby 上复制 Pandas 值

2024-01-11

我想做的是在 dask 中复制 panda 的值计数 + idxmax 函数，因为我有很多数据。这是一个示例数据框：

partner_num cust_id item_id revw_ratg_num   revw_dt item_qty
0   100 01  5   05/30/2000  0
0   100 03  5   05/30/2000  0
0   100 02  5   05/30/2000  0
1   200 13  4   04/01/2000  0
1   200 14  5   04/01/2000  1
2   200 22  2   04/01/2000  1
3   200 37  3   04/01/2000  1
9   300 92  1   03/24/2000  1
9   300 93  1   03/24/2000  1
9   300 94  1   03/24/2000  0
9   300 99  1   03/24/2000  0
6   300 91  2   03/24/2000  0

>>>df.head()
   partner_num  cust_id  item_id  revw_ratg_num     revw_dt  item_qty
0            0      100        1              5  05/30/2000         0
1            0      100        3              5  05/30/2000         0
2            0      100        2              5  05/30/2000         0
3            1      200       13              4  04/01/2000         0
4            1      200       14              5  04/01/2000         1

在 pandas 中你可以这样做：

df = pd.read_csv("fake_data.txt", sep="\t")
df.groupby(["cust_id"]).item_qty.value_counts()

cust_id  item_qty
100      0           3
200      1           3
         0           1
300      0           3
         1           2

然而，当你在 Dask 中做同样的事情时，它会失败，并抛出属性错误

df1 = dd.read_csv("fake_data.txt", sep="\t")
df1.groupby(["cust_id"]).item_qty.value_counts()

Traceback (most recent call last):
  File "<pyshell#14>", line 1, in <module>
    df1.groupby(["cust_id"]).item_qty.value_counts()
AttributeError: 'SeriesGroupBy' object has no attribute 'value_counts''

我真正想要做的是能够在 Dask 中进行多列分组后获取这些值以及它们的出现次数。任何替代解决方案都是可以接受的，我只是想完成工作！

value_counts不直接支持dask API https://dask.pydata.org/en/latest/dataframe-api.html对于数据框。使用apply达到您想要的结果。

注意value_counts https://dask.pydata.org/en/latest/dataframe-api.html支持作为系列方法。

>>> df1.groupby(['cust_id']).item_qty.apply(lambda x: x.value_counts()).compute()
cust_id   
100      0    3
200      1    3
         0    1
300      0    3
         1    2
Name: item_qty, dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Dask

Bigdata

Dask 在 Groupby 上复制 Pandas 值的相关文章

on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如

随机推荐

无法找到请求的.Net Framework 数据提供程序。它可能没有安装。

我一直在寻找答案但找不到任何适合我情况的东西当我在本地运行该网站时该网站工作得很好但是当我将其发布到 Azure 后如果我尝试使用访问数据库的页面则会出现以下错误页面 Server Error in Application Un
知道为什么我可以从命令行执行命令但不能从 PHP exec() 执行命令

OK 我做了一些创造性的搜索但遇到了障碍我正在尝试使用Linux 程序 sox 我试图从我的 PHP 脚本中调用它如果我使用命令行该脚本确实有效但是当我使用 PHP exec 时它不起作用 Example sox file1
“文件已损坏，无法打开”OpenXML

我从那里得到了该代码OpenXML SDK而不是SpreadsheetDocument Create 我用了SpreadsheetDocument Open 此代码正在运行并在中添加图像 xlsx 将图像添加到文件后我打开显示的文件 gt
java+spark：org.apache.spark.SparkException：作业中止：任务不可序列化：java.io.NotSerializedException

我是 Spark 新手并且尝试运行示例 JavaSparkPi java 它运行良好但是因为我必须在另一个 java 中使用它所以我将所有内容从 main 复制到类中的方法并尝试调用main 方法它说 org apache spar
do_timer() 是否应该在 SMP 系统中仅在一个内核上调用？

我知道 do timer 负责更新 jiffies 计数器因此我的问题是它可以在不同的内核上执行还是始终在发生计时器滴答的同一内核上执行让我在谷歌搜索和阅读代码后回答我自己的问题 do timer http lxr free elec
pandas 将小时索引整数转换为日期时间

我有一个像这样的 Pandas 数据框 Date Hour Actual 2018 06 01 0 0 000000 2018 06 01 1 0 012000 2018 06 01 2 0 065000 2018 06 01 3 0 56
Windows 10 通用 XmlNode 不包含 SelectSingleNode 的定义

使用 Windows 10 Visual Studio C 我正在尝试从 XML 文件中读取数据并且我已经阅读了程序集文档 https msdn microsoft com en us library system xml xmlnode
Datagridview 中的方形填充复选框

我有一个看起来像这样的数据库 Table Name ri closure 正如您在所有列上方的图像中看到的那样除了Month are TinyInt 1 and Month is Varchar现在我这里有一个代码 Dim con1 As
如何限制侦听 Jboss JMS 队列的 MDB 实例数量

我在以下设置中遇到问题 Java 应用程序将电子邮件消息发送到 JMS 队列然后侦听队列的 MDB 使用 onMessage 方法获取电子邮件消息它在 Gmail SMTP 上打开连接将电子邮件发送到 SMTP 并关闭连接对 JMS
如何使用 AVFoundation 循环播放视频而不会在最后出现不必要的停顿？

我正在尝试播放无限循环的视频剪辑我正在按照苹果建议的方式这样做通过设置由 AVPlayerItemDidPlayToEndTimeNotification 触发的通知 property nonatomic AVPlayer videoP
当用户使用我网站上的应用程序时，如何发布到 Facebook 用户的墙？

我使用 PHP 创建了一个 Facebook 应用程序允许用户将照片上传到我的 Facebook 页面现在我希望每当用户通过此 Facebook 应用程序在我的墙上发帖时都会提示用户在他她的墙上发布一条消息例如约翰发布了一张邪
使用 PhoneGap/Cordova 构建 Android 时，在 Mac OS X 10.9 Mavericks 上执行命令“ant”时出错

今天我尝试了 PhoneGap CordovaMac OS X 小牛队针对 iOS 的构建进展顺利但针对 Android 的构建则需要一些猜测我通过 Android SDK Manager 安装了 Android 4 2 2 我必须使
PMD - 如何从违规检查中排除文件

我们正在使用绑定到验证生命周期的 PMD 检查目标来检查我们的代码 http maven apache org plugins maven pmd plugin examples violationChecking html http
JAVA的流什么时候会出现EOFException

我正在使用 DataInputStream 并且有一个关于 EOFExceptions 的问题根据java文档表示文件结束或结束流已意外到达输入期间这个异常主要是数据使用的输入流以表示流结束请注意许多其他输入操作结束时返回
创建指向文件的指针数组

我将如何在 C 中创建文件指针数组我想创建一个指向 main 参数的文件指针数组如 a1 txt a2 txt 等所以我会运行 prog arg1 txt arg2 txt arg3 txt让程序使用这些文件那么 main 的参数是
D 有 HTML 解析吗？

我正在寻找 D 语言的 HTML 解析如果可能的话支持 XPath 我做了一些谷歌搜索但没有运气很难找到带有 D 关键字的解决方案就像C 我说 C 谷歌说C On http www dsource org http www dso
仅显示一周（开放时间，每周相同）

我想知道是否可以只显示一周使用此日历来显示商店的营业时间 So 我不想显示日期仅显示日期名称好的我不想对当天进行着色好的我希望日历始终显示在同一周 gt 我不知道该怎么做你有什么想法吗可以这样做吗多谢如果您使用 goTo
通过 PHP CURL POST 数据并重定向用户

我们需要将用户重定向到某个 URL 并使用 PHP CURL 将一些数据发送到该 URL POST 与用户单击 HTML 表单并使用 POST 方法提交时完全相同我们的代码是 data array Token gt test2 Redir
在单独的行上返回 Redshift JSON 数组的元素

我有一个 Redshift 表如下所示 id metadata 1 pet dog country uk 2 pet cat 3 4 country germany education masters country belgium 所有
Dask 在 Groupby 上复制 Pandas 值

我想做的是在 dask 中复制 panda 的值计数 idxmax 函数因为我有很多数据这是一个示例数据框 partner num cust id item id revw ratg num revw dt item qty 0 100

Dask 在 Groupby 上复制 Pandas 值

Dask 在 Groupby 上复制 Pandas 值 的相关文章

随机推荐

热门标签

Dask 在 Groupby 上复制 Pandas 值的相关文章