Pandas - 按每个可能的键组合聚合

2024-05-08

我有一个 DataFrame Pandas，我想通过 A、B、C 和 D 列的组合尽可能按数据进行分组。

假设它具有以下形式：

      A   B   C   D   E   F   G        
0     Y   X   Y   Z   1   2   7
1     Y   X   Y   Z   3   4   8 
2     X   Y   U   V   1   1   1
3     X   Y   V   U   1   2   0
4     X   Z   Z   Z   1   8   1

首先，我尝试在更高级别进行分组，因此我尝试按 ['A', 'B', 'C', 'D'] 进行分组。对于尚未重新分组的行，我尝试较低的组合，例如 ['A', 'B', 'C'], ['A', 'B', 'D'] 等。最后，我没有使用任何组合，只是按['A']然后['B']然后['C']然后['D']分组。此时，我已使用每个可能的聚合键（暗示 A、B、C 和 D）对数据进行了分组。

使用此方法，所需的输出将是：

      A   B   C   D           
0     Y   X   Y   Z    
1     X   Y     
2     X

这些操作可以轻松完成吗？

我认为您首先需要列值的所有组合：

df = pd.DataFrame({'A':[5,3,6,9,2,4],
                   'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'D':[1,3,5,7,1,0],
                   })

print (df)
   A  B  C  D
0  5  4  7  1
1  3  5  8  3
2  6  4  9  5
3  9  5  4  7
4  2  5  2  1
5  4  4  3  0

from  itertools import combinations
a = df.columns
comb = [j for i in range(len(a), 0, -1) for j in combinations(a,i)]
print (comb)
[('A', 'B', 'C', 'D'),
 ('A', 'B', 'C'), ('A', 'B', 'D'), ('A', 'C', 'D'), ('B', 'C', 'D'), 
 ('A', 'B'), ('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D'), ('C', 'D'), 
('A',), ('B',), ('C',), ('D',)]

a = pd.concat([df.loc[:, x].sum(axis=1) for x in comb], axis=1)
print (a)
   0   1   2   3   4   5   6   7   8   9   10  11  12  13  14
0  17  16  10  13  12   9  12   6  11   5   8   5   4   7   1
1  19  16  11  14  16   8  11   6  13   8  11   3   5   8   3
2  24  19  15  20  18  10  15  11  13   9  14   6   4   9   5
3  25  18  21  20  16  14  13  16   9  12  11   9   5   4   7
4  10   9   8   5   8   7   4   3   7   6   3   2   5   2   1
5  11  11   8   7   7   8   7   4   7   4   3   4   4   3   0

然后通过以下方式获取所有重复项duplicated http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.duplicated.html with concat http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html并获得第一Trues by numpy.argmax https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmax.html:

print (pd.concat([df.duplicated(x, keep=False) for x in comb], axis=1))

      0      1      2      3      4      5      6      7      8      9   \
0   True   True   True   True   True   True   True   True   True   True   
1   True   True   True   True   True   True   True   True   True   True   
2  False  False  False  False  False   True  False  False  False  False   
3  False  False  False  False  False   True  False  False  False  False   
4  False  False  False  False  False  False  False  False  False  False   

      10    11     12     13     14  
0   True  True   True   True   True  
1   True  True   True   True   True  
2  False  True   True  False  False  
3  False  True   True  False  False  
4  False  True  False  False   True  

a = pd.concat([df.duplicated(x, keep=False) for x in comb], axis=1).values.argmax(axis=1)
print (a)
[ 0  0  5  5 11]

最后使用这个数组作为参数groupby:

df = df.groupby(a).sum()
print (df)
    E  F   G
0   4  6  15
5   2  3   1
11  1  8   1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas - 按每个可能的键组合聚合的相关文章

雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

Flutter中的pushReplacementNamed和popAndPushNamed有什么区别？

The NavigatorState班级在Flutter navigator dart有 2 种具有类似行为的方法有什么区别pushReplacementNamed and popAndPushNamed在颤振中 pushReplacem
HAProxy - 如果第一台机器返回 404，则从第二台机器提供 URL

我遇到过这样的情况网站的一部分某些 URL 路径由一台后端服务器提供服务而所有其他 URL 则由 HAProxy 中的不同默认后端提供服务现在由于应用程序逻辑的编写方式可以在两台物理服务器计算机中的任意一台上的同一路径上创建要
Javascript RegEx 替换所有不在 HTML 标签内的字符

寻求一些帮助我的正则表达式有点生锈我试图用一个字符替换 javascript 中 HTML 标签之外的所有字符例如用破折号替换这些字符 div class test Lorem Ipsum br Dolor Sit Amet di
我如何将值从基本适配器传递到活动

我正在一个应用程序中工作我需要将值从基本适配器类传递到活动这是片段代码 public View getView int position View convertView ViewGroup parent vi convertView
如何查找 SQL Server 数据库中所有空间的使用情况

我们有一个 SQL Server 数据库根据 Microsoft SQL Server Management Studio 的数据该数据库只有 6436Mb 中的 119Mb 可用然而命令 EXEC sp msforeachtable
在 Robot 框架中的测试套件中设置会话 cookie

我的应用程序是一个 RESTful API 仅当会话 cookie 存在时才有效不幸的是我总是需要在一个网页登录获取 cookie 并传递会话cookie到 API 来建立会话我能够找出解决方案来验证会话 cookie 并将其传递给
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
使用 NaN 计算 numpy 数组中的移动平均值

我正在尝试计算包含 NaN 的大型 numpy 数组中的移动平均值目前我正在使用 import numpy as np def moving average a n 5 ret np cumsum a dtype float ret n
创建shell可执行全局节点模块

我尝试创建节点模块我成功了我用了npm install g在代码目录中它创建了这个模块文件夹 AppData Roaming npm node modules myfirstmodule 现在我想让一个文件作为命令可执行例如 pm2
您推荐使用哪些工具来分析 Rails 应用程序？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在寻找 Rails 的分析工具我目前正在玩和测试 ruby prof 和 Railsbench 但我对使其工作所需的大量调整和修改
JavaFX中如何获取鼠标位置？

我是java fx 的初学者如何在 JavaFX 中获取鼠标在 x 和 y 中的位置我尝试使用 AWTMouseInfo 也导入了它但它不起作用我还在 Ensembles 中看到了它的代码在高级阶段拖动球窗口这就是我需要做的
NSFileManager.defaultManager().fileExistsAtPath 返回 false 而不是 true

这怎么可能 let exists NSFileManager defaultManager fileExistsAtPath path absoluteString print exists exists false This is pat
调整表格上的列宽

目前如果表格的宽度不大于容器的宽度我可以调整表格列的大小我希望发生的是在调整列大小时表格的宽度增加以便滚动条出现在表格下方基本上允许我调整大小而不受容器宽度的限制这是一个小提琴 https jsfiddle net thatOn
垂直对齐在复合模式下不起作用

根据文档以下内容应该有效但对我不起作用我错过了什么吗 PdfPTable rs1 new PdfPTable 1 PdfPCell c new PdfPCell Paragraph p new Paragraph some text
最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
为什么要打开重定向 URL？

我一直在浏览 OWASP 前 10 个漏洞以更深入地了解每种特定类型的漏洞我已完成最后一项未经验证的 URL 重定向我了解这次攻击我在 OWASP 中读到了有关此类网络钓鱼计划的内容现在看来这一点是显而易见的我很难理解为什么这
使用 CoreTelephony 获取运营商名称仅返回“Carrier”

我尝试使用此代码获取运营商名称使用 CoreTelephony CTTelephonyNetworkInfo netinfo CTTelephonyNetworkInfo alloc init CTCarrier carrier neti
如何使用符号来标识 ruby 方法中的参数

我正在学习 Rails 并回到 ruby 来了解 Rails 中的方法以及 ruby 的实际工作原理当我看到如下方法调用时 validates first name presence gt true 我有点迷惑不解了如何在 ruby
计算 MySQL 中每个唯一 ID 与前一行的日期差异

我是一名 SQL 初学者正在学习查询的诀窍我正在尝试查找同一客户购买之间的日期差异我有一个如下所示的数据集 ID Purchase Date 1 08 10 2017 1 08 11 2017 1 08 17 2017 2 08 09
Pandas - 按每个可能的键组合聚合

我有一个 DataFrame Pandas 我想通过 A B C 和 D 列的组合尽可能按数据进行分组假设它具有以下形式 A B C D E F G 0 Y X Y Z 1 2 7 1 Y X Y Z 3 4 8 2 X Y U V 1

Pandas - 按每个可能的键组合聚合

Pandas - 按每个可能的键组合聚合 的相关文章

随机推荐

热门标签

Pandas - 按每个可能的键组合聚合的相关文章