Pandas 按组聚合排序

2023-12-28

我已经看过了这个问题 https://stackoverflow.com/questions/14941366/pandas-sort-by-group-aggregate-and-column，但期望的结果与我的略有不同。

想象一下这样分组的数据框：

df.groupby(['product_name', 'usage_type']).total_cost.sum()

product_name   usage_type
Lorem          A               30.694665
               B                0.000634
               C                1.659360
               D                0.000031
               E             3339.140042
               F                0.074340
Ipsum          G                9.627360
               A               19.053377
               D               14.492155
Dolor          B                9.698245
               H             6993.792163
               C            31947.955679
               D             2150.400001
               E               26.337789
Name: total_cost, dtype: float6

我想要的输出是相同的结构，但具有两个属性：

按成本总和对产品名称进行排序
按字典顺序对使用类型进行排序（更好的选择：按成本降序排序）

这样成本最高的产品首先出现，但仍保留细分。

如果它明显更简单，我可以放弃按使用类型进行二次排序。

从分组的 DataFrame 开始：

import pandas as pd
df2 = pd.read_table('data', sep='\s+').set_index(['product_name', 'usage_type'])
#                                   val
# product_name usage_type              
# Lorem        A              30.694665
#              B               0.000634
#              C               1.659360
#              D               0.000031
#              E            3339.140042
#              F               0.074340
# Ipsum        G               9.627360
#              A              19.053377
#              D              14.492155
# Dolor        B               9.698245
#              H            6993.792163
#              C           31947.955679
#              D            2150.400001
#              E              26.337789

您可以将键值存储在新列中：

df2['key1'] = df2.groupby(level='product_name')['val'].transform('sum')
df2['key2'] = df2.index.get_level_values('usage_type')

然后按这些关键列排序：

# >>> df2.sort(['key1', 'key2'], ascending=[False,True])
#                                   val          key1 key2
# product_name usage_type                                 
# Dolor        B               9.698245  41128.183877    B
#              C           31947.955679  41128.183877    C
#              D            2150.400001  41128.183877    D
#              E              26.337789  41128.183877    E
#              H            6993.792163  41128.183877    H
# Lorem        A              30.694665   3371.569072    A
#              B               0.000634   3371.569072    B
#              C               1.659360   3371.569072    C
#              D               0.000031   3371.569072    D
#              E            3339.140042   3371.569072    E
#              F               0.074340   3371.569072    F
# Ipsum        A              19.053377     43.172892    A
#              D              14.492155     43.172892    D
#              G               9.627360     43.172892    G

result = df2.sort(['key1', 'key2'], ascending=[False,True])['val']
print(result)

yields

product_name  usage_type
Dolor         B                 9.698245
              C             31947.955679
              D              2150.400001
              E                26.337789
              H              6993.792163
Lorem         A                30.694665
              B                 0.000634
              C                 1.659360
              D                 0.000031
              E              3339.140042
              F                 0.074340
Ipsum         A                19.053377
              D                14.492155
              G                 9.627360

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Sorting

NumPy

pandas

Pandas 按组聚合排序的相关文章

如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
如何为多组精灵创建随机位置？

我尝试使用 blit 和 draw 方法进行 for 循环并为 PlayerSprite 和 Treegroup 使用不同的变量 for PlayerSprite in Treegroup surface blit PlayerSprit
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
使用循环将对象添加到列表（python）

我正在尝试使用 while 循环将对象添加到列表中基本上这就是我想做的 class x pass choice raw input pick what you want to do while choice 0 if choice 1 E
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
在 pip.conf 中指定多个可信主机

这是我尝试在我的中设置的 etc pip conf global trusted host pypi org files pythonhosted org 但是它无法正常工作参考 https pip pypa io en stable
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布有
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb

随机推荐

包含第三方 iFrame 的安全风险

包含隐藏的第 3 方 iFrame 会带来哪些应用程序安全风险如果我理解正确的话点击劫持对我来说不是问题因为我拥有父页面同源策略阻止 3p 框架与我的 dom cookies js 交互框架是隐藏的所以我不必担心框架中可能显示的
为 Amazon 的 EC2 实例生成 pem 文件

对于我们的生产系统我们运行 Amazon EC2 实例负责此事的同事请称他为乔已离开公司现在我们想要有ssh访问我们的实例他给我们留下了他的私人和公共密钥文件 id dsa id dsa pub 在后端我们可以看到密钥 joe
是否可以确定网络类型（GSM/CDMA）？

是否可以确定网络类型 GSM 还是 CDMA 我查看了 Core Telephony 但没有看到任何内容似乎可以找到运营商并从中推断出它但如果可能的话我更愿意直接获取类型本身 None
AWS SES服务用于使用java发送邮件

我在使用 AWS SES 邮件发送示例时遇到以下错误 Exception in thread main java lang NoSuchMethodError com amazonaws client AwsSyncClientParams
Java SE 上的 JPA：对象：entity.Customer@5e80188f 不是已知的实体类型

我正在关注 https glassfish java net javaee5 persistence persistence example html https glassfish java net javaee5 persistence
统计/统计 mysql 每天的结果

假设我有一个名为的 mysql 表signups 具有以下值 Name Signup Date dog 2008 05 14 18 53 30 cat 2008 05 14 12 13 20 mouse 2008 05 14 08 51
Java - 泛型类型 - 类型擦除

我在oracle网站上找到了以下问题和答案类型擦除后以下类转换为什么 public class Pair
如何让 OData DELETE 工作？

我创建了一个 OData 服务 WCF 数据服务和一个使用者来测试它以前当我尝试删除时收到 WebDAV 405 错误消息不允许使用方法所以我用谷歌搜索并发现 http nikhilthaker86 wordpress com
所有 .com 和 .net whois 服务器的列表？

我正在尝试查找 COM NET 的所有 whois 服务器的列表威瑞信是 com net name cc 和 tv 域的权威注册机构可能的解决方案要找出完整的 whois 服务器列表需要使用 com 区域文件中的域列表爬取至少一百万
PDO 错误：SQLSTATE[HY000]：一般错误：2031

我遇到了这个恼人的错误尽管我知道为什么会出现这个错误但我一生都找不到解决方案 if limit sth gt bindValue page page 1 PDO PARAM INT sth gt bindValue entries pe
grails 中的通用方法拦截（特别是控制器）

我正在尝试在 grails 中创建一个通用函数它允许我指定类和函数名称并根据该条件拦截任何函数调用 getSomeClass metaClass invokeMethod String methodName args gt MetaMe
元组对，使用 python 查找最小值

我想找到按给定列排序的元组列表的最小值例如我有一些数据排列为二元组列表 data 1 7 57 2 2 1 3 1 2 4 2 1 5 0 01 6 0 5 7 0 2 8 0 6 如何通过仅比较元组中的第二个数字来找到数据集的最小值
在最后一个选项卡上提交后如何将 primefaces 向导重定向到第一个选项卡

我正在使用 primefaces 3 2 我已经准备好了向导可以在数据表的同一页面上插入用户信息向导逐个选项卡获取信息并在确认选项卡上提交它还将反映在数据表的同一页面上它运行良好现在我需要更新多个用户为此我必须将向导从提交按钮
如何通过 Azure 批处理和数据工厂使用 Azure Analysis Services 进行身份验证

我有一个 c Sharp 类库它使用 AMO 库连接到 Azure Analysis Services 我想将其用作数据工厂管道的一部分来刷新多维数据集分区这是通过 Azure 批处理作为自定义 net 活动完成的 var server
为什么恰好一次语义不可行？

在 Erlang 希望最好的 RPC 语义中 SUN RPC 具有至少一次 Java RMI 具有最多一次但没有人拥有恰好一次语义为什么拥有一次语义似乎不可行例如如果客户端不断重新发送唯一标记的请求直到收到答复并且服务器会跟踪所
如何在OSX下使用brew安装opencv2

最近我使用以下命令安装了opencv brew install opencv 我发现opencv3安装在目录中 usr include and usr lib 但我想要的是opencv2 如何安装opencv2brew命令找到答案的最简
编程中的削减有那么糟糕吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案这学期我正在学习人工智能课程其中我们学习 Prolog 我们的讲师告诉我们要尽量避免在作业中使用删减但是对于一些问题我似乎无法避免使用它们
Fgets 错误段错误

是否有任何原因导致较早编译的程序因 fgets 而在某个点出现段错误我根本没有更改任何与之相关的代码突然我相信它无法打开文件但我像十五分钟前一样用该文件测试了它我所做的只是添加了搜索功能所以我不明白问题是什么它可能是我通过 Pu
在c#中将JSON列表解析为int数组

我在将 JSON 数字列表读入 c int 数组时遇到问题我已经尝试过 SO 的一些建议但没有一个有效我该如何使用 JSON net 来解决这个问题从 JSON 文件中提取 course Norsk grades 6 3 5 6 2
Pandas 按组聚合排序

我已经看过了这个问题 https stackoverflow com questions 14941366 pandas sort by group aggregate and column 但期望的结果与我的略有不同想象一下这样分组的数

Pandas 按组聚合排序

Pandas 按组聚合排序 的相关文章

随机推荐

热门标签

Pandas 按组聚合排序的相关文章