Pandas 层次排序

2024-02-16

我有一个类别和金额的数据框。可以使用冒号分隔的字符串将类别无限嵌套到子类别中。我希望按金额降序排序。但以分层类型的方式如图所示。

我需要如何排序

CATEGORY                            AMOUNT
Transport                           5000
Transport : Car                     4900
Transport : Train                   100
Household                           1100
Household : Utilities               600
Household : Utilities : Water       400
Household : Utilities : Electric    200
Household : Cleaning                100
Household : Cleaning : Bathroom     75
Household : Cleaning : Kitchen      25
Household : Rent                    400
Living                              250
Living : Other                      150
Living : Food                       100

EDIT:数据框：

pd.DataFrame({
    "category": ["Transport", "Transport : Car", "Transport : Train", "Household", "Household : Utilities", "Household : Utilities : Water", "Household : Utilities : Electric", "Household : Cleaning", "Household : Cleaning : Bathroom", "Household : Cleaning : Kitchen", "Household : Rent", "Living", "Living : Other", "Living : Food"],
    "amount": [5000, 4900, 100, 1100, 600, 400, 200, 100, 75, 25, 400, 250, 150, 100]
})

注：这是我想要的顺序。在排序之前它可以是任意顺序。

EDIT2:如果有人正在寻找类似的解决方案，我在这里发布了我确定的解决方案：如何按分层类别结构中的值对 pandas 中的数据框进行排序 https://stackoverflow.com/questions/61404130/how-to-sort-dataframe-in-pandas-by-value-in-hierarchical-category-structure/61404843#61404843

一种方法可能是首先str.split类别栏。

df_ = df['category'].str.split(' : ', expand=True)
print (df_.head())
           0          1     2
0  Transport       None  None
1  Transport        Car  None
2  Transport      Train  None
3  Household       None  None
4  Household  Utilities  None

然后获取列金额，您想要的是根据以下条件获取每组的最大金额：

仅第一列，
然后是第一列和第二列
然后是第一、二、三列，...

你可以这样做groupby.transform with max，然后连接创建的每个列。

s = df['amount']
l_cols = list(df_.columns)
dfa = pd.concat([s.groupby([df_[col] for col in range(0, lv+1)]).transform('max')
                  for lv in l_cols], keys=l_cols, axis=1)
print (dfa)
       0       1      2
0   5000     NaN    NaN
1   5000  4900.0    NaN
2   5000   100.0    NaN
3   1100     NaN    NaN
4   1100   600.0    NaN
5   1100   600.0  400.0
6   1100   600.0  200.0
7   1100   100.0    NaN
8   1100   100.0   75.0
9   1100   100.0   25.0
10  1100   400.0    NaN
11   250     NaN    NaN
12   250   150.0    NaN
13   250   100.0    NaN

现在你只需要sort_values在所有列上以正确的顺序首先是 0，然后是 1，然后是 2...，获取索引并使用 loc 以预期的方式对 df 进行排序

dfa = dfa.sort_values(l_cols, na_position='first', ascending=False)
dfs = df.loc[dfa.index] #here you can reassign to df directly
print (dfs)
                            category  amount
0                          Transport    5000
1                    Transport : Car    4900
2                  Transport : Train     100
3                          Household    1100
4              Household : Utilities     600
5      Household : Utilities : Water     400
6   Household : Utilities : Electric     200
10                  Household : Rent     400 #here is the one difference with this data
7               Household : Cleaning     100
8    Household : Cleaning : Bathroom      75
9     Household : Cleaning : Kitchen      25
11                            Living     250
12                    Living : Other     150
13                     Living : Food     100

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Sorting

Hierarchical

Pandas 层次排序的相关文章

向 polls urls.py 添加额外的过滤器会导致测试失败

按照 djangoproject 的教程我尝试让 urls py 过滤掉没有选择下面 urlpattern 的民意调查 urlpatterns patterns url r ListView as view queryset Poll o
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
Python代码执行时自动打开浏览器

我正在 Python Flask 中实现 GUI Flask 的设计方式是必须手动打开本地主机以及端口号有没有一种方法可以使其自动化以便在运行代码时自动打开浏览器本地主机我尝试使用 webbrowser 包但它在会话终止后打
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
Python：使用for循环更改变量后缀

我知道这个问题被问了很多但到目前为止我无法使用理解答案我想改变for循环中变量的后缀我尝试了 stackoverflow 搜索提供的所有答案但很难理解提问者经常提出的具体代码因此为了清楚起见我使用一个简单的示例这并不意味着
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
Java 相当于 Python 的 urllib.urlencode（基于 HashMap 的 UrlEncode）

From https stackoverflow com questions 2018026 should i use urllib or urllib2 2018103 2018103 Java 中 Python 的 urllib url
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

在 PHP 中使用变量作为函数名称 [重复]

这个问题在这里已经有答案了可能的重复使用变量定义 PHP 函数 https stackoverflow com questions 7213825 use a variable to define a php function 有没有办
空对象引用上的 android.os.Looper android.content.Context.getMainLooper()

我正在关注一个tutorial https www androidtutorialpoint com intermediate android map app showing current location android 学习使用谷歌地
从 dbpedia 获取改编成电影的书籍列表

我正在尝试获取改编自 dbpedia 书籍的美国电影列表这是我到目前为止所拥有的 PREFIX onto
Microsoft DI：针对非通用 ILog 接口注册通用 Log4NetAdapter<>

我正在将项目从 SimpleInjector 切换到 Microsoft 的内置 DI 容器在这个项目中我创建了一个通用 Log4NetAdapter 类我将其针对 Log4Net 的非通用 ILog 接口注册到 SimpleInje
使用 python 请求获取 CSRF 令牌

我目前正在使用 Python 请求并且需要 CSRF 令牌才能登录站点根据我的理解 requests Session 获取 cookie 但显然我需要令牌我还想知道将它放在我的代码中的哪里导入请求 user name input U
如何使用 indy10 Delphi 发送西里尔文数据

当我在网站上发送一些西里尔文字时该文字显示为这是我的发送功能 http TIDHttp Create nil http HandleRedirects true http ReadTimeout 5000 http Request Co
升级 vs 2012 更新 3 后无法连接到团队项目

我最近将我的 Visual Studio 从 2012 update 1 升级到 update 3 自升级以来团队资源管理器显示空的离线主页按团队资源管理器的连接页面上的配置团队项目不会执行任何操作我尝试修复卸载和安装并删除团队
如何在 Objective-C 中使用 Swift 非 NSObject 子类

我在 Objective C 项目中使用 Swift 时遇到一些问题例如我使用以下库 https github com Hearst DD ObjectMapper https github com Hearst DD ObjectMa
jQuery 将浏览器名称添加到 css-class 中

我使用 jQuery 来检测用户浏览器代理然后将浏览器名称作为 css 类添加到正文中这对于 webkit 和 mozilla 来说就像魔术一样但是对于 msie 它失败了但不知道为什么对于msie 我不仅要添加 msie 还要添
什么是 YUV 格式？（从一个不会玩的初学者的角度来看）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案视频质量指标称为VMAF https github com Netflix vmaf由 Netflix 评估 YUV 格式的视频但什么是
Web 套接字会让 ajax/CORS 过时吗？

在所有 Web 浏览器中使用 Web 套接字会使 Ajax 过时吗因为如果我可以使用 Web 套接字来实时获取数据和更新数据为什么还需要 ajax 即使我在应用程序启动时使用 ajax 只获取一次数据我仍然可能想看看该数据在一段时间后
如何从 iOS 上的音频文件中提取元数据

我正在尝试使用 AVFoundation 框架从 mp3 和 m4a 文件中提取元数据这是测试代码 void printMetadataForFileAtPath NSString path NSURL url NSURL fileURL
使用 SQL 检查列是否包含文本

我有一个名为studentID 但我有millions记录并且应用程序以某种方式输入了一些任意文本在专栏中我如何搜索 SELECT FROM STUDENTS WHERE STUDENTID CONTAINS TEXT 将数据库建模问题
为什么 CSS 中引入了边距折叠规则？

这套巧妙的规则什么时候可以发挥作用它们打破了盒子模型的简单性当您将不同的布局组合在一起时它们会带来无限的麻烦那么原因是什么呢 Rules http www w3 org TR css3 box collapsing margins供
ftp_ssl_connect 和 ftp_nlist

我需要连接到远程系统以获取一些文件远程系统的规格提到所需的协议是 SFTP SSH 文件传输协议端口号是22 首先我使用 FTP 客户端应用程序尝试使用给定的凭据登录新服务器起初我遵循系统的规格使用了通过 SSH 进行 SFT
JOptionPane 变灰一键

我需要使用一个JOptionPane给用户两个选择根据之前的操作可能需要禁用其中一个按钮是否可以与JOptionPane能够将其中一个按钮设置为禁用或启用吗我怎样才能做到这一点如果您使用 JButtons 这很容易 public
在 PowerShell 中将控制台设置为最顶层

因此虽然有很多关于如何设置的建议forms最上面我找不到任何可以让我的控制台在最上面运行的东西所以我的问题是如何让我的控制台在脚本期间运行在最上面这需要一些 NET 互操作如本博客中所述 TechEd 2012 中的脚本第 1
worklight ant 任务应用程序部署 - WL 控制台安全性处于活动状态时出现未经授权的错误

我正在尝试使用提供的 ant 任务 app deployer 将应用程序部署到 WL Server v5 0 5 这是我使用的简单构建文件
Pandas - 将内存中作为字符串存储的csv读取到数据帧

将逗号分隔的文本存储在如下所示的 var 中 data Class Name Long Lat A ABC11 139 6295542 35 61144069 A ABC20 139 630596 35 61045559 A ABC03 1
Pandas 层次排序

我有一个类别和金额的数据框可以使用冒号分隔的字符串将类别无限嵌套到子类别中我希望按金额降序排序但以分层类型的方式如图所示我需要如何排序 CATEGORY AMOUNT Transport 5000 Transport Car 490

Pandas 层次排序

Pandas 层次排序 的相关文章

随机推荐

热门标签

Pandas 层次排序的相关文章