如何按分层类别结构中的值对 pandas 中的数据框进行排序

2024-05-06

我有一个 pandas 数据框。

pd.DataFrame({
    "category": ["Transport", "Transport : Car", "Transport : Train", "Household", "Household : Utilities", "Household : Utilities : Water", "Household : Utilities : Electric", "Household : Cleaning", "Household : Cleaning : Bathroom", "Household : Cleaning : Kitchen", "Household : Rent", "Living", "Living : Other", "Living : Food", "Living : Something", "Living : Anitsomething"],
    "amount": [5000, 4900, 100, 1100, 600, 400, 200, 100, 75, 25, 400, 250, 150, 100, 1000, -1000]
})

类别和子类别用冒号分隔。

我试图按数量（绝对值）降序对这个数据框进行排序。同时尊重等级分组。 IE。排序结果应该是这样的

Transport                           5000
Transport : Car                     4900
Transport : Train                   100
Household                           1600
Household : Utilities               600
Household : Utilities : Water       400
Household : Utilities : Electric    200
Household : Rent                    400
Living                              250
Living : Something                  1000
Living : Antisomething              -1000
Living : Other                      150
Living : Food                       100

我可以以极其低效的方式递归地执行此操作。超级慢但是有效。

def sort_hierachical(self, full_df, name_column, sort_column, parent="", level=0):
    result_df = pd.DataFrame(columns=full_df.columns)
    part_df = full_df.loc[(full_df[name_column].str.count(':') == level) & (full_df[name_column].str.startswith(parent)), :]
    part_df['abs'] = part_df[sort_column].abs()
    part_df = part_df.sort_values('abs', ascending=False)
    for _, row in part_df.iterrows():
        category = row[name_column]
        row_df = pd.DataFrame(columns = full_df.columns).append(row)
        child_rows = self.sort_hierachical(full_df, name_column, sort_column, category, level+1)
        if not child_rows.empty:
            result_df = pd.concat([result_df, row_df], sort=False)
            result_df = pd.concat([result_df, child_rows], sort=False)
        else:
            result_df = pd.concat([result_df, row_df], sort=False)
    return result_df

df = self.sort_hierachical(df, "category", "amount")

我的问题：是否有一种很好的高性能方法可以在 pandas 中完成这样的事情。某种分组排序或多索引技巧？

能够解决这个具有挑战性的问题的人将会获得好报:)

Edit:

这几乎有效...但是 -1000, 1000 搞乱了排序顺序。

def _sort_tree_df(self, df, tree_column, sort_column):
    sort_key = sort_column + '_abs'
    df[sort_key] = df[sort_column].abs()
    df.index = pd.MultiIndex.from_frame(df[tree_column].str.split(":").apply(lambda x: [y.strip() for y in x]).apply(pd.Series))
    sort_columns = [df[tree_column].values]
    sort_columns.append(df[sort_key].values)
    for x in range(df.index.nlevels, 0, -1):
        group_lvl = list(range(0, x))
        sort_columns.append(df.groupby(level=group_lvl)[sort_key].transform('max').values)
    sort_indexes = np.lexsort(sort_columns)
    df_sorted = df.iloc[sort_indexes[::-1]]
    df_sorted.reset_index(drop=True, inplace=True)
    df_sorted = df_sorted.drop(sort_key, axis=1)
    return df_sorted

Edit2:

好吧，我想我已经成功了。我仍然很困惑 lexsort 是如何工作的。我通过受过教育的反复试验完成了这项工作。如果你明白的话请随时解释一下。也欢迎发布更好的方法。

def _sort_tree_df(self, df, tree_column, sort_column, delimeter=':'):
    df.index = pd.MultiIndex.from_frame(df[tree_column].str.split(delimeter).apply(lambda x: [y.strip() for y in x]).apply(pd.Series))
    sort_columns = [df[tree_column].values]
    sort_columns.append(df[sort_column].abs().values)
    for x in range(df.index.nlevels, 0, -1):
        group_lvl = list(range(0, x))
        sort_columns.append(df.groupby(level=group_lvl)[sort_column].transform('sum').abs().values)
    sort_indexes = np.lexsort(sort_columns)
    df_sorted = df.iloc[sort_indexes[::-1]]
    df_sorted.reset_index(drop=True, inplace=True)
    return df_sorted

Edit3: 实际上这并不总是正确排序:(

Edit4问题是我需要一种方法来使变换（'sum'）仅适用于 level = x-1 的项目

即类似：

df['level'] = df[tree_column].str.count(':')

sorting_by = df.groupby(level=group_lvl)[sort_column].transform('sum' if 'level' = x-1).abs().values

sorting_by = df.groupby(level=group_lvl).loc['level' = x-1: sort_column].transform('sum').abs().values

两者均无效

有人知道如何在多索引 df 上进行这样的条件转换吗？

我不确定我是否完全理解这个问题，但我认为您应该将列拆分为子类别，然后根据您想要的层次结构进行值排序。像下面这样的东西可能会完成这项工作。

使用以下命令创建新列：

for _, row in df.iterrows():
    for item, col in zip(row.category.split(':'), ['cat', 'sub_cat', 'sub_sub_cat']):
        df.loc[_, col] = item

然后对它们进行排序

df.sort_values(['cat', 'sub_cat', 'sub_sub_cat', 'amount'])

category    amount  cat     sub_cat     sub_sub_cat
3   Household   1100    Household   NaN     NaN
7   Household : Cleaning    100     Household   Cleaning    NaN
8   Household : Cleaning : Bathroom     75  Household   Cleaning    Bathroom
9   Household : Cleaning : Kitchen  25  Household   Cleaning    Kitchen
10  Household : Rent    400     Household   Rent    NaN
4   Household : Utilities   600     Household   Utilities   NaN
6   Household : Utilities : Electric    200     Household   Utilities   Electric
5   Household : Utilities : Water   400     Household   Utilities   Water
11  Living  250     Living  NaN     NaN
15  Living : Anitsomething  -1000   Living  Anitsomething   NaN
13  Living : Food   100     Living  Food    NaN
12  Living : Other  150     Living  Other   NaN
14  Living : Something  1000    Living  Something   NaN
0   Transport   5000    Transport   NaN     NaN
1   Transport : Car     4900    Transport   Car     NaN
2   Transport : Train   100     Transport   Train   Na

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Sorting

Hierarchy

如何按分层类别结构中的值对 pandas 中的数据框进行排序的相关文章

Python 如果 kwargs 中的 key 并且 key 为 true

if force in kwargs and kwargs force is True 感觉应该有更好的方法来编写这个条件因为我重复了键和变量假设您确实想检查返回的关键字参数是否is True 这是另一种稍微不同的方式 if kwarg
如何逐行替换（更新）文件中的文本

我试图通过读取每一行测试它然后写入是否需要更新来替换文本文件中的文本我不想保存为新文件因为我的脚本已经先备份文件并对备份进行操作这是我到目前为止所拥有的我从 os walk 获取路径并且保证 pathmatch var 正确返
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
Python服务器“通常只允许每个套接字地址使用一次”

我正在尝试用 python 创建一个非常基本的服务器它侦听端口当客户端尝试连接时创建 TCP 连接接收数据发回某些内容然后再次侦听并无限期地重复该过程这是我到目前为止所拥有的 from socket import server
桨在移动时留下痕迹（Pygame Pong 游戏）[重复]

这个问题在这里已经有答案了我的游戏中的球拍有问题每次我试图移动它时桨都会留下一条痕迹我想这是因为我的代码没有删除旧位置的前一个桨如果是的话怎么删除之前的呢我应该使用blit Code import pygame sys ran
Python textwrap.wrap 导致 \n 问题

所以我只是重新格式化了一堆代码以合并textwrap wrap 却发现我所有的 n都消失了这是一个例子 from textwrap import wrap def wrapAndPrint msg width 25 wrap msg to
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
在Python中从整个图像中检测表格部分

我有一张尺寸为 3500x5000 的图像现在我只想检测整个图像中的表格部分如果不能直接进行 OCR 处理则对其进行裁剪和旋转经过所有搜索后我想到了使用裁剪图像中的每个单元格的想法https medium com coinmonk
即使使用标头和 Session 对象，Python requests.get 也会失败并出现 403 禁止

我正在发出 GET 请求来获取 JSON 它在任何设备上的任何浏览器中都可以正常工作但不能通过 python 请求 url https angel co autocomplete new tags params query sci tag
Python 柯里化任意数量的变量

我正在尝试使用柯里化在 Python 中进行简单的函数添加我找到了这个咖喱装饰器here https gist github com JulienPalard 021f1c7332507d6a494b def curry func def
如何使 cx-oracle 将查询结果绑定到字典而不是元组？

这是我的代码我想找到一种方法将查询结果作为字典列表而不是元组列表返回看起来 cx oracle 通过部分文档讨论绑定来支持这一点虽然我不知道它是如何工作的 def connect dsn cx Oracle makedsn hos
无法从源 pylance 解析导入烧瓶

我正在学习 Python 课程的一部分是使用 Flask 设置网络服务器我按照 Flask 安装文档执行了步骤由于某种原因 flask 模块带有下划线如下所示当我将鼠标悬停时我会得到如下附加信息无法从源 pylance 解析导入
如何在Python中仅列出顶级目录？

我希望能够仅列出某个文件夹内的目录这意味着我不需要列出文件名也不需要其他子文件夹让我们看看一个例子是否有帮助在当前目录中我们有 gt gt gt os listdir os getcwd cx Oracle doc DLLs Doc
在 python 中，VSCode 调试器不会单步执行外部代码。无法弄清楚如何编辑 launch.json 中的“justMyCode”

我一直在提到https code visualstudio com docs python debugging justmycode https code visualstudio com docs python debugging jus
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
PyQt 和 QSignalMapper/lambdas - 多个信号，单槽

我在 PyQt 的菜单上有一个操作列表每个操作对应我想要显示的每个不同的提要所以我有一个 Y 将活动源设置为 Y Z 将其设置为 Z 等等对于网络漫画阅读程序我的菜单上都有并且觉得自动化方法可能更好而不是每次都打字类似于将其添
Django 表单中的只读字段

如何在 Django 表单中将字段设置为只读我知道如何禁用某个字段但这不是我想要的任何帮助将不胜感激您可以使用可选的attrs定义时的参数Field 以机智 somefield forms CharField widget for
Pandas 将时间序列数据重新采样为 15 分钟和 45 分钟 - 使用多索引或列

我有一些时间序列数据作为 Pandas 数据框它从每小时过去 15 分钟和过去 45 分钟时间间隔为 30 分钟的观察开始然后将频率更改为每分钟我想对数据进行重新采样以便整个数据帧的频率为每 30 分钟一次 15 点和 45 点

随机推荐

捕获 CommandOnCooldown 错误

我正在制作一个有冷却时间的不和谐机器人并且我正在尝试制作一个事件当CommandOnCooldown发生错误时机器人会通过私信告诉他们需要等待多长时间这是我的代码看起来一切正常但它不知道 retry after 意味着什么 bo
在 matplotlib 中添加新的导航模式

我正在编写一个 wx matplotlib 应用程序并且在向 matplotlib 导航工具栏添加新工具时遇到相当大的困难基本上我想添加选择工具选取框套索等以切换受控子图的鼠标模式到目前为止我还没有找到任何功能可以让我轻松地做
在 python 中将数组作为参数传递

我是Python新手现在我需要声明大小为 20 的数组并将该数组传递给函数需要数组的函数如下 function args The args是一个输入function 谁能帮我如何在 python 中传递数组当你说数组时我假设你
如何在不更改设置的情况下不区分大小写排序

我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri
使用 GitHub 时防止将大文本文件添加到提交

我们想要防止非常大的文本文件每个文件 gt 50MB 被提交到git代替git lfs 因为它们夸大了 git 历史问题是其中 99 大小差异的原因这些是 YAML 文件它们支持通过 Base64 编码进行二进制序列化我们无法
在基于 AngularJS 的 Web 应用程序中使用 Selenium

我逐渐知道 Selenium 是 UI 测试之父现在我的问题是为什么 Angular 团队开发了 Protractor 对于基于 AngularJS 的 Web 应用程序 Selenium 不能完成同样的工作 Protractor 所做的
iOS 中的自动旋转崩溃

当我更改设备方向时我正在使用的应用程序出现异常终止崩溃我无法经常重现它当我旋转时它并不总是发生假设机会约为 0 01 但这是一个严重的问题我附上崩溃报告的重要部分 Exception Type EXC BAD ACCESS S
while 循环无法访问代码

当我编译这段代码时 public static void main String args int x 0 while false System out println hello 它显示编译时错误无法访问代码但是当我将这段代码修改为 p
枚举字段的自定义排序顺序

是否可以将 JPA 中的字母排序更改为自定义排序我在列中有这些数据division BRONZE SILVER GOLD DIAMOND 我已将其映射到实体字段 public enum Division BRONZE SILVER GOL
Kubernetes 集群自动缩放器似乎不适用于 GKE？

我定义了一个节点池最小实例设置为 1 最大实例设置为 5 并启用了自动缩放但它似乎并没有缩小规模我已经封锁了一个节点已经过去12个多小时了没有待处理的 Pod 删除节点不会减少我自己的部署的副本数量相关节点上运行以下 pod f
Three.js 对象的“中心”是什么？

当我使用 Blender 对对象进行建模时我能够明确定义其发生平移和旋转的中心位置当使用 Three js 对象时我似乎没有找到等效的对象 Three js 对象是否具有定义其中心位置的属性如果不是物体的中心是如何确定的在
NestJs：如何使 Body 输入形状与实体的 DTO 不同？

我的照片和标签对象有 DTO 如下所示 export class PhotoDto readonly title string readonly file string readonly tags TagDto export class T
Qt 信号槽，新符号中的转换类型[重复]

这个问题在这里已经有答案了鉴于以下两个 connect ui gt comboBox SIGNAL activated QString ps SLOT requestPlotsAvailable QString connect ui gt
如何在 QTableWidget 的行和列中自动换行文本？

I tried QTableWidget j new QTableWidget 10000 5 centralWidget j gt setColumnWidth 0 500 j gt setColumnWidth 1 30 j gt se
Laravel 模型、构建器和集合之间的区别

我在 Laravel 文档上发现了这个代码片段 Retrieve a model by its primary key flight App Flight find 1 Retrieve the first model matching t
gradle 构建工具版本从 1.2.3 升级到 1.3.1 的问题

我已将 gradle 构建工具从 1 2 3 升级到 1 3 1 并开始在 gradle 同步上看到以下错误我使用 1 2 3 版本没有任何问题我使用的是 gradleVersion 2 3 无论如何我可以避免这个错误吗错误您的项目
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
具有内部赋值延迟的阻塞和非阻塞语句之间的区别

以下 2 个 verilog 代码片段有什么区别 1 always in out 5 in AND 2 always in out lt 5 in 考虑到always块中不存在其他行输出会有什么不同吗问题参考幻灯片 16 参见 o5 和
ThemeInfo 属性有什么用？

每当我创建新的 WPF 应用程序或 WPF 用户控件库时 AssemblyInfo cs文件包含以下属性 assembly ThemeInfo ResourceDictionaryLocation None where theme spec
如何按分层类别结构中的值对 pandas 中的数据框进行排序

我有一个 pandas 数据框 pd DataFrame category Transport Transport Car Transport Train Household Household Utilities Household Ut

如何按分层类别结构中的值对 pandas 中的数据框进行排序

如何按分层类别结构中的值对 pandas 中的数据框进行排序 的相关文章

随机推荐

热门标签

如何按分层类别结构中的值对 pandas 中的数据框进行排序的相关文章