Pandas - 根据多列进行分组并在组内排名

2023-12-02

我有一个像这样的数据框：

df = pd.DataFrame({'asset_id': [10,10, 10, 20, 20, 20], 'method_id': ['p2','p3','p4', 'p3', 'p1', 'p2'], 'method_rank': [5, 2, 2, 2, 5, 1], 'conf_score': [0.8, 0.6, 0.8, 0.9, 0.7, 0.5]} , columns= ['asset_id', 'method_id','method_rank', 'conf_score'])

它看起来像这样：

   asset_id method_id  method_rank  conf_score
0    10        p2          5         0.8
1    10        p3          2         0.6
2    10        p4          2         0.8
3    20        p3          2         0.9
4    20        p1          5         0.7
5    20        p2          1         0.5

我想按资产 id 对行进行分组，然后根据method_rank上升和conf_score下降。

IE。我希望结果看起来像这样：

  asset_id method_id  method_rank  conf_score  overall_rank
5    20        p2         1           0.5          1.0
3    20        p3         2           0.9          2.0
2    10        p4         2           0.8          1.0
1    10        p3         2           0.6          2.0
0    10        p2         5           0.8          3.0
4    20        p1         5           0.7          3.0

如何使用 pandas 中的分组依据和排名来做到这一点？看起来在 pandas 中你只能基于一列来完成，就像

df["overall_rank"] = df.groupby('asset_id')['method_rank'].rank("first")

但我想实现类似的目标

df["overall_rank"] = df.groupby('asset_id')[['method_rank', 'conf_score']].rank("first", ascending = [True, False])

我该怎么做呢？我知道一个 hacky 方法是首先使用sort_values在整个数据帧上然后做groupby，但是当我只想对每个组中的几行进行排序时，对整个数据帧的行进行排序似乎太昂贵了。

method1:

df.sort_values(['asset_id', 'method_rank', 'conf_score'], ascending=[True, True, False], inplace=True)
df['overall_rank'] = 1
df['overall_rank'] = df.groupby(['asset_id'])['overall_rank'].cumsum()

   asset_id method_id  method_rank  conf_score  overall_rank
2        10        p4            2         0.8             1
1        10        p3            2         0.6             2
0        10        p2            5         0.8             3
5        20        p2            1         0.5             1
3        20        p3            2         0.9             2
4        20        p1            5         0.7             3

method2:

定义一个函数对每个组进行排序：

def handle_group(group):
    group.sort_values(['method_rank', 'conf_score'], ascending=[True, False], inplace=True)
    group['overall_rank'] = np.arange(1, len(group)+1)
    return group

df.groupby('asset_id', as_index=False).apply(handle_group)

性能测试：

def run1(df):
    df = df.sort_values(['asset_id', 'method_rank', 'conf_score'], ascending=[True, True, False])
    df['overall_rank'] = 1
    df['overall_rank'] = df.groupby(['asset_id'])['overall_rank'].cumsum()    
    return df

def handle_group(group):
    group.sort_values(['method_rank', 'conf_score'], ascending=[True, False], inplace=True)
    group['overall_rank'] = np.arange(1, len(group)+1)
    return group

def run2(df):
    df = df.groupby('asset_id', as_index=False).apply(handle_group)
    return df

dfn = pd.concat([df]*10000, ignore_index=True)

%%timeit
df1 = run1(dfn)
# 8.61 ms ± 317 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


%%timeit
df2 = run2(dfn).droplevel(0)
# 31.6 ms ± 404 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas - 根据多列进行分组并在组内排名的相关文章

如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
如何将数据从 JavaScript 发送到 Python

我正在 jinja2 和 python2 7 上使用 GAE 进行 Web 开发我可以从Python获取数据但我无法将数据从 JavaScript 发送到 Python 这是 JavaScript 代码 function toSave
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
在解析器/子解析器的开头使用 argparse.REMAINDER

我想实现一个 arg 解析器它允许我将单元测试作为子命令之一运行盲目地将参数传递给 unittest main 例如 foo py unittest args to pass to unittest main 以及其他子命令 foo p
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
内置模块位于哪里？

我尝试查找列出的所有目录sys path但我找不到任何builtins py文件那么它在哪里呢从字面上看该模块内置于 python 解释器中 gt gt gt import builtins gt gt gt builtins
`numpy.diff` 和 `scipy.fftpack.diff` 在微分时给出不同的结果

我正在尝试计算一些数据的导数并且正在尝试比较有限差分的输出和谱方法的输出但结果却截然不同我无法弄清楚到底为什么考虑下面的示例代码 import numpy as np from scipy import fftpack as sp
重写 __cmp__ python 函数

嗨我是压倒一切的 cmp 如果传递的第二个对象是None 或者如果它不是一个实例someClass 然后返回 1 我不明白这里到底发生了什么 class someClass def cmp self obj if obj None ret
Pandas：数据帧累积和，如果其他列为假则重置[重复]

这个问题在这里已经有答案了我有一个包含 2 列的数据框这里的目标很简单如果行列设置为 False 则重置 df cumsum df value condition 0 1 1 1 2 1 2 3 1 3 4 0 4 5 1 想要的结果

随机推荐

getSystemService(Context.AUDIO_SERVICE) 上的异常

我想创建一个应用程序根据某些设置来挂断来电这在 Android 1 6 上似乎是不可能的因此我决定编写一个应用程序在通话中断时将铃声更改为静音问题是当我调用 getSystemService Context AUDIO SER
旋转多部分对象

我创建了一个对象它有大约 7 个以上的部分包括它的主体和在不同位置附着到它的较小部分我的目标是旋转整个对象我试着简单地打电话glRotatef angle 0 1 0 在构造整个对象之前但我意识到这似乎围绕原点旋转一切无论
尝试运行 Qt 应用程序时 LD_LIBRARY_PATH 失败

我想在 Linux 上使用动态库运行基于 Qt 5 的应用程序总之脚本将复制可执行文件和其他相关文件包括 a 中所有必需的 solib文件夹到所需的目的地和脚本调用gksudo将作为应用程序的调用者到目前为止一切正常直到我调用
如何设置 QT Creator 以使用 Autodesk FBX SDK 作为库？

QMesh 的 Qt 文档位于以下链接 https doc qt io qt 5 11 qt3drender qmesh html 表明使用 Autodesk FBX SDK 时 QMesh 支持 FBX 它没有提供有关如何进行设置的资源
尝试从 MATLAB R2014b 加载 Python 时出现“未定义的变量“py”或类”？

def c1 a1 b1 a1 2 b1 3 cc a1 b1 return cc 我已将此功能保存在test py 当我在MATLAB中使用这个函数时我遇到了这个问题 import py test c1 2 3 Undefined fu
执行 INSERT INTO 语句时出现语法错误

我输入的是正确的dataSource但它并没有解决我无法解决的问题cmd ExecuteNonQuery 说 INSERT INTO 语句中存在语法错误 Code Private Sub btnadd1 Click ByVal sender
使用 JS 循环遍历映射列表以过滤映射键值

如何使用JS循环遍历地图列表以从下面具有记录地图的列表中过滤出SearchMap键值 Map var searchMap new Map searchMap set ed mood strong searchMap set ed targe
如何重新安装 cpan-autobundle

我目前正在处理备份而不是备份整个磁盘对我来说备份系统配置会更有效因此对于 perl 部分的内容我希望有一种方法来列出已安装的模块并在需要时重新安装这些模块 I read 如何获取已安装的 CPAN 模块的列表关于如何获取列表
如何使用Sceneform、ARCore绘制多边形？

假设我有来自 ArFragment 命中结果的三个锚点锚点anchor hitResult createAnchor 如何使用 Sceneform 绘制三角形并应用自定义纹理第一步是创建一个列表AnchorNodes 能够获取坐标Anc
无尖点且无自交的 Catmull-rom 曲线

我有以下代码来计算四个控制点之间的点以生成 catmull rom 曲线 CGPoint interpolatedPosition CGPoint p0 CGPoint p1 CGPoint p2 CGPoint p3 float t fl
swift 2 中引入的可选模式有哪些优点/用例？

对于像这样的简单情况if let or guard没看出优点啊 if case let x someOptional where I don t see the advantage over the original if let if l
读取嵌入的 XML 文件 C#

如何读取嵌入的 XML 文件属于 C 项目一部分的 XML 文件我已将 XML 文件添加到我的项目中并且我想从中读取内容我希望 XML 文件与项目一起编译因为我不希望它将成为用户可以看到的资源任何想法确保 XML 文件是 cs
Python，安装 clarifai --> VS14.0 link.exe 失败，退出状态 1158

我已经全新安装了 Python 3 6 Selenium 现在想要安装 Clarifai 2 0 21 以下命令失败 python m pip install clarifai 2 0 21 起初它要求 VC 14 0 但我有 14 1 使
根据每个数组中的单个值对 PHP 数组元素进行分组 [重复]

这个问题在这里已经有答案了我目前有一个数组如下所示 Array 0 gt Array id gt 1 name gt Test 1 age gt 42 another id gt 5 1 gt Array id gt 2 name gt
BindingResult 和普通目标对象都不是...异常

是的我读到这是一个很常见的问题但阅读这些帖子并没有真正帮助我 The 短篇故事我想在 showAllComments jsp 上提交表单
Firefox 11 和 GeoLocation 拒绝回调

Firefox 10 x 一切正常但升级到 Firefox 11 后出现了问题 I use navigator geolocation getCurrentPosition success failure 但在 FF11 中当用户通过选
我的用于解决 3 壶水难题的序言程序有什么问题？

任何人都可以找到为什么我在这段代码中无法通过 go 得到任何真正的答案吗例如我写go 7 3 l 我认为它应该将 3 升水转移到第二个水罐中但根据序言这是错误的怎么了 dynamic go 3 dynamic cur state
为什么在 C++ 中字符串文字中的反斜杠必须转义？

我想为两种语言声明相同的正则表达式模式对于TCL我这样做 set pattern d s S 但对于 C 我必须对相同的模式执行此操作 boost regex pattern d s S 否则 C 编译器会告诉我们以下信息 warning
如何加载 JAR 外部但相对于 JAR 的文件？

我需要加载 JAR 之外的文件但相对于它 lib config config ini准确地说我使用了那个确切的路径只要工作目录是 JAR 所在的位置它就可以正常工作即 path to jar java jar JAR jar 如果
Pandas - 根据多列进行分组并在组内排名

我有一个像这样的数据框 df pd DataFrame asset id 10 10 10 20 20 20 method id p2 p3 p4 p3 p1 p2 method rank 5 2 2 2 5 1 conf score 0

Pandas - 根据多列进行分组并在组内排名

Pandas - 根据多列进行分组并在组内排名 的相关文章

随机推荐

热门标签

Pandas - 根据多列进行分组并在组内排名的相关文章