对列进行排序并选择每组 pandas 数据框中的前 n 行

2023-12-14

我有一个像这样的数据框：

mainid  pidx    pidy   score
  1      a        b      2
  1      a        c      5
  1      c        a      7
  1      c        b      2
  1      a        e      8
  2      x        y      1
  2      y        z      3
  2      z        y      5
  2      x        w      12
  2      x        v      1
  2      y        x      6

我想要groupby在列上'pidx'然后排序score在每组中按降序排列，即对于每个pidx

进而select head(2)即每组的前 2 名。

我正在寻找的结果是这样的：

mainid   pidx    pidy    score
  1        a      e        8
  1        a      c        5
  1        c      a        7
  1        c      b        2
  2        x      w        12
  2        x      y        1
  2        y      x        6
  2        y      z        3
  2        z      y        5

我尝试的是：

df.sort(['pidx','score'],ascending = False).groupby('pidx').head(2)

这似乎有效，但我不知道如果处理巨大的数据集，这是否是正确的方法。我还可以使用什么其他最佳方法来获得这样的结果？

有2种解决方案：

1.sort_values并聚合head:

df1 = df.sort_values('score',ascending = False).groupby('pidx').head(2)
print (df1)

    mainid pidx pidy  score
8        2    x    w     12
4        1    a    e      8
2        1    c    a      7
10       2    y    x      6
1        1    a    c      5
7        2    z    y      5
6        2    y    z      3
3        1    c    b      2
5        2    x    y      1

2.set_index并聚合nlargest:

df = df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index() 
print (df)
  pidx  mainid pidy  score
0    a       1    e      8
1    a       1    c      5
2    c       1    a      7
3    c       1    b      2
4    x       2    w     12
5    x       2    y      1
6    y       2    x      6
7    y       2    z      3
8    z       2    y      5

Timings:

np.random.seed(123)
N = 1000000

L1 = list('abcdefghijklmnopqrstu')
L2 = list('efghijklmnopqrstuvwxyz')
df = pd.DataFrame({'mainid':np.random.randint(1000, size=N),
                   'pidx': np.random.randint(10000, size=N),
                   'pidy': np.random.choice(L2, N),
                   'score':np.random.randint(1000, size=N)})
#print (df)

def epat(df):
    grouped = df.groupby('pidx')
    new_df = pd.DataFrame([], columns = df.columns)
    for key, values in grouped:
        new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)
    return (new_df)

print (epat(df))

In [133]: %timeit (df.sort_values('score',ascending = False).groupby('pidx').head(2))
1 loop, best of 3: 309 ms per loop

In [134]: %timeit (df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index())
1 loop, best of 3: 7.11 s per loop

In [147]: %timeit (epat(df))
1 loop, best of 3: 22 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby

greatestnpergroup

对列进行排序并选择每组 pandas 数据框中的前 n 行的相关文章

sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
检查多维 numpy 数组的所有边是否都是零数组

n 维数组有 2n 个边 1 维数组有 2 个端点 2 维数组有 4 个边或边 3 维数组有 6 个 2 维面 4 维数组有 8 个边 ETC 这类似于抽象 n 维立方体发生的情况我想检查 n 维数组的所有边是否仅由零组成以下是边由零组
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
如何将 pip 指向 Mercurial 分支？

我正在尝试通过 pip 将我的应用程序安装到 virtualenv 进行测试安装时效果很好default or tip像这样 pip install e hg https email protected cdn cgi l email p
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
Learning_rate 不是合法参数

我正在尝试通过实现 GridSearchCV 来测试我的模型但我似乎无法在 GridSearch 中添加学习率和动量作为参数每当我尝试通过添加这些代码来执行代码时我都会收到错误这是我创建的模型 def define model op
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees

随机推荐

Java：在运行时检查类是否存在[重复]

这个问题在这里已经有答案了我正在开发一个依赖于第三方库的软件由于许可协议该库无法与软件一起提供并且用户在启动程序时必须在本地拥有该库有没有办法检查这个特定的库是否存在于类路径中并且可以加载如果没有我想提供一个对话框以允许用户指
如何在 SQL Server 2008 中删除重复行？

如何删除 SQL Server 2008 中的重复行最简单的方法是使用 CTE 公用表表达式当我有原始数据要导入时我会使用这种方法我清理它的第一件事是确保没有重复我对每一行都有某种唯一的句柄 Summary WITH number
如何将多个提交合并到另一个分支作为单个压缩提交？

我有一个远程 Git 服务器这是我想要执行的场景对于每个错误功能我创建一个不同的 Git 分支我继续使用非官方 Git 消息在该 Git 分支中提交代码在顶级存储库中我们必须使用官方 Git 消息针对一个错误进行一次提交那么
为什么 try except 块在 python 3.7 的 Visual Studio 代码中不起作用？

实现 try except 块时 VS Code 无法识别指定的异常或与此相关的任何异常前任 try x 1 0 except ZeroDivisionError print You cannot divide by zero 通过终端执
从 contenteditable 填充并保存文本

我正要开始写自己的富文本编辑器但需要知道是否可以填充文本区域以及如何保存使用其中的数据我目前正在使用 CKEditor 但它对于我想要的东西来说太笨重和太大我将以此为基础 http jsfiddle net Kxmaf 6 我还需要对
如何在自定义验证规则的 pass 函数中发送多个参数

我正在实现一个自定义验证规则该规则应该在自定义验证规则的传递函数中采用另一个带有属性和值的参数当我们在编写自定义验证时实现 Rule 接口时它不允许我们在 pass 函数中添加第三个参数但我需要第三个参数此外如果有人能够指导我在
PLS-00428：此 SELECT 语句中需要 INTO 子句

我想将 Rownum 存储为变量而不是使用昂贵的 Join 我需要从 Select 语句中获取此值因为 Rownum 在不同环境中会有所不同因此它不能是代码中的文字字符串对于上下文此查询在 Oracle Siebel CRM 模式
为什么不起作用？

我使用JSF 2 0 hibernate validator4 2 jarvalidation api jar tomcat和Eclipse I put Size min 3 message xxx ManagedBean 中的注释和
构造类对象后执行代码

我希望通过让每个子类在父类保存的列表中注册自己来创建给定类的所有子类的列表即如下所示 class Monster object monsters list class Lochness Monster Monster monsters a
如何使用knitr在代码块内的子图之间插入分页符

我有以下 R arkdown 代码 output pdf document default keep tex yes header includes usepackage subfig r setup include FALSE knitr
Lambda 不将消息放入 dlq

我只是想测试 Lambda 的 DLQ 但我不明白为什么消息没有放在上面我的代码只做了一件事throw new Exception Test 第一个错误是可以理解的我试图使用按钮同步执行此操作Test 之后我设置Kinesis并开始在其
具有多个数组的 Foreach 循环[重复]

这个问题在这里已经有答案了这就是我要的 foreach POST something as something foreach POST example as example query mysql query INSERT INTO t
如何用php组合两个具有相同索引和值的数组？ [复制]

这个问题在这里已经有答案了我有 2 个数组如下所示 array1 0 gt no invoice gt INV0001 product code gt 1111111 1 gt no invoice gt INV0001 product
按父组和子项对父子记录进行排序

我需要按特定的两个相关列对查询结果进行排序我的桌子是 Row no Col 1 Col 2 Col 3 Col 4 1 1 X 1 5 2 2 Y 1 6 3 5 Z 2 7 4 6 T 2 0 5 7 T 3 0 6 6 W 2 0 中
寻找 snprintf() 的 C 源代码

我需要将 snprintf 移植到另一个不完全支持 GLibC 的平台我正在 Glibc 2 14 源代码中寻找底层声明我跟踪了许多函数调用但卡在了 vfprintf 上然后它似乎调用 IO vfprintf 但我找不到定义宏可能
具有当前用户 ID 的角色分配

我使用 Azure AD 应用程序注册原则通过 Azure 资源管理器部署资源以通过管道进行部署在部署过程中我需要为部署用户设置一些权限以确保它有足够的权限例如上传文件由于我使用不同的原则并且我没有在代码中管理这些原则因此我
Visual Studio 2008 安装程序，自定义操作。断点未触发

我有一个带有自定义操作项目的安装程序我希望该操作在安装时触发当我向事件日志写入内容时该操作会触发它运行得很好但我确实需要调试该文件因为操作非常复杂所以我有以下安装程序类 namespace InstallerActions u
使用 xpath 获取节点的第 N 个子节点

我的示例输入 XML 是
如何用编译时泛型验证替换运行时instanceof检查

对于真正的 Java 泛型专家来说有一个小难题假设我有以下两个接口 interface Processor void process Foo foo interface Foo Processor getProcessor 例如以下两
对列进行排序并选择每组 pandas 数据框中的前 n 行

我有一个像这样的数据框 mainid pidx pidy score 1 a b 2 1 a c 5 1 c a 7 1 c b 2 1 a e 8 2 x y 1 2 y z 3 2 z y 5 2 x w 12 2 x v 1 2 y

对列进行排序并选择每组 pandas 数据框中的前 n 行

对列进行排序并选择每组 pandas 数据框中的前 n 行 的相关文章

随机推荐

热门标签

对列进行排序并选择每组 pandas 数据框中的前 n 行的相关文章