选择每组的最大行 - pandas 性能问题

2024-02-15

我正在为每组选择一个最大行，并且我正在使用groupby/agg返回索引值并使用选择行loc.

例如，分组依据"Id"然后选择最高的行"delta" value:

selected_idx = df.groupby("Id").apply(lambda df: df.delta.argmax())
selected_rows = df.loc[selected_idx, :]

然而，这样的速度实在是太慢了。实际上，当我在 1300 万行上使用此查询时，我的 i7/16G RAM 笔记本电脑挂起。

我有两个问题请教专家：

如何让这个查询在 pandas 中快速运行？我究竟做错了什么？
为什么这个手术这么贵？

[更新] 非常感谢@unutbu 的分析！sort_drop这是！在我的 i7/32GRAM 机器上，groupby+idxmax 挂起近 14 小时（从不返回任何东西）sort_drop不到一分钟就处理好了！

我仍然需要看看 pandas 如何实现每个方法，但问题现在已经解决了！我喜欢 StackOverflow。

最快的选项不仅取决于 DataFrame 的长度（在本例中约为 13M 行），还取决于组的数量。下面的性能图比较了寻找每组最大值的多种方法：

If there an only a few (large) groups, using_idxmax may be the fastest option:

If there are many (small) groups and the DataFrame is not too large, using_sort_drop may be the fastest option:

但请记住，虽然using_sort_drop, using_sort and using_rank开始看起来很快，因为N = len(df)增加，它们相对于其他选项的速度很快消失。对于足够大的N, using_idxmax成为最快的选择，即使有很多组。

using_sort_drop, using_sort and using_rank对 DataFrame（或 DataFrame 中的组）进行排序。排序是O(N * log(N))平均而言，而其他方法使用O(N)运营。这就是为什么像这样的方法using_idxmax beats using_sort_drop对于非常大的数据框。

请注意，基准测试结果可能会因多种原因而有所不同，包括机器规格、操作系统和软件版本。因此，在您自己的机器上运行基准测试并使用适合您情况的测试数据非常重要。

基于上面的性能图，using_sort_drop may be对于 13M 行的 DataFrame，这是一个值得考虑的选项，特别是如果它有许多（小）组。不然我会怀疑using_idxmax成为最快的选择——但同样，检查机器上的基准测试也很重要。

这是我用来制作的设置性能图 https://github.com/nschloe/perfplot:

import numpy as np
import pandas as pd 
import perfplot

def make_df(N):
    # lots of small groups
    df = pd.DataFrame(np.random.randint(N//10+1, size=(N, 2)), columns=['Id','delta'])
    # few large groups
    # df = pd.DataFrame(np.random.randint(10, size=(N, 2)), columns=['Id','delta'])
    return df


def using_idxmax(df):
    return df.loc[df.groupby("Id")['delta'].idxmax()]

def max_mask(s):
    i = np.asarray(s).argmax()
    result = [False]*len(s)
    result[i] = True
    return result

def using_custom_mask(df):
    mask = df.groupby("Id")['delta'].transform(max_mask)
    return df.loc[mask]

def using_isin(df):
    idx = df.groupby("Id")['delta'].idxmax()
    mask = df.index.isin(idx)
    return df.loc[mask]

def using_sort(df):
    df = df.sort_values(by=['delta'], ascending=False, kind='mergesort')
    return df.groupby('Id', as_index=False).first()

def using_rank(df):
    mask = (df.groupby('Id')['delta'].rank(method='first', ascending=False) == 1)
    return df.loc[mask]

def using_sort_drop(df):
    # Thanks to jezrael
    # https://stackoverflow.com/questions/50381064/select-the-max-row-per-group-pandas-performance-issue/50389889?noredirect=1#comment87795818_50389889
    return df.sort_values(by=['delta'], ascending=False, kind='mergesort').drop_duplicates('Id')

def using_apply(df):
    selected_idx = df.groupby("Id").apply(lambda df: df.delta.argmax())
    return df.loc[selected_idx]

def check(df1, df2):
    df1 = df1.sort_values(by=['Id','delta'], kind='mergesort').reset_index(drop=True)
    df2 = df2.sort_values(by=['Id','delta'], kind='mergesort').reset_index(drop=True)
    return df1.equals(df2)

perfplot.show(
    setup=make_df,
    kernels=[using_idxmax, using_custom_mask, using_isin, using_sort, 
             using_rank, using_apply, using_sort_drop],
    n_range=[2**k for k in range(2, 20)],
    logx=True,
    logy=True,
    xlabel='len(df)',
    repeat=75,
    equality_check=check)

另一种基准测试方法是使用IPython %timeit https://stackoverflow.com/a/29280612/190597:

In [55]:  df = make_df(2**20)

In [56]: %timeit using_sort_drop(df)
1 loop, best of 3: 403 ms per loop

In [57]: %timeit using_rank(df)
1 loop, best of 3: 1.04 s per loop

In [58]: %timeit using_idxmax(df)
1 loop, best of 3: 15.8 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

选择每组的最大行 - pandas 性能问题的相关文章

Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col

随机推荐

FloatingActionButton 隐藏在列表滚动上

我正在使用FloatingActionButton来自android support design widget包裹
如何使 jQuery 插件函数可调用以供独立使用，而不对集合进行操作

我读了插件创作的 jquery 文档 http docs jquery com Plugins Authoring我对此很熟悉但是给出的示例始终对一组先前匹配的元素进行操作我想创建一个可以同时执行这两项操作的函数 example us
QGraphicsScene 子类忽略鼠标按下事件

我有一个 UI 和一个实现 mousePressEvent 的 QGraphicsScene 子类 GraphicsScene 但是鼠标单击被忽略 ui gt setupUi this scene new GraphicsScene thi
EF 代码首先批量插入

我需要使用 EF Code First 插入大约 2500 行我原来的代码看起来像这样 foreach var item in listOfItemsToBeAdded biz logic context MyStuff Add i 这花
React Material-UI 列搜索选择

我目前正在使用 Material UI 数据表并且有一个与此类似的搜索例程代码沙盒示例 https codesandbox io s material ui table search demo x3viu file demo tsx 这只
将正则表达式与 p:keyFilter 一起使用

我有一个p inputMask with a p keyFilter来匹配时间HH mm图案如下
使用groupby函数时如何将元素粘合到列表中？

我有一个数据框 df pd DataFrame A foo bar foo bar foo bar foo foo C np asarray 1 2 3 4 5 6 7 8 D np asarray 2 3 4 5 6 7 8 9 A C
带有 Xcode 11 beta 7 的 SwiftUI 未更新 List / ForEach 的内容

我一直在尝试一个简单的功能来将新条目添加到列表中该视图只会添加一个新生成的项目不需要用户输入 struct PeopleList View ObservedObject var people PersonStore var body
在 C++ 中实例化对象的正确方法是什么？

在 C 我使用 QT 中我可以通过两种方式创建 QString 类的实例 method 1 QString str my string method 2 QString str new QString my string 我知道这与指针有
如何根据 elasticsearch >= 5.5 中的术语位置对结果进行排序？

Since index在无痛脚本中不再可用因此过去通过访问术语偏移量来工作的解决方案 index in script score不要再像这里建议的那样工作了按 ElasticSearch 中的术语位置评分 https stackover
使用 fread 读取分隔符长于一个字符的文本文件

有没有办法获取data tablefread读取带有分隔符的文本文件例如我有一个文本文件 2GB 其中的行看起来像 aaa bbb random characters contain single other cols 如果无法使用fr
Shiny：动态 UI - downloadHandler 周围的循环？

我有一个简单的示例 Siny 代码可以正常工作如下它生成几个微小数据帧的列表 server R 中的反应对象 myout 数据帧的数量基于用户的输入 NumRuns 我当前的代码允许用户通过 ui R 中的 downloadButto
在 C 中创建自定义 DNS 名称服务器

需要使用 C 创建一个自定义 DNS 名称服务器它将检查 mysql 数据库以查看客户端 IP 是否需要定向到不同的服务器将其用于测试网络因此只有在启用了真正的查找的情况下对 foo com 的请求才会到达那里否则请求将被定向到开
无法调用“javafx.scene.control.ComboBox.getItems()”，因为“Controller.getMyBox()”的返回值为 null

不知何故我无法从另一个类向我的 ComboBox 变量添加项目因为它总是说变量的值为 null 或其 getter 的返回值为 null 我使用 Scene Builder 构建 Sample fxml 使用控制器作为 Controll
Prestashop 在发送消息时上传文件

我正在尝试在订单详细信息页面添加附加文件的功能有一个消息发送表单我正在尝试在其中实现文件上传我已将其添加到 order detail tpl div class form group div
MFCreateFMPEG4MediaSink 不生成 MSE 兼容的 MP4

我正在尝试将 H 264 视频源流式传输到网络浏览器 Media Foundation 用于编码分段的 MPEG4 流 MFCreateFMPEG4MediaSink with MFTranscodeContainerType FMPEG4
PHP 脚本完成后如何导航到另一个页面？

我有一个简单的 POST 脚本我需要返回到正在发布的页面有什么办法可以做到这样吗 if done go to page if done header Location url to the other page exit
正则表达式查找字符串中所有出现的模式

我在查找字符串中所有出现的模式时遇到问题检查这个字符串 string msg windows 1258 B UkU6IFRyIDogUGxhbiBkZSBjb250aW51aXTpIGQnYWN0aXZpdOkgZGVz windows
如何在 Go 中运行时根据结构的类型创建结构的新实例？

在 Go 中如何在运行时根据对象的类型创建对象的实例我想你还需要得到实际的type也首先是对象我正在尝试进行惰性实例化以节省内存为了做到这一点你需要reflect package main import fmt reflect f
选择每组的最大行 - pandas 性能问题

我正在为每组选择一个最大行并且我正在使用groupby agg返回索引值并使用选择行loc 例如分组依据 Id 然后选择最高的行 delta value selected idx df groupby Id apply lambda d

选择每组的最大行 - pandas 性能问题

选择每组的最大行 - pandas 性能问题 的相关文章

随机推荐

热门标签

选择每组的最大行 - pandas 性能问题的相关文章