python:pandas:如何根据另一列分组查找列中的最大值

2024-03-16

我想根据一列 SERVER 对数据帧进行分组,然后在其他列 JOB_ID 中找到最大值。 DF:

     SERVER   JOB_ID     LOG_FILE                 TIME
0    abc_123      1   1/abc_123/dep2/1/123.log  2019-12-05T05:06:16.346Z
1    abc_123     10  1/abc_123/dep2/10/123.log  2019-12-04T17:05:28.335Z
2    abc_123     11  1/abc_123/dep2/11/123.log  2019-12-04T20:27:03.988Z
3    abc_123     12  1/abc_123/dep2/12/123.log  2019-12-04T20:35:49.039Z
4    abc_123     13  1/abc_123/dep2/13/123.log  2019-12-04T20:42:36.890Z
5    abc_123     14  1/abc_123/dep2/14/123.log  2019-12-04T20:52:01.295Z
6    abc_123     15  1/abc_123/dep2/15/123.log  2019-12-04T20:58:07.132Z
7    abc_123     16  1/abc_123/dep2/16/123.log  2019-12-04T20:59:51.877Z
8    abc_123     17  1/abc_123/dep2/17/123.log  2019-12-04T21:00:23.458Z
9    abc_123     18  1/abc_123/dep2/18/123.log  2019-12-04T21:05:48.047Z
10   abc_123     19  1/abc_123/dep2/19/123.log  2019-12-05T03:10:39.325Z
11   abc_123      2   1/abc_123/dep2/2/123.log  2019-12-04T15:37:41.540Z
12   abc_123     20  1/abc_123/dep2/20/123.log  2019-12-05T04:09:39.221Z
13   abc_123     21  1/abc_123/dep2/21/123.log  2019-12-05T04:14:54.228Z
14   abc_123      3   1/abc_123/dep2/3/123.log  2019-12-04T15:41:38.340Z
15   abc_123      4   1/abc_123/dep2/4/123.log  2019-12-04T15:43:34.277Z
16   abc_123      5   1/abc_123/dep2/5/123.log  2019-12-04T15:56:18.647Z
17   abc_123      6   1/abc_123/dep2/6/123.log  2019-12-04T16:14:23.323Z
18   abc_123      7   1/abc_123/dep2/7/123.log  2019-12-04T16:19:22.126Z
19   abc_123      8   1/abc_123/dep2/8/123.log  2019-12-04T16:32:30.121Z
20   abc_123      9   1/abc_123/dep2/9/123.log  2019-12-04T16:53:54.236Z
21   abc_123      1   1/abc_123/dep_1/1/123.log  2019-11-30T06:20:16.528Z
22   abc_123     10  1/abc_123/dep_1/10/123.log  2019-12-03T07:10:38.320Z
23   abc_123     11  1/abc_123/dep_1/11/123.log  2019-12-03T09:19:33.350Z
24   abc_123     12  1/abc_123/dep_1/12/123.log  2019-12-03T09:51:49.835Z
25   abc_123     13  1/abc_123/dep_1/13/123.log  2019-12-03T10:43:19.727Z
26   abc_123     14  1/abc_123/dep_1/14/123.log  2019-12-04T06:11:52.125Z
27   abc_123     15  1/abc_123/dep_1/15/123.log  2019-12-04T06:33:58.416Z
28   abc_123     16  1/abc_123/dep_1/16/123.log  2019-12-04T06:48:18.057Z
29   abc_123      2   1/abc_123/dep_1/2/123.log  2019-11-30T16:45:13.983Z
30   abc_123      3   1/abc_123/dep_1/3/123.log  2019-11-30T18:19:14.364Z
31   abc_123      4   1/abc_123/dep_1/4/123.log  2019-12-02T08:38:01.766Z
32   abc_123      5   1/abc_123/dep_1/5/123.log  2019-12-02T10:12:45.500Z
33   abc_123      6   1/abc_123/dep_1/6/123.log  2019-12-02T12:04:03.326Z
34   abc_123      7   1/abc_123/dep_1/7/123.log  2019-12-02T15:13:11.312Z
35   abc_123      8   1/abc_123/dep_1/8/123.log  2019-12-03T05:44:47.436Z
36   abc_123      9   1/abc_123/dep_1/9/123.log  2019-12-03T06:16:05.041Z

当我运行下面的代码时

DF_FINAL = DF.groupby(['SERVER']).agg({'JOB_ID':'max'})

低于输出

          SERVER   JOB_ID     LOG_FILE                 TIME
20   abc_123      9   1/abc_123/dep2/9/123.log  2019-12-04T16:53:54.236Z

预期产出

13   abc_123     21  1/abc_123/dep2/21/123.log  2019-12-05T04:14:54.228Z

我参考了这个link https://stackoverflow.com/questions/15705630/get-the-rows-which-have-the-max-value-in-groups-using-groupby。但它没有给我正确的答案。


Column JOB_ID不是数字,而是字符串(dtype 是object),所以需要在解决之前将其转换为数字:

DF.JOB_ID = DF.JOB_ID.astype(int)

如果上面的解决方案不起作用,因为某些非数值使用:

DF.JOB_ID = pd.to_numeric(DF.JOB_ID, errors='coerce')

最后一次使用DataFrameGroupBy.idxmax http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.DataFrameGroupBy.idxmax.html对于索引标签DataFrame.loc http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html:

DF_FINAL = DF.loc[DF.groupby('SERVER')['JOB_ID'].idxmax()]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python:pandas:如何根据另一列分组查找列中的最大值 的相关文章

  • Django 的内联管理:一个“预填充”字段

    我正在开发我的第一个 Django 项目 我希望用户能够在管理中创建自定义表单 并向其中添加字段当他或她需要它们时 为此 我在我的项目中添加了一个可重用的应用程序 可在 github 上找到 https github com stephen
  • 与区域指示符字符类匹配的 python 正则表达式

    我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
  • 元组有什么用?

    我现在正在学习 Python 课程 我们刚刚介绍了元组作为数据类型之一 我阅读了它的维基百科页面 但是 我无法弄清楚这种数据类型在实践中会有什么用处 我可以提供一些需要一组不可变数字的示例吗 也许是在 Python 中 这与列表有何不同 每
  • 如何用python脚本控制TP LINK路由器

    我想知道是否有一个工具可以让我连接到路由器并关闭它 然后从 python 脚本重新启动它 我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器 但是
  • 如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

    我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
  • 需要在python中找到print或printf的源代码[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情 我
  • 使用 Python 从文本中删除非英语单词

    我正在 python 上进行数据清理练习 我正在清理的文本包含我想删除的意大利语单词 我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作 例如给出一些文本 Io andiamo to the beach w
  • Pandas 日期时间格式

    是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
  • 使用 xlrd 打开 BytesIO (xlsx)

    我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格 使用 xlrd 应该可以 但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置 本例中的起点是一个带有上传输入和提交按钮的网页 提交后 文件被捕获req
  • Python beautifulsoup 仅限 1 级文本

    我看过其他 beautifulsoup 得到相同级别类型的问题 看来我的有点不同 这是网站 我正试图拿到右边那张桌子 请注意表的第一行如何展开为该数据的详细细分 我不想要那个数据 我只想要最顶层的数据 您还可以看到其他行也可以展开 但在本例
  • “隐藏”内置类对象、函数、代码等的名称和性质[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我很好奇模块中存在的类builtins无法直接访问的 例如 type lambda 0 name function of module
  • 在Python中检索PostgreSQL数据库的新记录

    在数据库表中 第二列和第三列有数字 将会不断添加新行 每次 每当数据库表中添加新行时 python 都需要不断检查它们 当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息 警告 数量已降至 105 以下 另一方面
  • 如何使用python在一个文件中写入多行

    如果我知道要写多少行 我就知道如何将多行写入一个文件 但是 当我想写多行时 问题就出现了 但是 我不知道它们会是多少 我正在开发一个应用程序 它从网站上抓取并将结果的链接存储在文本文件中 但是 我们不知道它会回复多少行 我的代码现在如下 r
  • 如何通过索引列表从 dask 数据框中选择数据?

    我想根据索引列表从 dask 数据框中选择行 我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
  • pyspark 将 twitter json 流式传输到 DF

    我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理 但根据我的用例 我需要所有字段twitter J
  • Cython 和类的构造函数

    我对 Cython 使用默认构造函数有疑问 我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
  • javascript 是否有等效的 __repr__ ?

    我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
  • Jupyter Notebook 找不到 Python 模块

    不知道发生了什么 但每当我使用 ipython 氢 原子 或 jupyter 笔记本时都找不到任何已安装的模块 我知道我安装了 pandas 但笔记本说找不到 我应该补充一点 当我正常运行脚本时 python script py 它确实导入
  • 如何在 pygtk 中创建新信号

    我创建了一个 python 对象 但我想在它上面发送信号 我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号 您还可以在类定义中定义信号 class MyGObjectClass gobject GO
  • 模拟pytest中的异常终止

    我的多线程应用程序遇到了一个错误 主线程的任何异常终止 例如 未捕获的异常或某些信号 都会导致其他线程之一死锁 并阻止进程干净退出 我解决了这个问题 但我想添加一个测试来防止回归 但是 我不知道如何在 pytest 中模拟异常终止 如果我只

随机推荐

  • 如何从测试中访问 Flutter 环境变量?

    我一直在使用 flutter dotenv 加载保存在的环境变量 env整个应用程序到目前为止都运行良好 当我尝试编写测试时 我似乎无法从测试文件访问这些测试 import package flutter dotenv flutter do
  • 如果文本框突然有值如何无法按钮

    任何人都可以帮助我如何禁用我的按钮 如果我texbox突然充满了文本 而没有单击文本框来输入内容 我的问题是我的代码无法工作 有谁知道该怎么做
  • 使用curl将工件包上传到sonatype:500服务器错误

    我想上传一个工件包 jar 到https oss sonatype org https oss sonatype org与curl命令 curl verbose user SONATYPE USER SONATYPE PASSWORD fo
  • useContext React JS 延迟

    在我的 React 应用程序中 当用户登录时 会生成一个令牌 JWT 然后将其存储在 LocalStorage 中 一切完成后 为了维护不同路由的用户登录 我使用 useContext 我想在用户登录时显示注销按钮 实际上它会出现 但 2
  • 检测 WebView 内的可用内存

    我正在构建一个应用程序 其中包含WebView运行一些 JavaScript 代码 JavaScript 代码的分配量很大 可能需要大量内存 有时 所需的内存量超出了 JavaScript 所需的内存量 导致 WebView 的 Chrom
  • mysql_connect():标头和客户端库次要版本不匹配库:100005

    自从上周五执行定期包更新以来 我的网络服务器遇到了一个相当棘手的问题 我在使用 mysql connect 时遇到错误 Warning mysql connect Headers and client library minor versi
  • 精确定位 magento 1.6.2 中两个页面之间的差异和更改

    我有两个页面应该使用完全相同的模板和布局 正确的项目布局如下所示 http dokha co index php medwakh custom medwakh from white horse studios 13 html http do
  • 处理大量数据的WCF服务的最佳实践?

    我们有一个 WCF 服务 用于查询底层数据存储 现在是 SQL Server 2005 该服务可能会返回相当大量的数据 我们的实体类有 60000 多个实例 其中包含约 20 个属性 这些属性大多是基元 例如 string int Date
  • 将 azure 应用程序服务/网站限制为域

    我有一个在 azure 应用程序服务上运行的 WCF 服务 我想将此 WCF 限制为一些天蓝色网站 外部 IP 和一些其他部署 我在 WCF web config 中使用 IPSecurity 标记 我的问题是 IP 限制有效 但我允许访问
  • warp 如何与原子操作一起工作?

    warp 中的线程在物理上并行运行 因此如果其中一个 称为线程 X 启动原子操作 其他线程会做什么 等待 这是否意味着 当线程 X 被推入原子队列时 所有线程都将等待 获得访问权限 互斥体 并对受该互斥体保护的内存执行一些操作 然后再释放互
  • 定义日期格式 java 'rd' 'st' 'th' 'nd'

    我有一个字符串 星期六 10 月 25 日 11 40 这个日期有什么格式 我怎样才能解析序数指示符 http en m wikipedia org wiki Ordinal indicator 这是我想要的转换方式 private Str
  • Java 8 中的方法参考

    public class Car private int maxSpeed public Car int maxSpeed this maxSpeed maxSpeed public int getMaxSpeed return maxSp
  • WPF C# 应用程序运行 2-3 次就会冻结我的整个计算机

    我在这个问题上放了很多信息 因为我不知道什么是相关的 Issue 我遇到一个问题 我正在开发的程序在运行时会冻结我的整个计算机并且不返回任何错误 我完全无法执行任何 CTRL ALT DEL 甚至不起作用的操作 该程序接受来自 Androi
  • 用 C++ 扩展 PHP?

    我有一个用 PHP 编写的性能密集型例程 我想将其移植到 C 以提高性能 有没有办法使用 C 编写插件或扩展或其他东西并从 PHP 与之交互 无需手动编辑实际的 PHP 源代码 As 莱姆斯 说 https stackoverflow co
  • 将 object_setInstanceVariable() 转换为 ARC?

    我希望转换一个实例 object setInstanceVariable self key UTF8String id addr 到 ARC 当我尝试使用 Xcode 内置 Objective C ARC 转换器时 出现以下错误 objec
  • 闭包和通用量化

    我一直在尝试研究如何在 Scala 中实现 Church encoded 数据类型 看起来它需要 n 级类型 因为你需要一个一流的const类型函数forAll a a gt forAll b b gt b 然而 我能够这样对对进行编码 i
  • 如何在 Visual Studio 中选择性地抑制标记验证?

    有时我发现能够抑制包含 HTML ASPX 等 的文件中的某些标记验证警告很有用 是否有相当于 pragma warning disable restore对于 HTML 周围也有类似的问题 参见this https stackoverfl
  • python - 将字符串中的日期与今天的日期进行比较

    客观的 将字符串中的日期与今天的日期进行比较 Issue 收到此错误 ValueError 未转换的数据仍然存在 12 00 00 问题 如何修复该错误 如何删除字符串的时间元素 Code from datetime import date
  • 无法使用 Dapper.NET 将文件流插入 SQL 文件表

    我在我的项目中使用 Dapper NET 作为 ORM 层 我正在尝试编写用于文件上传和下载的WebApis 但是我无法让它工作 我已经进行了足够的搜索来寻求帮助 但我找不到任何帮助 如果我只是使用 ADO NET 我可以使用 VarBin
  • python:pandas:如何根据另一列分组查找列中的最大值

    我想根据一列 SERVER 对数据帧进行分组 然后在其他列 JOB ID 中找到最大值 DF SERVER JOB ID LOG FILE TIME 0 abc 123 1 1 abc 123 dep2 1 123 log 2019 12