Python - 根据列的最大值删除重复项

2023-12-09

我不太擅长使用 pandas，我认为 pandas 应该解决我的问题：我有一个文本文件，其中包含数据（id1;id2;value1;value2;value3)

1;2;30;40;20.3;
1;2;30;42;26.2;
3;5;12;55;10.7;
3;5;12;23;8.7;
3;5;12;33;11.2;
24;12;1;553;1.1;
24;12;1;23;1.9;

因此，我想保留具有相同的行id1, id2, value1，以及更高value3. Value2并不重要，但需要保留，例如

1;2;30;42;26.2;
3;5;12;33;11.2;
24;12;1;23;1.9;

你需要DataFrameGroupBy.idxmax对于最大值的索引value3并选择DataFrame by loc:

print (df.groupby(['id1','id2','value1']).value3.idxmax())
id1  id2  value1
1    2    30        1
3    5    12        4
24   12   1         6
Name: value3, dtype: int64

df = df.loc[df.groupby(['id1','id2','value1']).value3.idxmax()]
print (df)
   id1  id2  value1  value2  value3   a
1    1    2      30      42    26.2 NaN
4    3    5      12      33    11.2 NaN
6   24   12       1      23     1.9 NaN

另一种可能的解决方案是sort_values按列value3进而groupby with GroupBy.first:

df = df.sort_values('value3', ascending=False)
       .groupby(['id1','id2','value1'], sort=False)
       .first()
       .reset_index()
print (df)
   id1  id2  value1  value2  value3   a
0    1    2      30      42    26.2 NaN
1    3    5      12      33    11.2 NaN
2   24   12       1      23     1.9 NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Sorting

pandas

groupby

max

Python - 根据列的最大值删除重复项的相关文章

scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
Cakephp 3.x 对另一个模型的排序不起作用

我有两个模型用户和角色这里角色有许多用户和用户属于角色当用户保存时我们还会询问用户的角色和保存的记录问题我有包含名字姓氏角色列的用户列表每个列都有排序但在角色上排序不起作用角色表包含角色名称的名称字段我已经
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

使用 Youtube Iframe API 创建的视频播放器停止与 Chrome v.85 配合使用

我在将 Youtube iframe API 与最新稳定版本的 Chrome 版本 85 一起使用时遇到问题我知道一个月前一切都可以正常工作但现在即使完全遵循 Youtube iframe API 文档中找到的最基本的示例 https
INotifyCollectionChanged 未更新 UI

我有一堂课如下所示为了简洁起见我删除了所有功能 public class PersonCollection IList
如何在部署到 Vercel 的 Next.js 应用程序中正确设置环境变量？

我正在 Next js 中构建我的网络应用程序并且我一直在做一些测试我正在做的是将我的代码推送到 GitHub 然后从那里将项目部署到 Vercel 我正在使用 Google API 依赖项它需要一些客户端 ID 和客户端密钥以便我
查找组中最常见的观察结果[重复]

这个问题在这里已经有答案了数据框 B pd DataFrame b II II II II II I I I MOST FREQUENT 1 2 2 1 1 1 2 2 我需要获取列中出现次数最多的值MOST FREQUENT对于每组 p
#[inline] 可以在特征方法声明和实现中使用吗？

我有一些小方法的特征这些方法通常作为实现结构所具有的其他方法的单行包装器来实现如果我想确保特征方法是内联的我应该放置 inline always 在特征定义内或在impl对于每个结构我更愿意简单地将其放入特征定义中但据我所知这
如何将最新更改拉取到 GitHub 中我当前的工作分支？

假设我在分支 abc test git pull origin master 这是否会将 master 分支与我当前的分支 abc test 合并或者我是否需要运行更多命令 tl dr run git fetch获取最新更改然后运行gi
在 2.0.5 中，将 cassandra 作为服务启动不起作用，sudo cassandra -f 有效

当我尝试在 ubuntu 12 04 上启动 cassandra 时通过 Datastax 安装 dsc20包作为服务如下 sudo 服务 cassandra 启动 it says 无法访问 Cassandra 的 pidfile 日志
如何使用弹出窗口在 JavaScript 中构建一个简单的图片库

我在互联网上寻找帮助但我无法让它工作有人能给我一个如何编写这样的代码的例子吗我会调整图像的大小并为弹出窗口提供一个缩略图大小的图像和一个更大的图像我希望用户单击缩略图大小的图像并在弹出窗口中显示全尺寸的图像我是 Javascri
Excel：如何使用VBA检查单元格是否为空？ [复制]

这个问题在这里已经有答案了通过VBA 我如何检查一个单元格是否是另一个具有特定信息的空单元格例如如果 A A 产品特殊且 B B 为 null 那么 C1 产品特殊另外我如何使用For Each循环在Range以及如何返回另一个
选择不同数据库中的列

是否可以在位于同一服务器上的不同数据库之间执行选择或插入语句如果是怎么办您可以使用以下语法指定数据库databasename tablename Example SELECT mydatabase1 tblUsers UserID
如何彻底卸载oracle 11g？

如何从笔记本电脑上卸载 Oracle 11g 软件附带的卸载程序并不能完全卸载所有组件我用Oracle12c试了一下留下了很多程序我尝试手动删除这些文件但 BIN 目录中的某些 dll 文件无法访问我想用 11g 做正确的事有什
使用jquery从父页面访问子IFrame中的元素

我尝试使用以下代码从父文档访问 iframe 中文档的元素但由于某种原因无法使其工作父级 html
需要帮助使用 GIOService（GLib、Glib-GIO）实现简单的套接字服务器

我正在学习使用 GLib 编写简单高效的套接字服务器的基础知识我正在尝试 GSocketService 到目前为止我似乎只能接受连接但随后它们立即关闭从文档中我无法弄清楚我错过了哪一步我希望有人能为我阐明这一点运行以下命令时
如何提高最低成本路径模型的模拟速度

通过使用网络扩展以下代码在两个多边形由多个面片组成之间构建成本最低的路径 to calculate LCP ID polygon 1 ID polygon 2 let path let path cost 1 Define polyg
如何确定用户在汇编语言 X86 中输入的字符串中单词的频率？

我是汇编语言编程的完全初学者我需要帮助编写一个汇编语言程序来从用户那里获取字符串计算并显示每个单词在用户输入的字符串中出现的次数例如如果用户输入 Hello Hello what is new Hello what is not n
查找数组一中最接近数组二的元素

这个答案解释如何找到最接近已排序的数组元素单点以对大型数组有效的方式稍作修改 def arg nearest array value idx np searchsorted array value side left if idx
如何使用 XAML 绑定按钮单击来更改面板（网格）的内容

我正在创建 WPF 应用程序的 UI 在致力于软件功能的实现时我在创建 UI 方面没有太多经验现在我需要一种方法来更改属性面板的内容该面板有一个网格来包含内容我创建了多个面板隐藏了除一个之外的所有面板现在我想在用户单击顶部功
Slim PHP 的默认 GET 路由

我最近使用 Slim PHP 框架构建了一个小型 API 它运行得很好然而我想为根设置一个 GET 路由它以基本消息响应并让任何其他 GET 请求返回访问被拒绝在阅读了文档和各种示例后我无法弄清楚如何完成这些任务我的项目仅
APC 3.1.x 的稳定性如何？

是否有人在大容量站点的生产中使用 APC 3 1 x 3 1 系列被标记为测试版版本但它具有我们真正希望拥有的一些功能具体来说 apc clear cache user 的性能改进没有成为 3 0 19 那么您是否在非常活跃的站点
Python - 根据列的最大值删除重复项

我不太擅长使用 pandas 我认为 pandas 应该解决我的问题我有一个文本文件其中包含数据 id1 id2 value1 value2 value3 1 2 30 40 20 3 1 2 30 42 26 2 3 5 12 55

Python - 根据列的最大值删除重复项

Python - 根据列的最大值删除重复项 的相关文章

随机推荐

热门标签

Python - 根据列的最大值删除重复项的相关文章