从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行）

2024-01-12

编辑：为了清楚起见更改了示例 df

我有一个数据框，类似于下面给出的数据框（除了真实的数据框有几千行和列，并且值是浮点数）：

df = pd.DataFrame([[6,5,4,3,8], [6,5,4,3,6], [1,1,3,9,5], [0,1,2,7,4], [2, 0, 0, 4, 0])

    0   1   2   3   4
0   6   5   4   3   8
1   6   5   4   3   6
2   1   1   3   9   5
3   0   1   2   7   4
4   2   0   0   4   0

从这个数据框中，我想删除所有值都低于或等于任何其他行的所有行。对于这个简单的示例，应删除第 1 行和第 3 行（分别由第 0 行和第 2 行“主导”）：

filtered df:
    0   1   2   3   4
0   6   5   4   3   8
2   1   1   3   9   5
4   2   0   0   4   0

如果该方法可以考虑浮点错误，那就更好了，因为我的真实数据帧包含浮点数（即，不要删除所有值都较低/相等的行，这些值不应低于少量（例如 0.0001 ）。

我最初解决这个问题的想法如下：

选择第一行
使用列表理解将其他行与它进行比较（见下文）
删除所有返回 True 的行
对下一行重复此操作

列表理解代码：

selected_row = df.loc[0
[(df.loc[r]<=selected_row).all() and (df.loc[r]<selected_row).any() for r in range(len(df))]
[False, True, False, False, False]

然而，这似乎效率不高。任何有关如何（有效）解决此问题的建议将不胜感激。

我们可以尝试broadcasting https://numpy.org/doc/stable/user/basics.broadcasting.html:

import pandas as pd

df = pd.DataFrame([
    [6, 5, 4, 3, 8], [6, 5, 4, 3, 6], [1, 1, 3, 9, 5],
    [0, 1, 2, 7, 4], [2, 0, 0, 4, 0]
])

# Need to ensure only one of each row present since comparing to 1
# there needs to be one and only one of each row
df = df.drop_duplicates()

# Broadcasted comparison explanation below
cmp = (df.values[:, None] <= df.values).all(axis=2).sum(axis=1) == 1

# Filter using the results from the comparison
df = df[cmp]

df:

   0  1  2  3  4
0  6  5  4  3  8
2  1  1  3  9  5
4  2  0  0  4  0

直觉：

通过 DataFrame 广播比较操作：

(df.values[:, None] <= df.values)

[[[ True  True  True  True  True]
  [ True  True  True  True False]
  [False False False  True False]
  [False False False  True False]
  [False False False  True False]]  # df vs [6 5 4 3 8]

 [[ True  True  True  True  True]
  [ True  True  True  True  True]
  [False False False  True False]
  [False False False  True False]
  [False False False  True False]]  # df vs [6 5 4 3 6]

 [[ True  True  True False  True]
  [ True  True  True False  True]
  [ True  True  True  True  True]
  [False  True False False False]
  [ True False False False False]]  # df vs [1 1 3 9 5]

 [[ True  True  True False  True]
  [ True  True  True False  True]
  [ True  True  True  True  True]
  [ True  True  True  True  True]
  [ True False False False False]]  # df vs [0 1 2 7 4]

 [[ True  True  True False  True]
  [ True  True  True False  True]
  [False  True  True  True  True]
  [False  True  True  True  True]
  [ True  True  True  True  True]]]  # df vs [2 0 0 4 0]

然后我们可以检查all https://numpy.org/doc/stable/reference/generated/numpy.ndarray.all.html on axis=2:

(df.values[:, None] <= df.values).all(axis=2)

[[ True False False False False]   # Rows le [6 5 4 3 8]
 [ True  True False False False]   # Rows le [6 5 4 3 6]
 [False False  True False False]   # Rows le [1 1 3 9 5]
 [False False  True  True False]   # Rows le [0 1 2 7 4]
 [False False False False  True]]  # Rows le [2 0 0 4 0]

然后我们可以使用sum https://numpy.org/doc/stable/reference/generated/numpy.ndarray.sum.html总计有多少行小于或等于：

(df.values[:, None] <= df.values).all(axis=2).sum(axis=1)

[1 2 1 2 1]

只有 1 行小于或等于（仅自匹配）的行是要保留的行。因为我们drop_duplicates https://pandas.pydata.org/docs/reference/api/pandas.Series.drop_duplicates.html数据框中不会有重复项，因此唯一的True值将是自我匹配以及小于或等于的值：

(df.values[:, None] <= df.values).all(axis=2).sum(axis=1) == 1

[ True False  True False  True]

然后，这将成为 DataFrame 的过滤器：

df = df[[True, False, True, False, True]]

df:

   0  1  2  3  4
0  6  5  4  3  8
2  1  1  3  9  5
4  2  0  0  4  0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

filter

从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行）的相关文章

数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
如何处理 pandas.read_csv 中的元数据行？

我有一个 txt 文件其中包含元数据标题后跟 csv 样式的实际数据数据包含带逗号的浮点数像这样 title someTitle date 20 0 2019 col str1 str2 str3 2 49 42 01 0 50 5
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
pandas 中的滚动减法

我正在尝试做类似的事情 ff pd DataFrame uid 1 1 1 20 20 20 4 4 4 date 09 06 10 06 11 06 09 06 10 06 11 06 09 06 10 06 11 06 balance
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
仅将 pandas df 的前 N 行写入 csv

如何仅将前 N 行或从 P 到 Q 行从 pandas 数据帧写入 csv 而不首先对 df 进行子集化由于内存问题我无法对要导出的数据进行子集化我正在考虑一个逐行写入 csv 的函数谢谢 Use head https pandas
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
Pandas 中的 Groupby、转置和追加？

我有一个数据框如下所示每个用户有10条记录现在我想创建一个如下所示的数据框 userid name1 name2 name10 这意味着我需要反转该列的每 10 条记录name并附加到新的数据框那么它是如何做到的呢有什么办法可
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
Pandas 按唯一列值拆分数据框[重复]

这个问题在这里已经有答案了我有一个数据框正在输出到名为所有数据的电子表格中假设此数据包含企业地址街道城市邮政编码州的列但是我还想为包含完全相同的列的每个唯一状态创建一个工作表我的基本想法是使用迭代每一行df iterr
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

WPF 调度程序、后台工作人员和很多痛苦

好吧这可能真的很简单但我尝试的一切似乎都碰壁了我有一个具有两个属性的视图模型它们绑定到我的 WPF 表单 bool IsWorking get set ObservableCollection
从tasklet存储在JobExecutionContext中并在另一个tasklet中访问

我有一个要求其中一个微线程将目录中的所有文件存储在数组列表中列表的大小存储在作业执行上下文中稍后在另一个步骤中从另一个微线程访问此计数这是怎么做到的我尝试存储在作业执行上下文中在运行时抛出不可修改的集合异常 public Re
为什么评估布尔表达式的普通法则不适合 LINQ？

在这样的代码中 if insuranceNumberSearch null true ei InsuranceNumber Contains insuranceNumberSearch Trim doSomething where insu
Fluent NHibernate 中的 schemaExport 是什么？

我很想知道更多关于此代码的方式以及执行时的预期结果
如何使用 RxJava 将双精度值的嵌套列表转换为 Java 类？

在我的 Android 客户端中我从后端收到以下 JSON 数据 1427378400000 553 1427382000000 553 这是实际加载数据的例程我在用接收Android https github com Reactive
身份验证 - JavaScript - 注销问题

我需要一些帮助来解决我的问题 firebase auth onAuthStateChanged user gt if user console log log in window location href event list html
Chrome 堆分析器中分离的 DOM 节点的颜色意味着什么？

当使用 Chrome 开发工具分析堆快照时我似乎无法弄清楚查看分离 DOM 树时颜色的含义红色和黄色有什么区别有一个很好的解释可以在这里找到 http addyosmani com blog taming the unicorn ea
多部分/混合消息中的边界字符串不正确

我正在使用 Delphi 2006 在仅供个人使用的应用程序中创建并发送带有附件的电子邮件我使用 TIdSMTP 实例发送邮件然后将副本放入包含 TIdIMAP4 实例的特定 IMAP 文件夹中这一切都与 BDS2006 一起分发的
Azure Web 应用程序突然不再支持文化

突然间我们的 Azure Web 应用程序出现了有关不受支持的文化的错误我们加载了一个国家地区列表以显示在首页上但这突然出现错误相同的代码也用于其他各种网络应用程序并且它们没有遇到问题下面的代码给出了一个问题 private
如何获取默认的WebApplicationContext？

我需要上下文ApplicationContext xml 我在其中提供了web xml as
JavaFX：如何绑定列表中的多个属性？

我有课SimpleElement其中有一个权重字段第二个有一个列表SimpleElement以及一个权重字段该字段取决于所有其他权重的总和SimpleElements 包含在列表中任何人都知道如何通过绑定来做到这一点我的代码 imp
Apache Beam：为什么全局窗口中聚合值的时间戳是 9223371950454775？

我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化在 Google Dataflow 1 9 中我们将在窗口组合函数之后在 DoFn 中获得正确的时间
XCode：在故事板编辑器中移动 UI 元素

是否可以锁定或冻结故事板编辑器中的元素以便在单击和拖动时忽略它们我的问题是我在覆盖整个窗口的两个大 UIView 下有几个元素因此为了例如移动它们下面的按钮我首先必须将大视图移开移动按钮然后将它们移回来有没有更好的办法当
如何在 Mifare Ultralight C（使用 Android）上使用安全性？

我正在尝试开发一个使用 MF0ICU2 标签 Mifare Ultralight C 功能特别是读取保护的 Android 应用程序该标签与 Mifare DESFire EV1 兼容在 Android 类中 MifareUltra
在 CSS 中选择相邻的和之前的兄弟姐妹

比如说我有以下 HTML ul li a href a A a li li a href b B a li li class myclass a href c C a li li a href d D a li li a href e E
Java String.split() 有时会给出空白字符串

我正在制作一个基于文本的骰子滚筒它接受像 2d10 5 这样的字符串并返回一个字符串作为掷骰的结果我的问题出现在分词器中它将字符串分割成有用的部分以便我解析成信息 String tokens message split dk 这产
SQLAlchemy 验证 SSL 连接

我想验证 SQLAlchemy 在使用时设置的 SSL 连接create engine连接到 PostgreSQL 数据库例如如果我有以下 Python 3 代码 from sqlalchemy import create engine
无法解析方法startActivity()

我是 Android 开发新手在更改活动时遇到了一些问题我正在尝试从方法内更改活动但收到错误cannot resolve method startActivity并在参数结束时出现错误Cannot resolve constructo
VueJS webpack PWA 资产图标 manifest.json

我配置了我的 PWAmanifest json in vue config js 如下所示如何配置 PWA 图标以引用内部的图像assets folder module exports pwa manifestOptions name p
从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行）

编辑为了清楚起见更改了示例 df 我有一个数据框类似于下面给出的数据框除了真实的数据框有几千行和列并且值是浮点数 df pd DataFrame 6 5 4 3 8 6 5 4 3 6 1 1 3 9 5 0 1 2 7 4 2 0

从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行）

从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行） 的相关文章

随机推荐

热门标签

从 Pandas 数据框中删除“主导”行（所有值都低于任何其他行的值的行）的相关文章