如何获取pandas DataFrame中第二大行值的列名称[重复]

2023-11-26

我想，我有一个非常简单的问题，但似乎我无法解决这个问题。我是 Python 和 Pandas 的初学者。我搜索了论坛，但找不到符合我需要的（最近）答案。

我有一个像这样的数据框：

df = pd.DataFrame({'A': [1.1, 2.7, 5.3], 'B': [2, 10, 9], 'C': [3.3, 5.4, 1.5], 'D': [4, 7, 15]}, index = ['a1', 'a2', 'a3'])

这使：

          A   B    C   D
    a1  1.1   2  3.3   4
    a2  2.7  10  5.4   7
    a3  5.3   9  1.5  15

我的问题很简单：我想添加一个列来给出列名second每行的最大值。

我编写了一个简单的函数，它返回每行的第二个最大值

def get_second_best(x):
    return sorted(x)[-2]

df['value'] = df.apply(lambda row: get_second_best(row), axis=1)

这使：

      A   B    C   D  value
a1  1.1   2  3.3   4    3.3
a2  2.7  10  5.4   7    7.0
a3  5.3   9  1.5  15    9.0

但我找不到如何在“值”列中显示列名称，而不是值...我正在考虑布尔索引（将“值”列值与每行进行比较），但我没有不知道该怎么做。

更清楚地说，我希望它是：

      A   B    C   D  value
a1  1.1   2  3.3   4    C
a2  2.7  10  5.4   7    D
a3  5.3   9  1.5  15    B

任何帮助（和解释）表示赞赏！

一种方法是使用以下方法选出每行中两个最大的元素Series.nlargest并找到与使用中最小的列相对应的列Series.idxmin:

In [45]: df['value'] = df.T.apply(lambda x: x.nlargest(2).idxmin())

In [46]: df
Out[46]:
      A   B    C   D value
a1  1.1   2  3.3   4     C
a2  2.7  10  5.4   7     D
a3  5.3   9  1.5  15     B

值得注意的是，挑选Series.idxmin over DataFrame.idxmin可以在性能方面产生影响：

df = pd.DataFrame(np.random.normal(size=(100, 4)), columns=['A', 'B', 'C', 'D'])
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin()) # 39.8 ms ± 2.66 ms
%timeit df.T.apply(lambda x: x.nlargest(2)).idxmin() # 53.6 ms ± 362 µs

编辑：添加@jpp的答案，如果性能很重要，您可以通过使用获得显着的加速Numba，像 C 语言一样编写代码并编译它：

from numba import njit, prange

@njit
def arg_second_largest(arr):
    args = np.empty(len(arr), dtype=np.int_)
    for k in range(len(arr)):
        a = arr[k]
        second = np.NINF
        arg_second = 0
        first = np.NINF
        arg_first = 0
        for i in range(len(a)):
            x = a[i]
            if x >= first:
                second = first
                first = x
                arg_second = arg_first
                arg_first = i
            elif x >= second:
                second = x
                arg_second = i
        args[k] = arg_second
    return args

让我们比较两组具有形状的数据的不同解决方案(1000, 4) and (1000, 1000)分别：

df = pd.DataFrame(np.random.normal(size=(1000, 4)))
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin())     # 429 ms ± 5.1 ms
%timeit df.columns[df.values.argsort(1)[:, -2]]          # 94.7 µs ± 2.15 µs
%timeit df.columns[np.argpartition(df.values, -2)[:,-2]] # 101 µs ± 1.07 µs
%timeit df.columns[arg_second_largest(df.values)]        # 74.1 µs ± 775 ns

df = pd.DataFrame(np.random.normal(size=(1000, 1000)))
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin())     # 1.8 s ± 49.7 ms
%timeit df.columns[df.values.argsort(1)[:, -2]]          # 52.1 ms ± 1.44 ms
%timeit df.columns[np.argpartition(df.values, -2)[:,-2]] # 14.6 ms ± 145 µs
%timeit df.columns[arg_second_largest(df.values)]        # 1.11 ms ± 22.6 µs

在最后一种情况下，我能够挤出更多一点，并通过使用将基准降低到 852 µs@njit(parallel=True)并将外循环替换为for k in prange(len(arr)).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Sorting

NumPy

DataFrame

如何获取pandas DataFrame中第二大行值的列名称[重复] 的相关文章

是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
将分布拟合到直方图

I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
使用 python-docx 在 docx 文件中查找所有“正常”样式且字体大小不是 11 的文本

到目前为止我的实现 from docx api import Document import pandas as pd from docx shared import Pt texts sizes document Document new
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
TypeError: ufunc 'subtract' 不包含签名匹配类型的循环 dtype('

当尝试获取小玩具数据集的直方图时 numpy 通过 matplotlib 出现奇怪的错误我只是不确定如何解释该错误这使得很难知道下一步该做什么不过没找到太多相关的这个nltk问题 https stackoverflow com que

如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几

随机推荐

javascript 日期到 java.time.LocalDate

我正在尝试将 json 数据发布到 Java 中的控制器这是我的控制器 ResponseBody RequestMapping value schoolId method RequestMethod POST public ClassGr
替换Python中除了第一次出现的子字符串之外的所有内容？

我有一个如下所示的字符串 string SELECT sdfdsf SELECT sdrrr SELECT 5445ff 现在我想替换每一个出现的SELECT除了第一个 SELECT所以最后字符串看起来像这样 SELECT sdfdsf S
Safari 5.x 上使用 CSS 的灰度图像

我试图在页面上显示一些图像它们应该显示在灰度鼠标悬停时除外当它们平滑过渡到颜色时我已经让它在 IE Chrome 和 Firefox 上运行良好但它不适用于 Safari 5 x 问题出在 Mac 版 Safari 上and适用于
如何在 Anaconda python 发行版中安装 Rodeo IDE？

我有一个 64 位 anaconda python 发行版 2 3 在 Windows 7 机器上安装了 python 3 4 3 我搜索了关于在此之上安装 rodeo 的信息但似乎 conda install rodeo 不起作用所以
如何在 Office 64 位上安装 Microsoft.Ace.oledb 32 位？

我试图创建一个 SSIS 包我想将 excel 文件上传到我的数据库中但它给了我一个错误 Microsoft ACE Oledb 12 0 未在您的本地计算机上注册我已经安装了 64 位版本的 MS Access Engine 并且安
WooCommerce：根据单个商品数量添加折扣

在我的 WooCommerce 网站中我有一些价格相同的产品80 我想按产品数量添加折扣逻辑是这样的 if Products Quantity is 2 the original product price change from 80
从函数的关键字参数生成 TypedDict

foo py kwargs a 1 b c def consume a int b str gt None pass consume kwargs mypy foo py error Argument 1 to consume has in
如何使用 OpenCV 检测图像中的色块？

我试图通过移动摄像头检测房间条件下的图片黑白草图是否是彩色的我已经能够得到这个结果使用以下代码 Mat dest new Mat sections i rows sections i cols CvType CV 8UC3 Mat
指向派生类型中的子例程的 Fortran 过程指针

在 Fortran 中我需要派生类型中的过程指针该指针可以指向多个子例程之一这个问题在 SO 上似乎很常见 Fortran 将过程保存为派生类型中的属性 Fortran 2003 中的类型绑定过程重载没有与此类型绑定通用子例程调用相
0.13中如何声明任务对任务的依赖？

在 sbt 0 12 中您可以指定一个任务依赖于另一个任务而无需实际使用输入任务的输出因此您纯粹指定了任务的顺序 unitTask lt lt Seq stringTask sampleTask dependOn sbt 0 13
如何配置操作邮件程序（我应该注册域）？

我正在使用 Ruby on Rails 创建一个简单的非营利应用程序我必须设置以下设置才能使用 Gmail 发送电子邮件 Depot Application configure do config action mailer delive
数组中的 MongoDB 更新失败：更新路径“companies.$.updatedAt”会在“companies.$”处产生冲突

我们从 MongoDB 3 4 升级到 MongoDB 4 2 8 猫鼬 5 9 10 现在我们收到了这些错误对于最小的例子模型是公司 js use strict const Schema require mongoose Sche
如何将字段从时间戳转换为日期时间

我有一个旧数据库其中有一个包含字段的表开始日期时间戳到期日期 DATETIME 如果在具有不同时区的数据库上使用数据库则会导致某些查询出现问题因此为了避免它们我想将 start date 转换为 DATETIME 如何安全地从
Lua 与表的多重赋值

这段代码 function foo return 1 2 3 end bar bar a b c foo 产生 bar a nil bar b nil bar c 1 如何写才能得到 bar a 1 bar b 2 bar c 3 不必写这
如何检查 Activity 是否仍在堆栈中？

检查活动是否仍在堆栈中以便将其回调的更好方法是什么 Intent i new Intent getApplicationContext MyClass class startActivity i 我很惊讶这个某种问题如此不受欢迎我先从
CSS：包含文本节点的第一个子选择器

有没有办法选择一个 CSS 元素作为其父元素的第一个子元素计算文本节点如果标题位于其父级的顶部我想删除标题的上边距但如果我使用 content h1 margin top 1em content h1 first child mar
如何通过 ko.observableArray() 使用自定义绑定

剔除自定义绑定如何与 observableArray 一起使用当将 ko observable 与自定义绑定一起使用时一切都会按预期工作当使用 ko observableArray 时仅抛出初始事件初始化和更新一次但不会检测到进
java.io.IOException：无法在 Hadoop 二进制文件中找到可执行文件 null\bin\winutils.exe。 Windows 7 上的 Spark Eclipse

我无法运行一个简单的spark job in Scala IDE Maven Spark 项目安装在Windows 7 添加了 Spark 核心依赖项 val conf new SparkConf setAppName DemoDF se
是否可以将数组作为 INDIRECT() 的参数，以便 INDIRECT() 返回数组？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案假设我有一个细胞向量A1 A5 每个字符串都有另一个单元格的地址我想做的是有一个返回的函数这些引用单元格中的值数组请参阅示例我希望公式返回 15 它返回 1 在生产环境中该向
如何获取pandas DataFrame中第二大行值的列名称[重复]

这个问题在这里已经有答案了我想我有一个非常简单的问题但似乎我无法解决这个问题我是 Python 和 Pandas 的初学者我搜索了论坛但找不到符合我需要的最近答案我有一个像这样的数据框 df pd DataFrame A

如何获取pandas DataFrame中第二大行值的列名称[重复]

如何获取pandas DataFrame中第二大行值的列名称[重复] 的相关文章

随机推荐

热门标签