pandas dataframe groupby 并获取第 n 行

2024-01-06

我有一个如下所示的 pandas DataFrame。

df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1'],['200','400','404','200','200','404','200','404','500','200','500','200','200','400']]).T

df.columns = ['col1','col2','col3','col4','ID','col5']

我想按“ID”对其进行分组并获取每组的第二行。稍后我还需要获得第三和第四。请解释一下如何仅获取每组的第二行。

我尝试以下给出了第一和第二。

df.groupby('ID').head(2)

相反，我只需要获取第二行。由于 ID 4 和 6 没有第二行，因此需要忽略它们。

             col1 col2 col3     col4     ID    col5
ID                                           
1       0   1.1     A  1.1    x/y/z       1    200
        11  1.1     D  4.7    x/y/z       1    200
2       3   2.6     B  2.6      x/u       2    200
        5   3.4     B  3.8    x/u/v       2    404
3       1   1.1     A  1.7      x/y       3    400
        2   1.1     A  2.5  x/y/z/n       3    404
4       4   2.5     B  3.3        x       4    200
5       6   2.6     B    4    x/y/z       5    200
        10  2.6     B  4.6      x/y       5    500
6       8   3.4     B  4.3  x/u/v/b       6    500

I think第 n 个方法应该做到这一点：

In [10]: g = df.groupby('ID')
In [11]: g.nth(1).dropna()
Out[11]: 
    col1 col2  col3     col4 col5
ID                               
1    1.1    D   4.7    x/y/z  200
2    3.4    B   3.8    x/u/v  404
3    1.1    A   2.5  x/y/z/n  404
5    2.6    B   4.6      x/y  500

在 0.13 中，另一种方法是使用 cumcount：

df[g.cumcount() == n - 1]

...这是显著地 faster.

In [21]: %timeit g.nth(1).dropna()
100 loops, best of 3: 11.3 ms per loop

In [22]: %timeit df[g.cumcount() == 1]
1000 loops, best of 3: 286 µs per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

pandas dataframe groupby 并获取第 n 行的相关文章

使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
如何获取Python对象父级？

所以我试图获取自定义对象内部的对象这是一个例子假设 o 是一个对象无论是什么类型它都可以存储变量 o Object class Test def init self self parent o This is where I
Daphne Django 文件上传大小限制

我使用 Daphne 进行套接字和 http 连接我正在运行 4 个工作容器并且现在在 docker 容器中本地运行所有内容如果我尝试上传 400MB 的文件我的 daphne 服务器会失败它适用于最大 15MB 的小文件我的
如何将二维数组作为 multiprocessing.Array 传递给 multiprocessing.Pool？

我的目标是将父数组传递给mp Pool并填充它2s 同时将其分发到不同的进程这适用于一维数组 import numpy as np import multiprocessing as mp import itertools def wor
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
将 Python 字典中的键替换为唯一值

a 0 PtpMotion 1 PtpMotion 2 LinMotion 3 LinMotion 4 LinMotion 5 LinMotion 6 LinMotion 7 LinMotion 8 LinMotion 9 PtpMotio
字段“id”期望一个数字，但得到“natsu”django

我想创建一个 user posts 视图其中包含与特定用户相关的所有帖子假设有用户 Natsu 撰写的博客帖子那么登录用户 Testuser 将能够查看所有帖子由该用户发布即用户 Natsu 的所有帖子 blog models py
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
df.style.apply 在显示中居中显示多索引值

当我跑步时 import pandas as pd from IPython display import display df pd DataFrame a index pd MultiIndex from product 0 1 3 c
Django 自定义文件存储系统

我有一个自定义存储 import os from django core files storage import Storage class AlwaysOverwriteFileSystemStorage Storage def get
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
仅将唯一行插入 SQLite (python)

我在用着cursor executemany将 CSV 文件中的批量行插入到 SQLite 表中根据主键字段其中一些行预计会重复当我执行该命令时可以预见的是我会收到完整性错误并且不会插入任何内容如何有选择地仅插入非重复行而无
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY

随机推荐

SuSE 上的 rpmlib(FileDigests) 依赖性错误

Doing a 百胜安装A 3 6 0在 SuSE 11 2 64 位和 CentOS 5 8 64 位上都会弹出以下安装要求错误 error Failed dependencies rpmlib FileDigests lt 4 6
Dataframe 写入 Postgresql 性能不佳

在 postgresql 中工作我有一个笛卡尔连接生成约 400 万行连接需要约 5 秒写回数据库需要约 1 分 45 秒这些数据需要在 python 中使用特别是在 pandas 数据框中因此我正在尝试在 python 中复
使用入口点定义的命令强制执行 python 解释选项

我想强制使用 python S 运行脚本我使用 setup py 中的entry points 定义脚本有这个选择吗 Thanks 我认为 setuptools 中没有这样的选项您可以创建一个存根脚本并在scripts而是使用 dis
Angular2 路由器 - 辅助路由

我确实有一个默认加载的延迟加载模块LazyLoadedComponent当我去 lazy 到目前为止还可以该组件包含 2 个 router outlet
“选择”元素的顺序是否有所不同？

我正在使用如图所示声明的对象 DataCollection
应该如何编写 binding.gyp 来使用 OpenNI 构建 Node.js 插件？

我正在尝试构建一个使用 OpenNI 的 Node js 插件我之前没有使用过 Node gyp 所以我尝试设置 binding gyp 文件以便它包含 OpenNI 库作为构建的一部分我实际编译的代码只是你好世界示例 http no
如何限制struts/Java中按钮的双击？

我创建了一个网络表单单击按钮时将触发数据库查询问题是当用户单击按钮两次时查询将被触发两次我想阻止这种情况发生有什么帮助吗看一看here http struts apache org 2 0 14 docs token htm
通过 IDAS 注册设备时 Orion CB 实体缺少属性

我在进行练习时遇到了一些麻烦无法获得预期的结果http www slideshare net FI WARE io t basicexercisesdevelopersweek http www slideshare net FI WAR
删除注释，同时保留绘图

我正在生成一系列散点图其中我在每个图之间保留了大部分图除了散点图之外这样做是这样的在 matplotlib 中的图之间保持地图重叠 https stackoverflow com questions 42298469 keeping
什么时候使用扩展，什么时候使用接口？

我们可以扩展一个类但不能实现一个类我们可以实现一个接口但不能扩展一个接口在什么情况下我们应该使用扩展 extends用于任一扩展基类 class ClassX extends ClassY or 扩展接口 interface Int
MySQL 葡萄牙语排序规则

MySQL 有没有办法按照葡萄牙语对字符进行排序同样还有 utf8 spanish ci 或西班牙语或者有没有办法添加新的排序规则有以下人物 Gon alves Guimar es Sim es T nger P rto Gouv
如何在我的网站上实施 Mozilla readability.js？

https github com mozilla readability https github com mozilla readability readability js用于创建网页的阅读视图如何在此测试网页中实现 readabil
处理数据库中的空字符串的最佳实践（Java 中）

在我的数据库应用程序中我有时必须处理null数据库中的字符串在大多数情况下这很好但是当涉及到以 Swing 组件的形式显示数据时使用JTextField例如无法处理空字符串 setText null fails EDIT 我刚刚
向我的 RESTful API(Python-Flask) 发送 POST 请求，但收到 GET 请求

我正在尝试以包含 JSON 的 POST 请求的形式向 Zapier Webhook 发送触发器如果我只是通过本地 python 脚本发送 POST 请求它就可以正常工作我想要做的是创建一个 RESTful API 当调用 creat
MATLAB Mex 函数可以同时接受单精度和双精度吗？

我有一个接受双精度矩阵作为输入的 mex 函数但我刚刚意识到该函数所使用的代码也可以具有单精度矩阵是否可以允许该函数接受其中任何一个或者如果没有有什么替代方法可以解决这个问题简单的解决方案是将 MATLAB 中的输入转换为一致的类
有什么理由不向每个页面添加“Cache-Control: no-transform”标头？

我们最近修复了我们网站上的一个烦人的错误类似于如何阻止沃达丰代理的 JavaScript 注入 https stackoverflow com questions 4113268 how to stop javascript inject
Opencart 致命错误：在非对象上调用成员函数 get()

尝试从本地主机移动到新服务器全新安装运行良好没有任何问题当我上传文件时 mydomain com admin 出现白屏并且 mydomain com 产生以下错误致命错误在第 103 行对 home4 pawpostc publ
了解 numba 并行化中的竞争条件

Numba 文档中有一个关于并行竞争条件的示例 import numba as nb import numpy as np nb njit parallel True def prange wrong result x n x shape
从服务器资源管理器拖放到数据集和 DBML 设计器不工作

今天早上我通过设计器从 Linq to SQL DBML 文件中删除了一个表进行多项更改后我尝试将表添加回 DBML 设计器界面但 Visual Studio 没有执行任何操作当我尝试从服务器资源管理器中的列表中拖动表时我没有看到
pandas dataframe groupby 并获取第 n 行

我有一个如下所示的 pandas DataFrame df pd DataFrame 1 1 1 1 1 1 2 6 2 5 3 4 2 6 2 6 3 4 3 4 2 6 1 1 1 1 3 3 list AAABBBBABCBDDD 1

pandas dataframe groupby 并获取第 n 行

pandas dataframe groupby 并获取第 n 行 的相关文章

随机推荐

热门标签

pandas dataframe groupby 并获取第 n 行的相关文章