当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引

2024-05-07

我正在使用 pandas （0.22.0，python 版本 3.6.4）.groupby与.nsmallest方法查找数据帧每组中的最小项目。这是一个示例数据框：

>>> import pandas as pd

>>> df = pd.DataFrame({'a': ['foo', 'foo', 'foo', 'foo',
                             'bar', 'bar', 'bar', 'bar', 'bar',
                             'qux', 'qux', 'qux'],
                       'b': ['baz', 'baz', 'baz', 'bat',
                             'baz', 'baz', 'bat', 'bat', 'bat',
                             'baz', 'bat', 'bat'],
                       'c': [1, 3, 2, 5,
                             6, 4, 9, 12, 7,
                             10, 8, 11]})

我想要每个“a”/“b”对的“c”列中的三个最小值。我用来获取“c”列中每个组的 n 个最小值的表达式如下：

>>> (df.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
     .reset_index(level=['a', 'b']))

正如预期的那样，这将返回以下数据帧：

      a    b   c
8   bar  bat   7
6   bar  bat   9
7   bar  bat  12
5   bar  baz   4
4   bar  baz   6
3   foo  bat   5
0   foo  baz   1
2   foo  baz   2
1   foo  baz   3
10  qux  bat   8
11  qux  bat  11
9   qux  baz  10

但是，如果数据框首先在“c”列上从最小到最大排序，就会发生奇怪的事情：

>>> df2 = df.sort_values('c', ascending=True)
>>> (df2.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
     .reset_index(level=['a', 'b']))

这将返回：

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-10-2afabcab898a> in <module>()
      1 (df2.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
----> 2          .reset_index(level=['a', 'b']))
      3

~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\series.py in reset_index(self, level, drop, name, inplace)
   1048         else:
   1049             df = self.to_frame(name)
-> 1050             return df.reset_index(level=level, drop=drop)
   1051
   1052     def __unicode__(self):

~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\frame.py in reset_index(self, level, drop, inplace, col_level, col_fill)
   3339             if not isinstance(level, (tuple, list)):
   3340                 level = [level]
-> 3341             level = [self.index._get_level_number(lev) for lev in level]
   3342             if isinstance(self.index, MultiIndex):
   3343                 if len(level) < self.index.nlevels:

~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\frame.py in <listcomp>(.0)
   3339             if not isinstance(level, (tuple, list)):
   3340                 level = [level]
-> 3341             level = [self.index._get_level_number(lev) for lev in level]
   3342             if isinstance(self.index, MultiIndex):
   3343                 if len(level) < self.index.nlevels:

~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\indexes\base.py in _get_level_number(self, level)
   1618
   1619     def _get_level_number(self, level):
-> 1620         self._validate_index_level(level)
   1621         return 0
   1622

~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\indexes\base.py in _validate_index_level(self, level)
   1615         elif level != self.name:
   1616             raise KeyError('Level %s must be same as name (%s)' %
-> 1617                            (level, self.name))
   1618
   1619     def _get_level_number(self, level):

KeyError: 'Level a must be same as name (None)'

显然，.reset_index是问题所在，所以我们将删除它：

>>> df2.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))

我们回到这个系列：

0      1
2      2
1      3
5      4
3      5
4      6
8      7
10     8
6      9
9     10
11    11
7     12
Name: c, dtype: int64

去除reset_index第一个示例显示了 MultiIndex：

>>> df.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
a    b
bar  bat  8      7
          6      9
          7     12
     baz  5      4
          4      6
foo  bat  3      5
     baz  0      1
          2      2
          1      3
qux  bat  10     8
          11    11
     baz  9     10
Name: c, dtype: int64

因此，有关正在排序的数据帧的某些内容导致了 MultiIndexgroupby操作以退出。如果我们从最大到最小排序并调用，也会发生同样的情况nlargest:

>>> df3 = df.sort_values('c', ascending=False)
>>> df3.groupby(['a', 'b'])['c'].apply(lambda x: x.nlargest(3))
7     12
11    11
9     10
6      9
10     8
8      7
4      6
3      5
5      4
1      3
2      2
0      1
Name: c, dtype: int64

如果我们尝试巧妙地使用负号，也会发生同样的事情：

>>> df3.groupby(['a', 'b'])['c'].apply(lambda x: (-x).nsmallest(3))
7    -12
11   -11
9    -10
6     -9
10    -8
8     -7
4     -6
3     -5
5     -4
1     -3
2     -2
0     -1
Name: c, dtype: int64

但如果我们使用的话就不会了nlargest带负号：

>>> df3.groupby(['a', 'b'])['c'].apply(lambda x: (-x).nlargest(3))
a    b
bar  bat  8     -7
          6     -9
          7    -12
     baz  5     -4
          4     -6
foo  bat  3     -5
     baz  0     -1
          2     -2
          1     -3
qux  bat  10    -8
          11   -11
     baz  9    -10
Name: c, dtype: int64

我已经玩过很多次了，而且我很困惑。您可能会问“如果您知道数据框会导致此错误，为什么还要对数据框进行排序？”，但这种情况会发生在nsmallest如果其中一组碰巧按升序排序，并且nlargest如果一个组按降序排序。这是一个简单的例子：

>>> df4 = pd.DataFrame({'a': ['foo', 'foo', 'foo', 'bar', 'bar'],
                        'b': ['baz', 'baz', 'bat', 'baz', 'bat'],
                        'c': [1, 2, 10, 4, 7]})
     a    b   c
0  foo  baz   1
1  foo  baz   2
2  foo  bat  10
3  bar  baz   4
4  bar  bat   7

>>> df4.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
0     1
1     2
2    10
3     4
4     7
Name: c, dtype: int64

这是预期的行为，还是 pandas 中的错误？任何人都可以推荐该错误的解决方案吗？现在我只是在使用之前以相反的方向防御性地对数据框进行排序groupby and nsmallest:

>>> df5 = df4.sort_values('c', ascending=False)
>>> (df5.groupby(['a', 'b'])['c'].apply(lambda x: x.nsmallest(3))
     .reset_index(level=['a', 'b']))
     a    b   c
4  bar  bat   7
3  bar  baz   4
2  foo  bat  10
0  foo  baz   1
1  foo  baz   2

但这似乎没有必要而且很混乱。任何想法或见解将不胜感激！

编辑 2018 年 6 月 18 日：看了 @gyoza 建议的链接后，我明白问题不在于nsmallest or nlargest，而不是结果apply对 groupby 对象进行操作。如果系列返回apply操作与原始 groupby 组具有相同的索引，pandas 返回原始索引而不是 multiIndex。

@gyoza 的解决方案在 apply 操作中使用新索引创建一个 Series，以确保返回 multiIndex。然而，在我的实际代码中，后面的步骤（标记每组中最小的以供审查）取决于通过应用操作保留的原始索引。我可以将该步骤重写为分组列上的合并，而不是使用索引.loc，但我宁愿不这样做。

有趣的是，我认为您在带有排序数据帧的 pandas.SeriesGroupBy 对象中找到了“错误”。

我认为我们可以使用 pandas.DataFrameGroupBy 对象（但是，我确实相信你那里有一个错误）。

import pandas as pd

df = pd.DataFrame({'a': ['foo', 'foo', 'foo', 'foo',
                             'bar', 'bar', 'bar', 'bar', 'bar',
                             'qux', 'qux', 'qux'],
                       'b': ['baz', 'baz', 'baz', 'bat',
                             'baz', 'baz', 'bat', 'bat', 'bat',
                             'baz', 'bat', 'bat'],
                       'c': [1, 3, 2, 5,
                             6, 4, 9, 12, 7,
                             10, 8, 11]})

df2 = df.sort_values('c', ascending=True)

df_sorted = df2.groupby(['a','b']).apply(lambda x: x.nsmallest(n=3, columns='c')).reset_index(drop=True)

df_unsorted = df.groupby(['a','b']).apply(lambda x: x.nsmallest(n=3, columns='c')).reset_index(drop=True)

all(df_sorted.eqw(df_unsorted)

Output:

True

打印 df_sorted 和 df_unsorted：

print(df_sorted)

      a    b   c
0   bar  bat   7
1   bar  bat   9
2   bar  bat  12
3   bar  baz   4
4   bar  baz   6
5   foo  bat   5
6   foo  baz   1
7   foo  baz   2
8   foo  baz   3
9   qux  bat   8
10  qux  bat  11
11  qux  baz  10

打印（df_未排序）

      a    b   c
0   bar  bat   7
1   bar  bat   9
2   bar  bat  12
3   bar  baz   4
4   bar  baz   6
5   foo  bat   5
6   foo  baz   1
7   foo  baz   2
8   foo  baz   3
9   qux  bat   8
10  qux  bat  11
11  qux  baz  10

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引的相关文章

使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
将 c++ 异常传播到 cython - python 异常

我的 Cython 0 17 1 有问题我的函数抛出一个std runtime error如果文件不存在我想以某种方式将此异常传播到我的 Cython 代码 void loadFile const string filename som
Daphne Django 文件上传大小限制

我使用 Daphne 进行套接字和 http 连接我正在运行 4 个工作容器并且现在在 docker 容器中本地运行所有内容如果我尝试上传 400MB 的文件我的 daphne 服务器会失败它适用于最大 15MB 的小文件我的
使用 LSTM 进行时间序列模式识别(python)

我的应用场景和上一个类似时间序列中的模式识别 https stackoverflow com questions 11752727 pattern recognition in time series By processing a tim
Python：os.remove 不起作用

为什么不是os remove string 为我工作我的代码写如下 try os remove a output current time trmv successful message message n output message
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
代码终止后保持 matplotlib / pyplot 窗口打开

我希望 python 绘制一个图在不阻塞控制流的情况下显示它并在代码退出后使图保持打开状态这可能吗这个以及相关的主题存在于许多其他线程中见下文但我无法让情节保持开放且非阻塞例如如果我使用pyplot ion before p
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
在 Windows 上使用 pycrypto 时如何修复“ImportError：无法从 Crypto.Cipher 导入名称 _AES”？

我在 Crypto 的 Cipher 模块中有 AES Python27 Lib Crypto Cipher AES 当我尝试做的时候 from Crypto Cipher import AES 我收到以下错误 Traceback most
使用 python 聚合 elasticsearch-dsl 中的字段

有人可以告诉我如何编写 Python 语句来聚合求和和计数有关我的文档的内容吗 SCRIPT from datetime import datetime from elasticsearch dsl import DocType Str
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
获取SVG绘图的边界框

我想提取 SVG 绘图的边界框由于 Python 已经在系统上可用并且还用于执行其他任务因此我不想使用 JavaScript 或任何其他语言我的理解是是否可以计算单个元素的边界框但我不知道如何计算整个绘图的边界框只是所有元素的最小
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
禁用或限制 /o/applications（django rest 框架、oauth2）

我目前正在使用 Django Rest 框架编写 REST API 并使用 oauth2 进行身份验证使用 django oauth toolkit 我对他们俩都很满意他们做的正是我想要的然而我有一个担忧我正在将我的应用程序传递到
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam
评估 df 每行中的日期时间函数是否落在另一个 df 中的日期时间范围内

我是 python 新手需要一些帮助来解决有关日期时间函数的问题 I have df a其中有一列标题为time 我正在尝试创建一个新专栏id在这个df a 我想要id根据时间是否包含在某个时间范围内来确定的列df b date 和 da

随机推荐

Postgres 重叠数组中的一列

我有一个表 A 其中有一列 col1 其中每个记录都是整数数组 col1 1 2 3 4 1 2 6 7 1 2 3 8 9 我喜欢有一行作为结果其中包含 col1 中所有数组的重叠或相交 select overlap col1 from
jQuery - 解析 JSON 数据 - 变量名称遇到问题

我第一次深入研究 JSON 数据的使用不过我有一些使用 jQuery 的经验我发布到此 URL tumblr api jyoseph com api read json 我想做的是输出返回的 json 到目前为止我所拥有的 docume
在 C/C++ 中使用单个初始化来初始化具有相同值的多个指针

我想在 C C 中使用单个赋值运算符声明两个或多个具有相同值的指针以下代码是一个示例 List a NULL List b NULL List c NULL 一行中是否有等效项编辑为了澄清我正在寻找两种语言的答案我使用斜杠来区
如何获取与文件类型关联的图标路径和索引？

给定一个文件类型例如 txt 我怎样才能得到 path index 文件类型的关联图标路径和索引例如我想转换 txt into Path SystemRoot system32 imageres dll Index 102 有了这些信
Azure Media Player 在重新访问视图时无法在 Angular JS 中播放视频

我已经在我的 angularjs 应用程序中使用了 azure 媒体播放器并且能够观看视频但是当重新访问视频标签所在的同一视图时不会播放视频而是在后台播放音频我正在使用 ui router 进行路由预先感谢您的快速帮助这是我的
R randomForest - 如何使用“getTree”树进行预测

背景我可以在 R 中创建一个随机森林 set seed 1 library randomForest data iris model rf lt randomForest Species data iris importance TRUE
生产中 ASP.NET Core 应用程序的实例化

ASP NET Core 开始执行Main方法在于Program class inside Program cs文件这会构建一个网络托管环境并告诉该网络主机开始运行那么有startup cs file 开发 NET Core Web
使用反向代理进行过多重定向

Setup 云flare DNS docker 撰写 nginx 反向代理 WordPress 的 fpm Nginx PHP 处理程序 Problem 重定向太多如以下日志所示 Attaching to wp db wp wp web
浏览器对 Unicode 的支持

我正在使用有图标但没有图像的 CSS 按钮 http www paulund co uk css buttons with icons but no images 图标是使用 unicode 值生成的在此我遇到了一些浏览器不支持某些 un
当选择更改时使用 JQuery 进行检测

我有一个 Jqgrid 它动态生成这样的选择
使用 pandas 的 TimeGrouper() 按 1 秒的间隔查找列计数

考虑由时间戳索引的数据帧数据如下所示 Index Receiver Type Retry 1970 01 01 00 00 00 000000000 R1 Data 1 1970 01 01 00 00 00 800000000 R1
Git 二进制文件与 .gitattributes 中的 -diff

在 gitattributes 中有以下等价内容 chm binary chm diff 我努力了 chm二进制文件但恐怕它仍然可能尝试合并这些文件是 diff更适合我打算做什么另外在提交给定类型的文件后此设置是否适用 Thank
创建对话框/弹出窗口

有这样的代码 bool b EditorUtility DisplayDialog Test Reset or continue Reset Continue if b ResetGame 但它仅在编辑器中有效在游戏中无效如何将 Edi
/ __init__() 处的 TypeError 恰好采用 1 个参数（给定 2 个）

我有点困惑为什么会出现这个错误我不知道这个额外的参数是从哪里来的 Environment Request Method GET Request URL http 0 0 0 0 5000 Django Version 1 6 4 Pyth
如何访问 Google Cloud Platform Compute Engine VM 实例的 SSH 密钥？

我通过 Google Cloud Web 控制台从 CentOS 6 x 映像创建了一个新实例我在创建表单上看到一个空白我可以在其中粘贴现有的 SSH 密钥因为这是我的第一个实例所以我还没有我以为它会像 Amazon EC2 一样
即使用户正在积极使用应用程序，Azure AD Easy Auth 也会过期

我们有一个使用 Azure Active Directory 轻松身份验证的单页应用程序 SPA 例如无代码解决方案当用户第一次打开应用程序时这似乎工作正常他们将被重定向到 Microsoft 登录页面他们可以进行身份验证然后
Angular 2 - 检查图像 URL 是否有效或损坏

我正在从 API 获取大量图像 URL 并将它们显示在 Angular 2 Web 应用程序中有些 URL 已损坏我想用本地存储在我的网络服务器上的默认图片替换它们有人建议如何测试 url 并在状态代码 404 的情况下替换损坏的图像
创建另一个进程的 HWND 的子窗口？（例如屏幕保护程序预览）

我正在用 Java 编写一个屏幕保护程序它主要适用于 Windows 但我更希望它尽可能便携且实用根据http support microsoft com kb 182383 http support microsoft com kb
如何将 OData 查询字符串转换为 .NET 表达式树

完全重写这个问题因为我现在比以前理解得更多我试图将 OData 查询字符串直接抽象为 NET 表达式树似乎有很多关于此的问题和文章但没有答案提供依赖于的抽象解决方案soley on the Microsoft Data OData命
当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引

我正在使用 pandas 0 22 0 python 版本 3 6 4 groupby与 nsmallest方法查找数据帧每组中的最小项目这是一个示例数据框 gt gt gt import pandas as pd gt gt gt df

当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引

当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引 的相关文章

随机推荐

热门标签

当数据帧预排序时 pandas.groupby.nsmallest 会丢弃多索引的相关文章