Pandas：如何对子类别内的前 N 个观察结果进行子集（和求和）？

2023-12-29

在这样的 pandas 数据框中：

     year      month  passengers
0    1949    January         112
1    1949   February         118
2    1949      March         132
3    1949      April         129
4    1949        May         121
5    1949       June         135
.
.
.
137  1960       June         535
138  1960       July         622
139  1960     August         606
140  1960  September         508
141  1960    October         461
142  1960   November         390
143  1960   December         432

如何对每年乘客最多的 3 个月进行分组（并进行计算）？

可以从seaborn数据集中重现相同的数据帧：

import pandas as pd
import seaborn as sns

df = sns.load_dataset('flights')
df

这是我尝试过的：

根据评论中的建议这个帖子 https://stackoverflow.com/questions/43472125/sort-pandas-dataframe-with-multiindex-according-to-column-value我发现我可以使用数据框的子集nlargest()重新索引数据框后：

df = df.set_index(['year', 'month'])
df2 = df.groupby(level=0)['passengers'].nlargest(3)
df2

output:

year  year  month    
1949  1949  July         148
            August       148
            September    136
1950  1950  July         170
            August       170

但由于某种原因year index是重复的，我仍然需要重新索引，按年份对数据帧进行分组并对结果求和。这已经开始变得混乱了，那么有没有更好的方法呢？

这是一个简单的复制粘贴的全部内容：

import pandas as pd
import seaborn as sns
df = sns.load_dataset('flights')
df = df.set_index(['year', 'month'])
df2 = df.groupby(level=0)['passengers'].nlargest(3)

这是所需输出的形状：

# Sum of top 3 months for each year (no index other than default pandas dataframe index)

    year    sum
0   1949    600 (the sum is made up)
1   1950    600
.
.
.
10  1960    600

感谢您的任何建议！

编辑：系统信息：

Python 3.6.0

熊猫0.19.2

Windows 7的

我认为需要GroupBy.apply http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.apply.html, Series.nlargest http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.nlargest.html and sum:

df = sns.load_dataset('flights')
df2 = df.groupby('year')['passengers'].apply(lambda x: x.nlargest(3).sum()).reset_index()
print (df2)
    year  passengers
0   1949         432
1   1950         498
2   1951         582
3   1952         690
4   1953         779
5   1954         859
6   1955        1026
7   1956        1192
8   1957        1354
9   1958        1431
10  1959        1579
11  1960        1763

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：如何对子类别内的前 N 个观察结果进行子集（和求和）？的相关文章

Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

nil:NilClass 与 simple_form 和 Mongoid 的未定义方法 `valid_options'

我有两个模型类别和帖子类别 rb class Category include Mongoid Document field title type gt String has many posts autosave gt true de
Angular 2 - 样式组件的选择器边框 css 属性

Update 在我下面的评论中您可以在 Google Drive 上找到一个压缩项目任何人都可以制作一个 Plunker 我从未做过需要更改什么任何解释此更改的文章博客我有一个SearchComponent这延伸了BaseCom
优化包含窗口函数的参数化 T-SQL 查询的执行计划

编辑我已经更新了示例代码并提供了完整的表和视图实现以供参考但基本问题保持不变我在尝试查询的数据库中有一个相当复杂的视图当我尝试通过将 WHERE 子句硬编码为特定外键值来从视图中检索一组行时视图会以最佳执行计划正确使用索引等快
PostgreSQL GROUP BY LOWER() 不起作用

我正在尝试使用GROUP BY在 PostgreSQL 9 4 1 中并没有像我希望的那样成功有几个人 http bytes com topic postgresql answers 422112 group case insensit
如何播放 WPF 声音文件资源

我正在尝试在 WPF 应用程序中播放声音文件目前我有以下电话 private void PlaySound string uriPath Uri uri new Uri pack application Media movepoint w
Makefile：修改模式规则中的词干

我的目录中有文件名为data and helpers 我想用它们来创建目标文件result 目录结构如下 data A file1 file2 B file1 helpers file1 file2 目录结构在result与中相同data
Swift、Equatable 协议错误？

我正在 Swift 中构建一个非常简单的结构其中包含一组可选值该结构必须符合 Equatable 协议这是代码 struct MyTable Equatable var values Int Array count 64 repeat
添加到表格时淡入表格行

我有以下代码可将新行添加到表的末尾 row data last after some HTML rows 我想用类似的东西 fadeIn slow 所以每一行在出现之前都会淡入但我似乎没有得到任何动画 row data last afte
在Golang中画一个矩形？

我想绘制一个带有一些矩形条形码的邮寄标签然后最终生成一个 PNG PDF 文件除了使用基元逐像素绘制形状之外还有更好的方法在 Go 中绘制形状吗标准 Go 库不提供原始绘图或绘画功能它提供的是颜色模型 image color
如何从handlebarsjs访问这个json对象

如何从handlebarsjs访问这个json对象 id 9 name Name1 address address1 city city1 state KS zip 11111 country USA fax 111111 phone 11
在新订单电子邮件中显示自定义产品字段

我在一个名为的产品中创建了一个自定义字段课程日期我给了它一个日期例如 1 月 30 日这是我在电子邮件中收到的内容但没有显示我是否遗漏了什么使用下面的新代码片段编辑的代码
在此 Visual Basic 脚本中需要帮助：以静默模式启动程序

我正在尝试以静默模式启动程序来安装某个应用程序以静默模式启动安装的命令行如下 setup exe s v q 我尝试使用以下内容 strCmd C setup exe s v q 但显然这是行不通的任何人都可以帮助我编写正确的语法我知
检查目标时出错：预期dense_Dense2具有形状x，但得到形状为y的数组

这是我在张量流中迈出的第一步 Idea 有一些数字模式数字数组 Pattern number 以及与该模式对应的类别从0到2的数字 Category 0 1 2 我遵循结构数据 xs Pattern ys Category 例如 xs
MySQL - CONCAT 两个字段并在 WHERE 子句中使用它们

正如标题所示我想知道如何concat一个中的两个字段where clause in mysql 这是我想要实现的目标的一个例子 SELECT CONCAT WS first name last name AS name FROM user
使用 Netty 的 UDP 服务器中丢失大量 UDP 请求

我用 Netty 编写了一个简单的 UDP 服务器它只是在日志中打印出收到的消息帧为此我创建了一个简单的帧解码器解码器和一个简单的消息处理程序我还有一个可以顺序和或并行发送多个请求的客户端当我配置我的客户端测试器以顺序发送数百
与具有量化替代方案的较短正则表达式表示法相比，展开循环有什么优势？

要求两个表达式 exp1 and exp2 我们需要匹配两者中的一个或多个所以我想出了 exp1 exp2 但是在某些地方我看到使用了以下内容 exp1 exp2 exp1 两者有什么区别你什么时候会使用其中一种而不是另一种希望有
DotNetOpenAuth OAuth 1.0a 消费者自动化

我对 oAuth 1 0a 的自动化有疑问我需要代表用户访问 oAuth 提供商的 REST API 提供商已实施 oAuth 版本 1 0a 正手请原谅我对 oAuth 的无知这对我来说是一个新领域我正在开发一个 NET MVC 5
使用“dplyr”保存残差

我想使用 dplyr 对 data frame 进行分组拟合线性回归并将残差保存为原始未分组 data frame 中的列这是一个例子 gt iris gt select Sepal Length Sepal Width gt grou
jsf-带有输入参数的验证器

这是我的 xhtml 页面的一部分
Pandas：如何对子类别内的前 N 个观察结果进行子集（和求和）？

在这样的 pandas 数据框中 year month passengers 0 1949 January 112 1 1949 February 118 2 1949 March 132 3 1949 April 129 4 1949 M

Pandas：如何对子类别内的前 N ​​个观察结果进行子集（和求和）？

Pandas：如何对子类别内的前 N ​​个观察结果进行子集（和求和）？ 的相关文章

随机推荐

热门标签

Pandas：如何对子类别内的前 N 个观察结果进行子集（和求和）？

Pandas：如何对子类别内的前 N 个观察结果进行子集（和求和）？的相关文章