pandas groupby：每组中前 3 个值并存储在 DataFrame 中

2024-03-08

这是后续pandas groupby：每组的前 3 个值 https://stackoverflow.com/questions/47703606/pandas-groupby-top-3-values-for-each-group/47703756#47703756如果每组中的行数至少为 3，则此处描述的解决方案是完美的，但如果至少其中一个组不够大，则该解决方案将失败。

我在这里提出一个需要另一种解决方案的新数据集。

有些数据是随机保存的，我需要找到每小时最高的 3 个值：

                     VAL
TIME                    
2017-12-08 00:55:00   29
2017-12-08 01:10:00   56
2017-12-08 01:25:00   82
2017-12-08 01:40:00   13
2017-12-08 01:55:00   35
2017-12-08 02:10:00   53
2017-12-08 02:25:00   25
2017-12-08 02:40:00   23
2017-12-08 02:55:00   21
2017-12-08 03:10:00   12
2017-12-08 03:25:00   15

它应该返回这个 DataFrame，没有检测到最大值的时间：

                     VAL1  VAL2  VAL3
TIME 
2017-12-08 00:00:00   29   None  None
2017-12-08 01:00:00   82    56    35
2017-12-08 02:00:00   53    25    23
2017-12-08 03:00:00   15    12   None

None位于可用行数少于 3 行的组中。

生成数据集的代码是：

from datetime import *
import pandas as pd
import numpy as np

df = pd.DataFrame()

date_ref = datetime(2017,12,8,0,55,0)
days = pd.date_range(date_ref, date_ref + timedelta(0.11), freq='15min')

np.random.seed(seed=1111)
data1 = np.random.randint(1, high=100, size=len(days))

df = pd.DataFrame({'TIME': days, 'VAL': data1})
df = df.set_index('TIME')

# groupby
group1 = df.groupby(pd.Grouper(freq='1H'))
largest3 = pd.DataFrame(group1["VAL"].nlargest(3))

我的问题是如何将这些值保存到一个新的 DataFrame 中，也许可以从largest3:

                                         VAL
TIME                TIME                    
2017-12-08 00:00:00 2017-12-08 00:55:00   29
2017-12-08 01:00:00 2017-12-08 01:25:00   82
                    2017-12-08 01:10:00   56
                    2017-12-08 01:55:00   35
2017-12-08 02:00:00 2017-12-08 02:10:00   53
                    2017-12-08 02:25:00   25
                    2017-12-08 02:40:00   23
2017-12-08 03:00:00 2017-12-08 03:25:00   15
                    2017-12-08 03:10:00   12

编辑：添加了reset_index

largest3 = pd.DataFrame(group1["VAL"].nlargest(3)).reset_index(level=1, drop=True)

返回更好的概述，但我不知道如何从这里继续：

                     VAL
TIME                    
2017-12-08 00:00:00   29
2017-12-08 01:00:00   82
2017-12-08 01:00:00   56
2017-12-08 01:00:00   35
2017-12-08 02:00:00   53
2017-12-08 02:00:00   25
2017-12-08 02:00:00   23
2017-12-08 03:00:00   15
2017-12-08 03:00:00   12

诀窍是创建一个不基于的索引set_index+模数，以及cumcount在组内提供渐进计数器：

largest3 = (pd.DataFrame(group1["VAL"]
    .nlargest(3))
    .reset_index(level=1, drop=True))

largest3['index'] = largest3.groupby('TIME').cumcount()  # temporary index

largest3 = (largest3.set_index("index", append=True)['VAL']
    .unstack()
    .add_prefix('VAL'))

按照要求，结果是：

index                VAL0  VAL1  VAL2
TIME                                 
2017-12-08 00:00:00  29.0   NaN   NaN
2017-12-08 01:00:00  82.0  56.0  35.0
2017-12-08 02:00:00  53.0  25.0  23.0
2017-12-08 03:00:00  15.0  12.0   NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandas groupby：每组中前 3 个值并存储在 DataFrame 中的相关文章

正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

在 Erlang 中如何将元组对列表转换为记录？

假设我有这个 record my record foo bar baz Keyvalpairs foo val1 bar val2 baz val3 Foorecord my record foo val1 bar val2 baz val
SimpleDateFormat 错误地解析字符串

String s 19 17 38 008000 DateFormat f new SimpleDateFormat HH mm ss SSSSSS Date d f parse s system out println d 这是我正在运行
有没有办法在 Windows 上使用 Qt 列出当前进程？

使用 Qt 4 是否可以知道哪些进程正在运行我正在寻找一种方法来等待用户关闭应用程序才能进行操作我也不知道 Qt 解决方案但使用CreateToolhelp32Snapshot Process32FirstW and Process3
在后台任务中添加到 CALayer 时 UIImage 不显示

在我的视图控制器中我有 IBOutlet var worldmapview Worldmapview var eventLayer CALayer CALayer 和一些功能 func create picture layer pathto
SVN 标签：如何不更新/签出它们？

在许多项目中我查看完整的存储库并获得标准目录结构 project branches tags trunk 如果我做一个svn up project 一切都很好branches and trunk文件夹但是当然 tags文件夹也更新了
我无法将 postgresql schema.table 与 dplyr 包连接

我正在尝试将 postgres 与 dplyr 函数连接 my db lt src postgres dbname mdb1252 user diego password pass my db src postgres 9 2 5 post
带日期轴的箭袋或倒钩

绘制箭袋或倒刺的时间序列日期的标准方法是什么我经常在 Pandas DataFrame 中有时间序列并像这样绘制它们 plt plot df index to pydatetime df parameter 这非常有效 x 轴可以被
使用@font-face 使用多种自定义字体？

我确信我错过了一些非常直接的东西一直使用带有普通字体的单个自定义字体 font face font family CustomFont src url CustomFont ttf 当我使用它时一切正常但如果我想添加另一种自定义字体我该
StandardML 中的 y 组合器

我知道我可以用 SML 编写 y 组合器如下所示首先声明一个新的数据类型来绕过由于循环而导致的类型不匹配 datatype a mu Roll of a mu gt a val unroll fn Roll x gt x 现在您可以轻松
使用 GitLab API 设置外部问题跟踪器设置？

我将 GitLab 与外部问题跟踪器 JIRA 一起使用并且效果很好我的问题是当我创建一个新的 GitLab 项目使用 API 时我必须进入 GitLab 的项目设置并manually选择我想要使用的问题跟踪器并manually输入
Django 中多个视图中的相同 URL

我正在开发一个网络应用程序我需要这样的东西 url r collection views home name home url r collection views main name main 如果用户已通过身份验证则转到 main
视图变换后图像超出范围

我在显示图像时遇到问题我有一个想要全屏显示的图像所以我有这个带有 match parent 和 20dp 填充的 Imageview 它看起来不错但是当我对其应用旋转时视图的边界似乎没有改变并且图像可能会被剪出屏幕完全不希望这样
C# 禁用 WPF 窗口的 Aero snap [重复]

这个问题在这里已经有答案了可能的重复禁用 Aero 捕捉 wpf https stackoverflow com questions 2470685 disable aero snap wpf 我有一个 C WPF 应用程序我希望主窗
如何编写一个接受回调作为参数的 jquery 函数

我有以下功能 function ChangeDasPanel controllerPath postParams post controllerPath postParams function returnValue DasSpace hi
简单的“+[NSTimerchedTimerWithTimeInterval:repeats:block:]：无法识别的选择器”错误

迁移到 10 12 Sierra 和 Xcode 8 1 后我遇到了一个奇怪的错误 NSTimer scheduledTimerWithTimeInterval repeats block unrecognized selector se
错误：Java 堆空间

在 Ubuntu 中当我运行 hadoop 示例时 bin hadoop jar hadoop examples 1 0 4 jar grep input output dfs a z echo HADOOP HEAPSIZE 2000
SwiftUI - 用于数组中索引的索引集

我在 NavigationView 和列表中使用 ForEach 并结合用户使用 onDelete 删除行时调用的函数如下所示 struct PeriodListView View ObservedObject var theperiod
NodeJS 需要函数

当我检查节点的全局和模块时我发现 require 不在其中我不知道这是否神奇但如果有人可以解释 require 是否是全局的那么为什么它不在全局对象中也不在模块对象中因为它在scope 当加载到文件中时节点在幕后wraps ht
Html.Textbox VS Html.TextboxFor

Html Textbox 和 Html TextboxFor 有什么区别最终它们都生成相同的 HTML 但是Html TextBoxFor http msdn microsoft com en us library ee834950 as
pandas groupby：每组中前 3 个值并存储在 DataFrame 中

这是后续pandas groupby 每组的前 3 个值 https stackoverflow com questions 47703606 pandas groupby top 3 values for each group 47703

pandas groupby：每组中前 3 个值并存储在 DataFrame 中

pandas groupby：每组中前 3 个值并存储在 DataFrame 中 的相关文章

随机推荐

热门标签

pandas groupby：每组中前 3 个值并存储在 DataFrame 中的相关文章