在 pandas 中，按 DatetimeIndex 中的日期进行分组

2024-03-22

考虑以下综合示例：

import pandas as pd
import numpy as np
np.random.seed(42)
ix = pd.date_range('2017-01-01', '2017-01-15', freq='1H')
df = pd.DataFrame(
    {
        'val': np.random.random(size=ix.shape[0]),
        'cat': np.random.choice(['foo', 'bar'], size=ix.shape[0])
    },
    index=ix
)

这会产生以下形式的表：

                    cat val
2017-01-01 00:00:00 bar 0.374540
2017-01-01 01:00:00 foo 0.950714
2017-01-01 02:00:00 bar 0.731994
2017-01-01 03:00:00 bar 0.598658
2017-01-01 04:00:00 bar 0.156019

现在，我想计算每个类别和日期的实例数量和平均值。

下列groupby，几乎是完美的：

df.groupby(['cat',df.index.date]).agg({'val': ['count', 'mean']})

                val
                count   mean
cat         
bar 2017-01-01  16  0.437941
    2017-01-02  16  0.456361
    2017-01-03  9   0.514388...

这个的问题是索引的第二层变成了字符串而不是date. 第一个问题：为什么会发生这种情况？我怎样才能避免它？

接下来，我尝试了组合groupby and resample:

df.groupby('cat').resample('1d').agg({'val': 'mean'})

在这里，索引是正确的，但我无法同时运行mean and count聚合。这是第二个问题：为什么

df.groupby('cat').resample('1d').agg({'val': ['mean', 'count']})

不起作用？

最后一个问题获取聚合（使用两个函数）视图的干净方法是什么and with date索引类型？

对于第一个问题需要转换为datetime没有时间like https://stackoverflow.com/a/45943387/2901002:

df1 = df.groupby(['cat',df.index.floor('d')]).agg({'val': ['count', 'mean']})
#df1 = df.groupby(['cat',df.index.normalize()]).agg({'val': ['count', 'mean']})

#df1 = df.groupby(['cat',pd.to_datetime(df.index.date)]).agg({'val'‌: ['count', 'mean']})

print (df1.index.get_level_values(1))


DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
               '2017-01-09', '2017-01-10', '2017-01-11', '2017-01-12',
               '2017-01-13', '2017-01-14', '2017-01-01', '2017-01-02',
               '2017-01-03', '2017-01-04', '2017-01-05', '2017-01-06',
               '2017-01-07', '2017-01-08', '2017-01-09', '2017-01-10',
               '2017-01-11', '2017-01-12', '2017-01-13', '2017-01-14',
               '2017-01-15'],
              dtype='datetime64[ns]', freq=None)

... 因为dates 是 python 对象：

df1 = df.groupby(['cat',df.index.date]).agg({'val': ['count', 'mean']})
print (type(df1.index.get_level_values(1)[0]))
<class 'datetime.date'>

第二个问题 - 在我看来这是错误或尚未实现，因为在中使用一个函数名称agg only:

df2 = df.groupby('cat').resample('1d')['val'].agg('mean')
#df2 = df.groupby('cat').resample('1d')['val'].mean()
print (df2)
cat            
bar  2017-01-01    0.437941
     2017-01-02    0.456361
     2017-01-03    0.514388
     2017-01-04    0.580295
     2017-01-05    0.426841
     2017-01-06    0.642465
     2017-01-07    0.395970
     2017-01-08    0.359940
...
...

但工作old way http://pandas.pydata.org/pandas-docs/stable/whatsnew.html#groupby-syntax-with-window-and-resample-operations with apply:

df2 = df.groupby('cat').apply(lambda x: x.resample('1d')['val'].agg(['mean','count']))
print (df2)
                    mean  count
cat                            
bar 2017-01-01  0.437941     16
    2017-01-02  0.456361     16
    2017-01-03  0.514388      9
    2017-01-04  0.580295     12
    2017-01-05  0.426841     12
    2017-01-06  0.642465      7
    2017-01-07  0.395970     11
    2017-01-08  0.359940      9
    2017-01-09  0.564851     12
    ...
    ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

在 pandas 中，按 DatetimeIndex 中的日期进行分组的相关文章

如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

在新线程问题中使用 spring 发送电子邮件

我正在开发的应用程序的功能之一是每次用户在我们的系统中注册他的发票时都会发送一封电子邮件从 Java 应用程序发送电子邮件很容易尤其是使用 Spring 框架时我用JavaMailSenderImpl and 简单邮件消息来自 Sp
Gmail HTML 电子邮件背景

我正在处理 HTML 电子邮件我遇到的问题是 GMAIL 不使用我给它的背景位置我有一个 100 宽度的表格其背景必须居中大多数客户端都能完美地做到这一点但 Gmail 却做不到有解决方法吗内联CSS是这样的我已经将所有背
在任何地方使用 eks 创建集群时出错

我正在尝试在任何地方使用 eks 在 centos7 机器上创建本地集群但是我遇到了以下错误如果我遗漏了什么请告诉我这是我用来创建集群的链接我还附上了集群创建 yaml 文件 Link https aws amazon com b
jquery .load 使用 python 烧瓶

我试图在我的 Flask 应用程序中使用 jquery load 来在每次用户按下按钮添加新的 div 时添加一个 div 但它找不到 html 文件有问题的函数 document ready function add click fun
什么是全局::？

在 C 中我看到global 在自动生成的代码中经常使用这不是我自己用过的东西所以我不知道它的目的是什么有人可以解释一下吗 global 指的是全局命名空间它可以用来解决重新定义类型的问题例如 class foo class Sy
XMLHttpRequest() 与 ActiveXObject("Microsoft.XMLHTTP") - 有什么意义？

Microsoft 最终在 Internet Explorer 7 中添加了本机 XMLHttpRequest 对象但我发现它可以在 Internet 选项对话框中禁用那么使用 XMLHttpRequest 与 ActiveXObje
使用 gcov 进行交叉分析，但忽略 GCOV_PREFIX 和 GCOV_PREFIX_STRIP

我想使用 GCOV 进行代码覆盖但测试将在另一台机器上运行因此可执行文件中 gcda 文件的硬连线路径将不起作用为了更改此默认目录我可以使用 GCOV PREFIX 和 GCOV PREFIX STRIP 环境变量如上所述here
将 Twitter Bootstrap 添加到 CodeIgniter？

我使用 CodeIgniter 开发了网站该网站使用 MySQL 来填充结果页面我现在想改进所有页面的外观大多数地方都推荐使用 Bootstrap 我尝试将 Bootstrap 添加到我的 CodeIgniter 项目中但没有成功
Qt：QProcess调用终端+脚本

我在使用 QProcess 时遇到了真正的麻烦我已经查看了几个使用它的位置但每次使用它时我的程序都会冻结或者它只是不执行我想要它执行的操作我想从 GUI 应用程序执行以下操作将目录更改为 Users Tim etc 等从那里我需
创建一个简单的 VUE.JS 应用程序

我正在尝试按照以下步骤在应用程序中使用 Vue 中的简单多边形裁剪器article https morioh com p 06b7fc24c8b5 我使用以下方法创建了我的应用程序 vue init webpack myproject 现在
如何在包含 Rust 特征的泛型类型上实现 deref？

如果能够使用 Deref 从通用容器生成 TraitType 而不是调用 instance as ref 会相当方便 IE my container do thing vs my container as ref do thing 为此我
防止复制使用 dompdf 创建的 pdf 中的内容

有没有办法阻止接收者在dompdf中选择和复制pdf文件的内容像其他打开它时看起来像图片的pdf文件一样所有字母和图像都无法选择您可以使用底层 CPDF 引擎来指定用户可以对文档执行哪些操作根据 CPDF 文档调用 setEncr
获取设备令牌时发件人 ID 无效

我正在我的 Android 应用程序中进行 Firebase 云消息传递设置我不是第一次做我已经做过很多次了但这一次我在尝试获取设备令牌时遇到了一个奇怪的错误无效的发件人 ID 除了默认情况下存在于 google services
如何使用Java打开和关闭虚拟键盘

我尝试了这里的所有答案在Java程序中打开Windows虚拟键盘 https stackoverflow com questions 4948420 open the windows virtual keyboard in a java
抽象类中受保护的抽象或公共抽象方法

嗨我有一个抽象类其中有一些公共方法和一些抽象方法我有公众以便他们实现派生类的通用方法让我困惑的是为什么我想要定义一个公共抽象方法而不是受保护的抽象方法对我来说在抽象类中定义公共抽象方法是没有意义的因为 if 是一个抽象在派
Laravel 5，连接子句中的派生表？

我有这样的疑问 SELECT FROM blog LEFT JOIN SELECT blog id AVG value as blog rating FROM blog ratings GROUP BY blog id T ON T blo
绘制的 envfit 向量与 NMDS 分数不匹配

我制作了一个 NMDS 图并绘制了我的环境如下所示 mytable 的数据框 sites c Site A Site B Site C Site D Site E Site F Site G Site H Site I Site J Si
heroku无法安装zbar

我有一个 Django 应用程序它使用 zbar 进行条形码识别它在我的开发人员机器上运行良好但当我尝试将其部署到 Heroku 时我的提交被拒绝并显示以下消息 Installing collected packages zbar
调用 FileWriter 的单元测试方法

我正在尝试为调用 FileWriter 的方法编写单元测试我正在使用 JUnit 4 8 Powermock 和 Mockito 我正在测试的方法看起来像这样 public void methodToTest String fileNam
在 pandas 中，按 DatetimeIndex 中的日期进行分组

考虑以下综合示例 import pandas as pd import numpy as np np random seed 42 ix pd date range 2017 01 01 2017 01 15 freq 1H df pd D

在 pandas 中，按 DatetimeIndex 中的日期进行分组

在 pandas 中，按 DatetimeIndex 中的日期进行分组 的相关文章

随机推荐

热门标签

在 pandas 中，按 DatetimeIndex 中的日期进行分组的相关文章