具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组

2024-01-14

我有一个带有多重索引的 pandas 数据框，如下所示：

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd

# multi-indexed dataframe
df = pd.DataFrame(np.random.randn(8760 * 3, 3))
df['concept'] = "some_value"
df['datetime'] = pd.date_range(start='2016', periods=len(df), freq='60Min')
df.set_index(['concept', 'datetime'], inplace=True)
df.sort_index(inplace=True)

控制台输出：

df.head()
Out[23]: 
                 0         1         2
datetime                              
2016      0.458802  0.413004  0.091056
2016     -0.051840 -1.780310 -0.304122
2016     -1.119973  0.954591  0.279049
2016     -0.691850 -0.489335  0.554272
2016     -1.278834 -1.292012 -0.637931

df.head()
    ...: df.tail()

Out[24]: 
                 0         1         2
datetime                              
2018     -1.872155  0.434520 -0.526520
2018      0.345213  0.989475 -0.892028
2018     -0.162491  0.908121 -0.993499
2018     -1.094727  0.307312  0.515041
2018     -0.880608 -1.065203 -1.438645

现在我想沿着“日期时间”级别创建年度总和。

我的第一次尝试如下，但这不起作用：

# sum along years
years = df.index.get_level_values('datetime').year.tolist()
df.index.set_levels([years], level=['datetime'], inplace=True)
df = df.groupby(level=['datetime']).sum()

对我来说，这似乎也相当沉重，因为这项任务可能很容易实现。

所以这是我的问题：如何获得“日期时间”级别的年度总和？是否有一种简单的方法可以通过将函数应用于日期时间级别值来实现这一点？

You can groupby http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html按第二级multiindex and year http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DatetimeIndex.year.html:

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd

# multi-indexed dataframe
df = pd.DataFrame(np.random.randn(8760  * 3, 3))
df['concept'] = "some_value"
df['datetime'] = pd.date_range(start='2016', periods=len(df), freq='60Min')
df.set_index(['concept', 'datetime'], inplace=True)
df.sort_index(inplace=True)
print df.head() 
                                       0         1         2
concept    datetime                                         
some_value 2016-01-01 00:00:00  1.973437  0.101535 -0.693360
           2016-01-01 01:00:00  1.221657 -1.983806 -0.075609
           2016-01-01 02:00:00 -0.208122 -2.203801  1.254084
           2016-01-01 03:00:00  0.694332 -0.235864  0.538468
           2016-01-01 04:00:00 -0.928815 -1.417445  1.534218

# sum along years
#years = df.index.get_level_values('datetime').year.tolist()
#df.index.set_levels([years], level=['datetime'], inplace=True)

print df.index.levels[1].year
[2016 2016 2016 ..., 2018 2018 2018]
df = df.groupby(df.index.levels[1].year).sum()
print df.head()
               0           1          2
2016  -93.901914  -32.205514 -22.460965
2017  205.681817   67.701669 -33.960801
2018   67.438355  150.954614 -21.381809

或者你可以使用get_level_values http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.get_level_values.html and year http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DatetimeIndex.year.html:

df = df.groupby(df.index.get_level_values('datetime').year).sum()
print df.head()
               0           1          2
2016  -93.901914  -32.205514 -22.460965
2017  205.681817   67.701669 -33.960801
2018   67.438355  150.954614 -21.381809

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组的相关文章

将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
检查时间戳列是否在另一个数据帧的日期范围内

我有一个数据框 df A 有两列 amin 和 amax 这是一组时间范围我的目标是查找 df B 中的列是否位于 df A amin 和 amax 列中范围的任何行之间 df A amin amax amin amax 0 2016 0
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
Python int和float在64位系统中的内存消耗

我正在 Python 3 4 的 64 位系统中尝试以下代码以了解不同原始数据类型的内存消耗 import sys print sys getsizeof 45 prints 28 print sys getsizeof 45 2 pri
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
如何使用 matplotlib 面向对象的 API 设置轴刻度和刻度标签

我需要一些在 Python2 7 下的 Matplotlib pyplot 中绘图的帮助我想生成一个具有以下 x 轴的图 x 轴应该是这样 https i stack imgur com zcosX jpg 我到目前为止通过使用myaxi
为什么 Numpy 创建零数组比用零替换现有数组的值要快得多？

我有一个用于跟踪各种值的数组数组是2500x1700尺寸上所以不是很大在会话结束时我需要将该数组中的所有值重置为零我尝试创建一个新的零数组并将数组中的所有值替换为零并且创建一个全新的数组要快得多代码示例 for in sess
Python：当为变量分配新内容时，“旧”内存是否被释放？

如果为变量分配了任何新内容为旧内容分配的内存是否会正确释放例如在以下脚本中在为 a 分配一些新内容后变量 a 作为零数组的内存是否会被释放 import numpy a numpy zeros 1000 a a 1 我想象
如何实现带有 ([start ,] stop [ step]) 签名的 python 方法，即左侧的默认关键字参数

由于在 python 3 X 中 build idrange 函数返回的不再是一个列表而是一个可迭代的一些旧代码在我使用时失败range 方便地生成我需要的列表所以我尝试实现我自己的lrange像这样的函数 def lrange st
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
使用存储的密钥作为环境变量

我有一个秘密密钥存储在 GCP 的秘密管理器中我们的想法是使用该密钥通过云功能获取预算列表现在我可以从代码中访问该密钥但我面临的问题是我需要使用该密钥设置一个环境变量这是我添加密钥的方式如果您的本地目录中有该文件但是还有其他方
sqlalchemy，使用反向包含（不在）子列值列表中进行选择

我在flask sqlalchemy 中有一个典型的帖子标签与一篇帖子相关的许多标签关系并且我想选择我提供的列表中未标记任何标签的帖子首先我建立的模型 class Post db Model id db Column db In
Python 特征向量：numpy.linalg、scipy.linalg 和 scipy.sparse.linalg 之间的差异

Scipy 和 Numpy 具有三个不同的函数来查找给定方阵的特征向量它们是 numpy linalg eig a http docs scipy org doc numpy reference generated numpy linal
Pandas 对 HDFStore 中的大数据进行“分组”查询？

我有大约 700 万行HDFStore有60多个柱子数据超出了我的记忆能力我希望根据 A 列的值将数据聚合到组中 pandas 的文档分割聚合组合 http pandas pydata org pandas docs stable
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s
python生成器太慢，无法使用它。我为什么要使用它？什么时候？

最近我收到一个问题哪一个是最快的 iterator list comprehension iter list comprehension and generator 然后编写简单的代码如下 n 1000000 iter a iter ra

随机推荐

保护对微光应用程序的访问

这是我之前问题的后续问题可以看到闪亮的微光应用程序的代码 https stackoverflow com questions 14671609 is is possible to see the code for shiny glimme
如何编译mod_proxy_uwsgi或mod_uwsgi？

所以我尝试在 apache2 后面使用 uwsgi 但我是在 CentOS 6 机器上这样做的我习惯使用基于 Debian Ubuntu 的系统作为上下文 I used pip install uwsgi并遵循使用 Django 应用程序
数据结构：插入、删除、包含、获取随机元素，全部都是 O(1)

我在面试时被问到这个问题你会如何回答设计一个数据结构在 O 1 时间内提供以下操作 insert remove contains 获取随机元素考虑一个由哈希表 H 和数组 A 组成的数据结构哈希表键是数据结构中的元素值是它们在数
我应该直接从视图 yii2 调用模型吗

我有点困惑因为在这里他们直接调用模型因此不通过控制器传递它 http www yiiframework com doc 2 0 guide input forms html http www yiiframework com doc
编译器错误，还是非标准代码？ - lambda 中的可变参数模板捕获

我有以下 C 11 代码 template
获得一个粘性标题“向上推”，就像在 Instagram 的 iPhone 应用程序中使用 CSS 和 jQuery

Instagram 应用程序有一个很好的粘性标题可以将当前标题推到新标题的位置我找到了一个关于如何在 Android 上本地执行此操作的很棒的教程但我希望使用 JavaScript 和 CSS 来执行此操作我能够将我的标题换成新的
在哪里可以找到 Windows GUI 标准？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我听说他们有标准的 GUI 指南但我似乎找不到工作链接谢谢是不是Windows 用户体验交互指南
保留组合条形图中缺失列的位置

一个非常常见的问题是当 ggplot 中缺少列时保留条形的宽度例如1 https stackoverflow com questions 11020437 consistent width for geom bar in the even
使用 ajax 处理长时间的服务器端操作？

I ve a 特别长时间操作将在以下情况下运行用户按下界面上的按钮我想知道什么是最好的方式将此信息返回给客户端该操作正在填充事实表中多年的数据这大约需要 20 分钟所以我不打算将界面设置为同步即使服务器端产生大量数据我仍然
Winforms 订阅自己的事件

我看到开发人员在 WinForms 中做的一件常见的事情是表单控件订阅自己的事件这样你就可以得到 this Load new System EventHandler this WelcomeQuickViewWF Load this A
如何在每个页面的后台页面运行 chrome.tabs.insertCSS？

我想在页面中添加自定义样式表without内容脚本我的 CSS 没问题但是下面的代码使用了onUpdated and onCreated事件监听器不起作用 Part of manifest json permissions http w
$moduleManager->getEventManager()->getSharedManager()->attach 在稳定的 zf2 中不起作用

namespace Auth use Zend ModuleManager ModuleManager class Module public function init ModuleManager moduleManager shared
应用程序图标有未分配的图像错误

我收到这些错误我分不清到底在说哪件事如果是 42 毫米 2x 那么我就没有地方放它了你能帮我吗谢谢编辑根据下面的评论我查看了右侧窗格看起来需要 44 2x 所以我创建了一个但是Unassigned当我将图标拖到其上时它不
NextJs：使用 Intro.js 时未定义元素 [重复]

这个问题在这里已经有答案了为什么我在使用时出现以下错误intro js在我的下一个项目中 ReferenceError Element is not defined br Because intro js使用 DOM API 并且在 SS
当对象被删除时，对象内部的 setInterval 是否会阻止垃圾回收？

我正在开发一个小型 Websocket 项目使用 Socket io 其中我使用这样的类 function myClass start server sync window setInterval this update bind thi
在 PostgreSQL 中合并 JSONB 值？

使用运算符产生以下结果 select a b 2 jsonb a c 3 jsonb column a c 3 1 row 我希望能够实现以下结果只是运算符的占位符 select a b 2 jsonb a c 3 jsonb colu
R：使用许多配对物种和丰度列重新组织数据框

我得到了一个生态数据数据框其中包含几对物种丰度列如下所示 df lt data frame site 1 3 sp1 c A A X abund1 c 10 20 30 sp2 c B B Y abund2 c 10 20 30 sp3
使用 .htaccess 或 PHP 重定向到不同的 URL [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我在index php 有一个表单
PHP 中的stream_select() 问题

我正在使用stream select 但几秒钟后它返回0个描述符而我的函数仍然有数据要读取但一个不寻常的事情是如果您将超时设置为 0 那么我总是得到描述符的数量为零 num stream select read w e 0 Strea
具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组

我有一个带有多重索引的 pandas 数据框如下所示 coding utf 8 import numpy as np import pandas as pd multi indexed dataframe df pd DataFrame

具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组

具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组 的相关文章

随机推荐

热门标签

具有 MultiIndex 的 Pandas DataFrame：按日期时间级别值的年份进行分组的相关文章