pandas 按日期和年份分组并汇总金额

2024-02-10

我有这样的熊猫数据框：

d = {'dollar_amount': ['200.25', '350.00', '120.00', '400.50', '1231.25', '700.00', '350.00', '200.25', '2340.00'], 'date': ['22-01-2010','22-01-2010','23-01-2010','15-02-2010','27-02-2010','07-03-2010','14-01-2011','09-10-2011','28-07-2012']}
df = pd.DataFrame(data=d)

df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')
pd.options.display.float_format = '{:,.4f}'.format
df['dollar_amount'] = df['dollar_amount'].astype(float)
df

    date        dollar_amount
0   22-01-2010  200.25
1   22-01-2010  350.00
2   23-01-2010  120.00
3   15-02-2010  400.50
4   27-02-2010  1231.25
5   07-03-2010  700.00
6   14-01-2011  350.00
7   09-10-2011  200.25
8   11-11-2011  2340.00
9   12-12-2011  144.50
10  12-09-2012  760.00
11  22-10-2012  255.00
12  28-07-2012  650.00

我想计算每年每一天的金额。所以我这样划分年份：

date1 = df[(df['date'] >= '2010-01-01') & (df['date'] < '2011-01-01')]
date2 = df[(df['date'] >= '2011-01-01') & (df['date'] < '2012-01-01')]
date3 = df[(df['date'] >= '2012-01-01') & (df['date'] < '2013-01-01')]

所以现在我有 3 个数据框，日期为 2010 年date1数据框，日期从 2011 年开始date2日期自 2012 年起date3.

让我们看看date1:

print type(date1)
date1

<class 'pandas.core.frame.DataFrame'>

    date        dollar_amount
0   2010-01-22  200.2500
1   2010-01-22  350.0000
2   2010-01-23  120.0000
3   2010-02-15  400.5000
4   2010-02-27  1,231.2500
5   2010-03-07  700.0000

接下来，我将按日期汇总金额，因此我使用以下方法按日期进行分组：

date1 = date1.groupby('date', as_index=False).sum()
date1 = date1[['date','dollar_amount']].sort_values(by=['date'], 
ascending=True)

date2 = date2.groupby('date', as_index=False).sum()
date2 = date2[['date','dollar_amount']].sort_values(by=['date'], 
ascending=True)

date3 = date3.groupby('date', as_index=False).sum()
date3 = date3[['date','dollar_amount']].sort_values(by=['date'], 
ascending=True)

让我们看一下数据框date1 now:

date1

date        dollar_amount
0   2010-01-22  550.2500
1   2010-01-23  120.0000
2   2010-02-15  400.5000
3   2010-02-27  1,231.2500
4   2010-03-07  700.0000

这只是按日期升序对它们进行排序：

date1 = date1[['date','dollar_amount']].sort_values(by=['date'], 
ascending=True)

现在我已经获得了不同数据框中每年的美元金额的日期总和。然后我绘制每年的轨迹。它工作正常并完成任务。但这段代码非常多余，我正在复制相同的代码，如果我有 2000 年到 2017 年的数据，那么我将不得不复制并粘贴同一段代码 18 次。我认为这不是一种非常有效的方法。

我确信一定有更好的方法来做到这一点，但我不知道如何做。请帮助我。谢谢。

我认为你可以创造MultiIndex by years 输出：

df1 = df.groupby('date', as_index=False)['dollar_amount'].sum()
df1 = df1.set_index(df['date'].rename('year').dt.year, append=True).swaplevel(0,1)
print (df1)
             date  dollar_amount
year                            
2010 0 2010-01-22       550.2500
     1 2010-01-23       120.0000
     2 2010-02-15       400.5000
     3 2010-02-27     1,231.2500
     4 2010-03-07       700.0000
2011 5 2011-01-14       350.0000
     6 2011-10-09       200.2500
2012 7 2012-07-28     2,340.0000

print (df1.loc[2010])
        date  dollar_amount
0 2010-01-22       550.2500
1 2010-01-23       120.0000
2 2010-02-15       400.5000
3 2010-02-27     1,231.2500
4 2010-03-07       700.0000

print (df1.loc[2011])
        date  dollar_amount
5 2011-01-14       350.0000
6 2011-10-09       200.2500

print (df1.loc[2012])
        date  dollar_amount
7 2012-07-28     2,340.0000

如果想创建dictionary of DataFrames:

d = dict(tuple(df.groupby(df['date'].dt.year)))
print (d)

print (d[2010])
        date  dollar_amount
0 2010-01-22       550.2500
1 2010-01-23       120.0000
2 2010-02-15       400.5000
3 2010-02-27     1,231.2500
4 2010-03-07       700.0000

print (d[2011])
        date  dollar_amount
5 2011-01-14       350.0000
6 2011-10-09       200.2500

print (d[2012])
        date  dollar_amount
7 2012-07-28     2,340.0000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

pandasgroupby

pandas 按日期和年份分组并汇总金额的相关文章

将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
完全定制的Python帮助用法

我正在尝试使用 Python 创建完全自定义的帮助用法我计划将其导入到许多我想要具有风格一致性的程序中但遇到了一些麻烦我不知道为什么我的描述忽略换行符尝试过和我无法让出现在 ARGS 行的换行符之后显然它们坐在自己的行
使用 argparse 指定默认文件名，但不使用 --help 打开它们？

假设我有一个对文件执行一些操作的脚本它在命令行上获取此文件的名称但如果未提供则默认为已知文件名 content txt 说与蟒蛇的argparse 我使用以下内容 parser argparse ArgumentParser des
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
获取 pandas 数据框中每列的前 k 个元素的索引的快速方法

我有一个非常大的 pandas 数据框大约有 500 000 列每列大约有 500 个元素长对于每一列我需要检索该列中前 k 个元素的索引列位置所以如果 k 等于 2 这是我的数据框 A B C D w 4 8 10 2
python：UnboundLocalError：赋值前引用的局部变量“open”[重复]

这个问题在这里已经有答案了 def read lines readFileName readfile txt f open readFileName r contents f read and so on read lines 当我运行这个
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
如何使用 PyAudio 选择特定的输入设备

通过 PyAudio 录制音频时如何指定要使用的确切输入设备我的电脑有两个麦克风一个内置一个通过 USB 我想使用 USB 麦克风进行录音这流类 https people csail mit edu hubert pyaudio
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
Python Pandas：向类 pandas.core.series.Series 添加方法

我想在 Python 中处理时间序列因此 Pandas 的 Series 类非常完美并且有很多有用的方法现在我想添加一些我需要但未实现的方法例如假设我有兴趣添加一个方法该方法将两次一值附加到时间序列中让我们调用该方法appen
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
使用 TkInter 绑定设置不可交互（点击）覆盖

我已经浏览了其他几篇关于类似问题的帖子所有这些似乎都指向this https stackoverflow com questions 29458775 tkinter see through window not affected by

随机推荐

Scala future：future 执行时主线程预计会做什么？

我一个新手正在测试我关于 Scala Futures 的概念以及使用它们的正确模式前提Scala 的 future 是异步执行的代码块因此主线程创建一个或多个这样的 future 安装 onSuccess 注意同样适用于 OnC
如何从hashmap中找到最高的键值

使用最大键值进行迭代以便它将替换最大字符串值首先我的代码是 HashMap
如果我杀死一个巨大的 MySQL InnoDb DELETE 查询会发生什么？

我目前正在运行DELETE查询花费的时间比预期要长得多已经 10 小时了我想通过 phpmyadmin 进程杀死它但担心可能会发生什么他自动回滚也会花费很多时间吗当前查询状态显示正在更新这取决于您的查询现在所处的阶段但通常回
System.Net.WebException：操作已超时

我有一个大问题我需要一次发送 200 个对象并避免超时 while true NameValueCollection data new NameValueCollection data Add mode nat using var cli
Mybatis Generator：如何生成指定模式的所有表

Mysql数据库总共有4个模式我只想生成一个名为 booking 的指定模式但它总是为所有模式生成所有表所以我需要你的帮助下面是我的generatorConfig xml
CSSOM 和 DOM 创建是异步的吗？

我读到 CSSOM 创建是网页性能的瓶颈但似乎有一些方法可以解决这个问题比如添加media样式表链接的属性我试图了解如何优化我的网络应用程序并发现了这个非常有趣的事情link https developers google com
为什么使用 lme4 的线性混合模型的输出显示一个因子水平而不是另一个水平？

我正在使用lme4打包并运行线性混合模型但我很困惑但输出并期望我遇到错误即使我没有收到错误消息基本问题是当我适合这样的模型时lmer Values stimuli timeperiod scale poly distance cod
Mongodb查询异常慢

我的 mongodb 相当简单一个数据集条目在 3 层上有大约 30 个属性此类条目最多可包含 5000 个字符左右我有 500k 个当我执行以下查询时 db images find featureData cedd exists
如何在不使用文本字段的情况下在 MySQL 数据库中存储哈希值

我正在存储独特的用户代理在 MySQL MyISAM 表中因此当我必须查看它是否存在于表中时我会检查md5 hash它存储在 TEXT 字段旁边 User Agents id INT user agent TEXT hash VARCH
如何在 typescript / Angular 中设置子 html 元素的样式

我正在使用 ionic 3 构建混合移动应用程序要求之一是用户能够动态更改工具栏颜色页面渲染后 html 如下所示 div this div i can control div but this one is generated by
Aurelia 有虚拟元素吗？

Knockout JS有虚拟元素的概念这些是无头元素您可以将其绑定到没有 HTML 元素作为容器的元素这允许您在不发出外部 HTML 的容器中绑定数组例如在 Knockout JS 中您可以执行以下操作 li li 一系列l
防止 WPF DataGrid 中的多行选择

我在 WPF DataGrid 中有以下 XAML 标记
NLTK python 错误：“TypeError：‘dict_keys’对象不可下标”

我正在按照课堂作业的说明进行操作并且应该在文本文件中查找最常用的 200 个单词这是代码的最后一部分 fdist1 FreqDist NSmyText vocab fdist1 keys vocab 200 但是当我在 vocab 20
Pickle：类型错误：需要类似字节的对象，而不是“str”[重复]

这个问题在这里已经有答案了当我在 python 3 中运行以下代码时我不断收到此错误 fname1 auth cache s username fname fname1 encode encoding utf 8 fname fname
自定义图像视图android

我的自定义视图如下所示 package com mypackage import java util ArrayList import java util List import android content Context import
以数组形式返回 group_concat 数据

我想返回使用 group concat 作为数据数组从数据库检索的值是否可以在 mysql 查询中执行此操作或者我需要将数据分解成数组吗 GROUP CONCAT sh hold id as holds 返回这个 holds gt 3
为什么从对象继承在 Python 中会有所不同？ [复制]

这个问题在这里已经有答案了当类从无继承时我有一个实例类型的对象 gt gt gt class A pass gt gt gt a A gt gt gt type a
将 AVAssetWriter 与原始 NAL 单元结合使用

我在 iOS 文档中注意到AVAssetWriterInput你可以通过nil为了outputSettings字典来指定输入数据不应重新编码用于对附加到输出的媒体进行编码的设置传递 nil 来指定不应重新编码附加的样本我想利用此功能来
如何为TableView创建NSIndexPath

我需要在我定义的函数中删除表的第 1 行为了使用deleteRowAtIndexPath你必须使用一个IndexPath定义了部分和行如何创建这样的索引路径以 int 1 作为唯一成员的数组将会崩溃 NSLog 消息指出该部分也需要定
pandas 按日期和年份分组并汇总金额

我有这样的熊猫数据框 d dollar amount 200 25 350 00 120 00 400 50 1231 25 700 00 350 00 200 25 2340 00 date 22 01 2010 22 01 2010 2

pandas 按日期和年份分组并汇总金额

pandas 按日期和年份分组并汇总金额 的相关文章

随机推荐

热门标签

pandas 按日期和年份分组并汇总金额的相关文章