Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列）

2024-01-11

我有以下数据框并想要：

记录分组依据month
Sum QTY_SOLDand NET_AMT每个独特的UPC_ID（每月）
将其余列也包含在结果数据框中

我认为我可以做到这一点的方法是创建一个month列来聚合D_DATES，然后求和QTY_SOLD by UPC_ID.

Script:

# Convert date to date time object
df['D_DATE'] = pd.to_datetime(df['D_DATE'])

# Create aggregated months column
df['month'] = df['D_DATE'].apply(dt.date.strftime, args=('%Y.%m',))

# Group by month and sum up quantity sold by UPC_ID
df = df.groupby(['month', 'UPC_ID'])['QTY_SOLD'].sum()

当前数据框：

UPC_ID | UPC_DSC | D_DATE | QTY_SOLD | NET_AMT
----------------------------------------------
111      desc1    2/26/2017   2         10 (2 x $5)
222      desc2    2/26/2017   3         15
333      desc3    2/26/2017   1         4
111      desc1    3/1/2017    1         5
111      desc1    3/3/2017    4         20

期望的输出：

MONTH | UPC_ID | QTY_SOLD | NET_AMT | UPC_DSC
----------------------------------------------
2017-2      111     2         10       etc...
2017-2      222     3         15
2017-2      333     1         4
2017-3      111     5         25

问题：

如何为每一行添加月份？
如何包含数据框的其余列？
又如何求和NET_AMT此外QTY_SOLD?

`agg` with a `dict`函数数

创建一个dict函数并将其传递给agg。你还需要as_index=False以防止组列成为输出中的索引。

f = {'NET_AMT': 'sum', 'QTY_SOLD': 'sum', 'UPC_DSC': 'first'}
df.groupby(['month', 'UPC_ID'], as_index=False).agg(f)

     month  UPC_ID UPC_DSC  NET_AMT  QTY_SOLD
0  2017.02     111   desc1       10         2
1  2017.02     222   desc2       15         3
2  2017.02     333   desc3        4         1
3  2017.03     111   desc1       25         5

Blanket `sum`

只需致电sum没有任何列名。这处理数字列。为了UPC_DSC，您需要单独处理它。

g = df.groupby(['month', 'UPC_ID'])
i = g.sum()
j = g[['UPC_DSC']].first()

pd.concat([i, j], 1).reset_index()

     month  UPC_ID  QTY_SOLD  NET_AMT UPC_DSC
0  2017.02     111         2       10   desc1
1  2017.02     222         3       15   desc2
2  2017.02     333         1        4   desc3
3  2017.03     111         5       25   desc1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby

Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列）的相关文章

如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
在Python中将大文件（25k条目）加载到dict中很慢？

我有一个大约有 25000 行的文件它是 s19 格式的文件每行就像 S214780010 00802000000010000000000A508CC78C 像这样的事情怎么样我做了一个测试文件只有一行S21478001000802
Discord.py 斜线命令在 cogs 中不起作用

我正在构建一个不和谐的机器人并且想要在 cogs 内使用斜杠命令但这些命令不显示或工作这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
获取字符串模板中所有标识符列表的函数（Python）

对于标准库string template在Python中有没有一个函数可以获取所有标识符的列表例如使用以下 xml 文件
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
Asyncio：从未检索到任务异常的怪异

假设我有一个简单的代码 import asyncio async def exc print 1 0 loop asyncio get event loop loop create task exc try loop run forever
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
使用 python 从 CSV 创建字典

我有一个 CSV 格式的文件其中 A B 和 C 是标题我如何以Python方式将此CSV转换为以下形式的字典 A 1 B 4 C 7 A 2 B 5 C 8 A 3 B 6 C 9 到目前为止我正在尝试以下代码 import csv
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
当元组列表中相同项目的值是字符串时，对它们的值求和

如果我有这样的元组列表 my list books 5 books 10 ink 20 paper 15 paper 20 paper 15 我怎样才能把列表变成这样 books 15 ink 20 paper 50 即添加同一项目的费用
如何根据值扩展数据框？ [复制]

这个问题在这里已经有答案了我有以下输入数据框 df lt data frame x c a b c y c 4 5 6 from c 1 2 3 to c 2 4 6 df x y from to 1 a 4 1 2 2 b 5 2 4
在字符串内打印单引号

我想输出 XYZ s ABC 我在Python IDLE中尝试了以下3条语句第一条和第二条语句输出 a before 带打印功能的第三条语句不输出 before 作为 Python 新手我想了解为什么之前输出在第 1 条和第 2 条
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
如何在类型提示中定义元组或列表的大小

有没有办法在参数的类型提示中定义元组或列表的大小目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
如何使用 python 模块的多个 git 分支？

我想使用 git 来同时处理我正在编写的模块中的多个功能我目前正在使用 SVN 只有一个工作区因此我的 PYTHONPATH 上只有该工作区我意识到这不太理想所以我想知道是否有人可以建议一种更正确的方法来做到这一点让我用一个假
如何创建简单的梯度下降算法

我正在研究简单的机器学习算法从简单的梯度下降开始但在尝试用 python 实现它时遇到了一些麻烦这是我试图重现的示例我获得了有关房屋的数据居住面积以英尺为单位和卧室数量以及最终的价格居住面积英尺2 2104 卧室 3 价
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

需要帮助使用嵌套模型的 DefaultModelBinder

有一些相关的问题但我找不到有效的答案假设我有以下模型 public class EditorViewModel public Account Account get set public string SomeSimpleStuff g
Xcode 4 中的目标成员资格是什么

我正在寻找 Xcode 中目标成员资格的示例我对它的确切含义有点困惑例如我有两个不同的目标会员资格 myApp 和 myAppTests 如果我指定一个文件例如 myAppFile h 作为 myAppTests 的一部分而不是 m
如果提供的刻度只有 1 个结果，D3ticks() 不会返回值

我有一个 x 轴显示我的数据发生的日期数据是动态的有时我只有 1 天 2 天 n 天等的数据这是我在 x 轴上显示日期的代码 chart x d3 time scale range 0 chart w chart xAxis d3
在 Android 中以编程方式创建平行四边形 Drawable

我正在尝试重新创建在 Ice Cream Sandwich 中看到的切换幻灯片但不适用于 ICS 以下的 Android 版本我现在对滑块感到满意但是我目前使用两个平行四边形图像一个用于其关闭状态一个用于其打开状态我想理想地在运
在 Java 中使用 Nashorn？

我正在阅读有关 Java 8 新功能的信息并了解到它带有 Nashorn Javascript 引擎有人可以解释一下为什么我会应该在 Java 中使用 Javascript 引擎吗它能解决什么编程问题任何例子谢谢拉维简而言之
Android O+：某些手机似乎缺少更改通知声音类型的选项

再次关于Android O 上的通知声音有些手机的通知设置窗口不显示声音选择按钮甚至不显示振动按钮这里有几个例子三星A5 华为荣耀View 10 不是小品牌我会说他们在 Android 8 上使用 Gmail 应用程序菜单
一个应用程序中包含多个浏览器外应用程序

我正在考虑一个场景我需要创建一个主 Silverlight 应用程序然后为浏览器外的 Silverlight 应用程序添加子应用程序场景是这样的用户将访问游戏板网站并选择要玩的游戏我们打电话吧它跳棋他喜欢所以他将浏
在 OmniFaces @Eager bean 中注入 @EJB 会导致“严重：没有用于注入 org.omnifaces.cdi.eager.EagerBeansRepository 的有效 EE 环境”

Using ApplicationScoped Named Eager my EJB 注入 Statelessbeans 未正确实例化并评估为null 我有一个 ApplicationScoped ManagedBean eager tru
如何使用 PDFBox 将标准字体嵌入到生成的 PDF 中

我需要使用 Java 版 Apache PDFBox 库向 PDF A 文件添加一些文本问题是因为它需要是有效的 PDF A 文件所以所有使用的字体都必须嵌入其中我知道我可以使用 PDFBox 嵌入 TTF 字体但我想避免必须向应
如何在 MATLAB 中将字符串和矩阵写入 .txt 文件？

我需要将数据写入 MATLAB 中的 txt 文件我知道如何写字符串 fprintf or矩阵 dlmwrite 但我需要可以同时完成这两个任务的东西我将在下面举一个例子 str This is the matrix mat1 23 4
PaintWorklet 无法在锚标记内工作

当 Paint Worklet 放置在锚标记内时它无法工作示例站点 https codepen io lonekorean pen aYoJPv https codepen io lonekorean pen aYoJPv 上面的例子
gulp 被不规则地杀死

我在运行 gulp 时遇到问题因为它在任务期间会自行终止我什么也没干 gt gulp build 11 25 34 Using gulpfile app app base frontend gulpfile js 11 25 34 St
GRPC服务发现

给定一个地址GRPC http www grpc io 服务于例如 ipv4 127 0 0 1 25000 是否有任何标准化查询或工具可以用来发现服务能够接收哪些 GRPC 请求例如我正在寻找类似的东西 magic grpc serv
使用 TCPDF 将现有 PDF 与动态生成的 PDF 合并

我正在使用 TCPDF 生成 PDF 文档我的要求是在动态生成的PDF的最后一页合并现有的PDF内容到目前为止解决您问题的最佳方法是使用FPDI https github com Setasign FPDI https github
何时使用：Java 8+ 接口默认方法与抽象方法

Java 8 允许默认实现接口中的方法称为默认方法 http java dzone com articles introduction default methods 我很困惑什么时候会使用那种interface default meth
Spring Batch - 同时执行作业的多个实例

我有一个澄清我们是否可以同时运行一个作业的多个实例目前我们在任何给定时间都有一个作业实例如果可能的话请告诉我该怎么做是的你可以 Spring Batch 根据 JobParameters 来区分作业因此如果您始终将不同的 J
Firebase 身份验证在 iOS 上使用 Capacitor Ionic

我正在使用 Angular Fire 在 Ionic Capacitor 上进行 Firebase 身份验证它在网络和 Android 上运行良好但在 IOS 上不行当我检查应用程序网络活动时我意识到应用程序能够从 firebase
.Net UpdatePanel 和 javascript 已禁用

这可能听起来或者实际上是一个愚蠢的问题但我需要找到最好的方法来继续我正在进行的项目我有一个多页网络表单使用多视图控件该多视图位于更新面板控件中到目前为止一切都运行良好我的问题是关于禁用 JavaScript 的用户我注意到
Datagrid 中不同组合框的不同值

请耐心等待因为我是 WPF 的新手我有一个包含组合框的数据网格
Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列）

我有以下数据框并想要记录分组依据month Sum QTY SOLDand NET AMT每个独特的UPC ID 每月将其余列也包含在结果数据框中我认为我可以做到这一点的方法是创建一个month列来聚合D DATES 然后求和QTY

Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列）

agg with a dict函数数

Blanket sum

Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列） 的相关文章

随机推荐

热门标签

`agg` with a `dict`函数数

Blanket `sum`

Pandas groupby 和聚合输出应包括所有原始列（包括未聚合的列）的相关文章