在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据

2024-04-28

考虑以下简化的示例数据帧df:

Department     CustomerID    Date          Price     MenswearDemand  HomeDemand
0    Menswear      418089    2019-04-18    199             199           0
1    Menswear      613573    2019-04-24    199             199           0
2    Menswear      161840    2019-04-25    199             199           0
3    Menswear     2134926    2019-04-29    199             199           0
4    Menswear      984801    2019-04-30     19              19           0
5        Home      398555    2019-01-27     52               0          52
6    Menswear      682906    2019-02-03     97              97           0
7    Menswear      682906    2019-02-03     97              97           0
8    Menswear      923491    2019-02-09     80              80           0
9    Menswear     1098782    2019-02-25    258             258           0
10   Menswear      721696    2019-03-25     12              12           0
11   Menswear      695706    2019-04-10    129             129           0
12  Underwear      637026    2019-01-18    349               0           0
13  Underwear      205997    2019-01-25    279               0           0
14  Underwear      787984    2019-02-01     27               0           0
15  Underwear      318256    2019-02-01    279               0           0
16  Underwear      570454    2019-02-14    262               0           0
17  Underwear     1239118    2019-02-28    279               0           0
18       Home     1680791    2019-04-04   1398               0        1398

我想根据以下内容对这些数据进行分组'CustomerID'进而：

转动购买日期'Date'到截止日期之前的天数，即'2021-01-01'。这只是客户最近一次购买到的时间'2021-01-01'.
对所有剩余的需求列求和，仅在本示例中'MenswearDemand' and 'HomeDemand'.

我应该得到的结果是这样的：

            Date  MenswearDemand  HomeDemand
CustomerID                                  
161840         6             199           0
205997        96               0           0
318256        89               0           0
398555        94               0          52
418089        13             199           0
570454        76               0           0
613573         7             199           0
637026       103               0           0
682906        87             194           0
695706        21             129           0
721696        37              12           0
787984        89               0           0
923491        81              80           0
984801         1              19           0
1098782       65             258           0
1239118       62               0           0
1680791       27               0        1398
2134926        2             199           0

这就是我设法解决这个问题的方法：

df['Date'] = pd.to_datetime(df['Date'])
cutoffDate = df['Date'].max() + dt.timedelta(days = 1)
newdf = df.groupby('CustomerID').agg({'Date': lambda x: (cutoffDate - x.max()).days,
                                      'MenswearDemand': lambda x: x.sum(),
                                      'HomeDemand': lambda x: x.sum()})

然而，实际上我得到了大约 1500 万行和 30 个需求列。我真的不想写所有这些'DemandColumn': lambda x: x.sum()每次都在我的聚合函数中，因为它们都应该被求和。有更好的方法吗？就像传入一个想要执行特定操作的列子集数组一样？

如果您提前知道列名称，则可以在传递到之前构建字典agg功能。

...
cutoffDate = df['Date'].max() + dt.timedelta(days=1)

agg_dict = {'Date': lambda x: (cutoffDate - x.max()).days}

DemandColumns = ['MenswearDemand', 'HomeDemand']
f = lambda x: x.sum()
agg_dict.update({col_name: f for col_name in DemandColumns})

newdf = df.groupby('CustomerID').agg(agg_dict)

另一种选择（知道列名，DemandColumns在前面的示例中）是首先使用agg函数来计算Date列，然后使用filter https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html函数传递所需列的列表作为items参数仅保留那些确切的列。

...
cutoffDate = df['Date'].max() + dt.timedelta(days=1)
groups = df.groupby('CustomerID')
newdf = groups.agg(lambda x: (cutoffDate - x.max()).days)
newdf = pd.concat([newdf, groups.apply(lambda x: x.filter(items=DemandColumns).agg(sum))], axis=1)

如果所需的列（DemandColumns）遵循给定的模式，您可以排除列表创建并使用filter函数与regex争论。在这种情况下，您可以使用正则表达式'.*Demand$'返回以结尾的所有列Demand string.

newdf = pd.concat([newdf, groups.apply(lambda x: x.filter(regex='.*Demand$').agg(sum))], axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据的相关文章

Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
在Python中整齐地绘制PMF

有没有一个库可以帮助我在 python 中整齐地绘制样本的概率质量函数如下所示通过matplotlib pyplot的stem模块 matplotlib pyplot stem args kwargs from matplotlib p
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
django-allauth：电子邮件确认

我已经设置了 django allauth 并在新用户注册时使用电子邮件确认效果很好但在确认电子邮件中我得到 Hello from example com You re receiving this e mail because us
如何找到查询结果的大小

我在 Rails 中有以下查询 records Record select y id source where source gt source y id gt y id group y id source having count 1 如
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
如果任何单元测试失败，如何使 Python 的覆盖率工具失败？

我想使用 shell 脚本来确保我的单元测试通过and我的代码有足够的测试覆盖率我只想运行我的测试代码once 我希望我可以通过coverage https coverage readthedocs io 工具和单次运行的工具如果一项或
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
如何在 Python 中连接两个列表？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动如何在 Python 中连接两个列表 Example listone 1 2 3 lis
重写 __cmp__ python 函数

嗨我是压倒一切的 cmp 如果传递的第二个对象是None 或者如果它不是一个实例someClass 然后返回 1 我不明白这里到底发生了什么 class someClass def cmp self obj if obj None ret
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的
如何使用多阶段构建减小 python (docker) 图像大小？

我正在寻找一种使用 python 和 Dockerfile 创建多阶段构建的方法例如使用以下图像第一张图片安装所有编译时要求并安装所有需要的 python 模块第二张图片将所有已编译构建的包从第一个映像复制到第二个映像而不

随机推荐

如何在Java NIO中配置socks代理

我正在开发一个工具其中包括强制应用程序的所有网络流量通过Java中的socks代理对于旧的 Socket API 我只需设置系统属性 DsocksProxyHost my host DsocksProxyPort my port 但它不
如何删除 R 中字符向量中字符串的公共部分？

假设一个字符向量如下 file1 p1 analysed samples txt file1 p1 raw samples txt f2 file2 p1 analysed samples txt f3 file3 p1 raw sampl
ReportViewer控件加载指示器？

是否可以更改 ReportViewer 控件的图像绿色旋转的东西目前我正在隐藏它并重叠进度条这是 WinForms 而不是 ASP 控件似乎有点啰嗦 Thanks 好吧我的朋友你给了我一个挑战但我想出了如何做到这一点这是我用
有没有一种简单的方法可以将我的苹果应用程序转换为安卓应用程序？

我是一名应用程序开发人员我使用 Xcode 来开发我的所有应用程序但看到当今市场上很多人都拥有非苹果设备所以我想我想知道是否有一种简单的方法可以将我的苹果应用程序代码转换为Android格式以便我可以提交到两个市场 Android
在 systemd 服务文件内/内联添加 shell 命令

我正在运行gunicorn通过 systemd 将服务器作为服务这是示例service file Unit Description Gunicorn NGINX After network target Service User root
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
如何在小部件中使用列表视图？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试创建一个从 rss feed 加载到小部件中的列表视图有谁知道如何在小部件中使用列表视图的教
学习 BDD、TDD（ruby、C#、javascript）的好资源

学习 BDD 和 TDD ruby C javascript 有哪些好的资源现在用什么好的框架 See 为什么我应该练习测试驱动开发以及应该如何开始 https stackoverflow com questions 4303 why s
使用VBA抓取实时数据

我想从中抓取实时数据https iboard ssi com vn bang gia hose https iboard ssi com vn bang gia hose使用VBA 我的代码如下但它不会返回其中包含数据的 html 文件
什么是依赖注入的 Pythonic 方式？

介绍对于 Java 依赖注入作为纯 OOP 工作即您提供要实现的接口并在框架代码中接受实现定义的接口的类的实例现在对于 Python 您可以执行相同的操作但我认为该方法对于 Python 而言开销太大那么如何以 Pythonic
Swashbuckle IDocumentFilter 实现 - 如何将 ActionDescriptor.MethodInfo 链接到操作

项目 ASP Net Core 2 2 Web API 软件包 Swashbuckle AspNetCore 4 0 1 我正在写一个实现Swashbuckle AspNetCore SwaggerGen IDocumentFilter它在
缓慢的 data.frame 行分配

我正在使用 RMongoDB 需要用查询的值填充空的 data frame 结果相当长大约有 200 万个文档行当我进行性能测试时我发现将值写入行的时间随着数据帧的维度的增加而增加也许这是一个众所周知的问题而我是最后一个注意到它
当元素被覆盖时取消 mouseout 事件

希望这个 JSFiddle 能比我的话更好地说明这个问题 http jsfiddle net pmwRc 6 http jsfiddle net pmwRc 6 当地图悬停时我在图像地图上显示绝对定位的 H4 作为标签但是当鼠标指针移
$.fn.function 的调用函数

问题如下有一个函数自定义 jquery 函数里面有另一个函数例如 fn slides function args function foo args 我现在的问题是我如何调用方法 foo foo不是一种方法这是一个本地函数除非您
字符串等于和 == 与字符串连接[重复]

这个问题在这里已经有答案了我试图理解字符串连接与字符串比较的输出需要明确的是我有一个类使用和 equals 来比较两个字符串我试图将和 equals 的输出连接到一个字符串 equals 的输出是 concats 但是的输出是
Android Fragment onCreateView 与 onActivityCreated

我知道片段的视图层次结构必须在 onCreateView 中膨胀但是 onCreateView 中还可以包含哪些其他功能而不是应该等待 onActivityCreated 我当前的实现对所有内容都使用单独的活动典型的活动在其 onCr
PHP 路由 - 样式表无效

我用 PHP 创建了一个基本的路由系统 url 被分割成一个数组这样我就可以根据 URL 决定显示什么例如 www domain com page option param 因此在我的index php 中我为页眉内容和页脚定义了
如何在触摸时旋转图像并将图像拖动到另一个图像上

我正在开发一个应用程序我需要一个包含许多图像的图库我想要做的是当用户点击单击任何图像时它应该将该图像旋转到 90 度如果用户将任何图像拖动到任何其他图像的顶部那么这些图像应该交换它们的位置或者我们可以说交换彼此的位置解释
UITableView：使用 moveRowAtIndexPath:toIndexPath: 和 reloadRowsAtIndexPaths:withRowAnimation: 一起出现损坏

我想使用 iOS 5 漂亮的行移动调用来为表格视图设置动画以匹配某些模型状态更改而不是旧式的删除和插入更改可能包括重新排序和就地更新并且我想对两者进行动画处理因此某些行需要reloadRowsAtIndexPaths But UIT
在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据

考虑以下简化的示例数据帧df Department CustomerID Date Price MenswearDemand HomeDemand 0 Menswear 418089 2019 04 18 199 199 0 1 Mensw

在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据

在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据 的相关文章

随机推荐

热门标签

在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据的相关文章