Pandas：条件组特定计算

2024-03-13

假设我有一个带有键（例如客户 ID）和两个数字列 C1 和 C2 的表。我想按键（客户）对行进行分组，并在其列上运行一些聚合器，例如 sum 和 Mean 。在计算组聚合器之后，我想将结果分配回 DataFrame 中的每个客户行（因为一些客户范围的功能添加到每行）。

我可以看到我可以做类似的事情
df['F1'] = df.groupby(['Key'])['C1'].transform(np.sum)
如果我只想聚合一列并能够将结果添加回 DataFrame。

我可以将其设置为有条件吗 - 我可以仅将 C2 列等于某个数字 X 的行添加到组中的 C1 列，并且仍然能够将结果添加回 DataFrame 吗？

如何在行组合上运行聚合器，例如：
np.sum(C1 + C2)?

最简单、最优雅的实现方式是什么？最有效的方法是什么？这些聚合可以在一条路径中完成吗？

先感谢您。

这是一些虚拟数据的一些设置。

In [81]: df = pd.DataFrame({'Key': ['a','a','b','b','c','c'], 
                            'C1': [1,2,3,4,5,6],  
                            'C2': [7,8,9,10,11,12]})
In [82]: df['F1'] = df.groupby('Key')['C1'].transform(np.sum)

In [83]: df
Out[83]: 
   C1  C2 Key  F1
0   1   7   a   3
1   2   8   a   3
2   3   9   b   7
3   4  10   b   7
4   5  11   c  11
5   6  12   c  11

如果你想做一个条件GroupBy，你可以在数据帧传递到时过滤它.groubpy。例如，如果您希望在 C2 小于 8 或大于 9 时求“C1”的组总和。

In [87]: cond = (df['C2'] < 8) | (df['C2'] > 9)

In [88]: df['F2'] = df[cond].groupby('Key')['C1'].transform(np.sum)

In [89]: df
Out[89]: 
   C1  C2 Key  F1  F2
0   1   7   a   3   1
1   2   8   a   3 NaN
2   3   9   b   7 NaN
3   4  10   b   7   4
4   5  11   c  11  11
5   6  12   c  11  11

这是有效的，因为transform操作保留索引，因此它仍然会与原始数据帧正确对齐。

如果您想对两列的组总数求和，可能最容易做这样的事情？有人可能有更聪明的东西。

In [93]: gb = df.groupby('Key')

In [94]: df['C1+C2'] = gb['C1'].transform(np.sum) + gb['C2'].transform(np.sum)

编辑：这是获取多列的组总计的另一种方法。该语法实际上并不是更清晰，但对于大量列可能更方便。

df['C1_C2'] = gb[['C1','C2']].apply(lambda x: pd.DataFrame(x.sum().sum(), index=x.index, columns=['']))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：条件组特定计算的相关文章

如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

如何为“插入”表单中的字段传递默认值？

如何为插入表单中的字段传递默认值我正在使用 Meteor 的软件包 Autoform Collections2 和 Simple Schema 我的流程是用户在页面列表中选择某个值然后打开插入我希望使用用户在上一步中选择的值
如何用c++语言中的tensorflow.so和c_api.h加载图？

我找不到任何有关如何加载图表的示例tensorflow so and c api h在C 中我读了c api h 但是那ReadBinaryProto功能不在其中如何在没有ReadBinaryProto功能如果您使用 C 您可能需要
为派生类专门化 std::hash 在 gcc 中有效，而不是 clang

我正在努力专攻std hash对于派生类迄今为止最好的方法是基于这个答案 https stackoverflow com a 31213703 620382 include
scala ArrayBuffer 删除带有谓词的所有元素

Scala 在过滤不可变序列方面非常优雅 var l List 1 2 3 4 5 6 l l filter 2 1 但是如何使用像 ArrayBuffer 这样的可变集合来做到这一点呢我发现的只是删除单个元素或切片或者从另一个序列中删
如何在弹出菜单中使用单选按钮？

我正在尝试创建一个包含可选单选按钮的弹出菜单以便更改视图类型例如图库卡片滑动网格列表等我遇到的问题是 PopupMenu 有自己的用于选择值的回调 Radio 和 RadioListTile 也是如此忽略RadioListT
自动将调试器附加到 Eclipse 中的新 Java 子进程

我有一个 Java 进程它使用 ProcessBuilder 等生成一个新的 JVM 在调试时是否可以让 Eclipse 将调试器附加到新的子进程更好的是是否有任何插件在注意到新的子进程时会自动执行此操作我被告知虽然还没见过 V
哈希表真的可以是 O(1) 吗？

哈希表可以实现 O 1 似乎是常识但这对我来说从来没有意义有人可以解释一下吗我想到了以下两种情况 A 该值是一个小于哈希表大小的 int 因此该值是它自己的哈希值因此不存在哈希表但即使有也会是 O 1 并且效率仍然很低 B 您
在 Podfile 中声明架构

有没有办法将架构包含在 CocoaPods 中Podfile 我正在尝试为 32 位和 64 位构建我的应用程序但是当我切换到Standard architectures including 64 bit 在我的项目的构建设置中它抱怨我
css：覆盖活动链接样式？

我的 css 中有以下选择器 a active position relative top 1px 因此每个链接在按下时都会有这个小按钮效果我怎样才能防止特定链接的这种行为例如我的网站上有一个返回顶部链接不应该有这种行为 a b
标准 Treeview 的 C# 替代品？

我想找到提供的 System Windows Form Treeview 的替代品我需要以下改进多项选择项目更好的性能标准小部件的性能简直太糟糕了特别是在添加一长串项目时在树视图小部件内拖放项目时滚动我可能会忘记一些但这些非
s3 安装在容器内。如何将其暴露给主机？

我一直在考虑是否有一个容器可以安装 s3 桶并将其暴露在外面 I used https github com FindHotel aws s3 mount https github com FindHotel aws s3 mount将 s
拖放文本视图

我必须拖动但无法完美拖动它问题是 1 我必须拖动两到三次才能将其带到所需的位置因此 textview 不能顺利跟随手指移动 2 如果我向上移动文本视图它只会向下移动我提供了触摸事件上textview的代码请帮忙提前致谢 fin
如何使用 Unix 套接字对来通信 Rust 和 Ruby 进程

我正在尝试使用 Unix 套接字对将 Rust 进程与 Ruby 子进程进行通信我只使用 Ruby 尝试过同样的操作它可以工作但我似乎无法让它与 Rust 一起工作我尝试将 rust socket 文件描述符传递给Ruby脚本将
python 中的聚合时间序列

我们如何按小时或分钟粒度聚合时间序列如果我有如下所示的时间序列那么我希望这些值按小时聚合 pandas 是否支持它或者是否有一种在 python 中实现它的好方法 timestamp value 2012 04 30T22 25 31
应用内购买产品 ID 是否必须以反向 DNS 开头？

应用内购买产品 ID 是否必须以反向 DNS 开头例如com mycompany My Awesome Game Level Pack 1或者它可以只是独立的吗Level Pack 1 产品 ID 可以是您想要的任何内容但建议您遵循反向
使用 rma.glmm 计算估计值：当 2 个估计值相同时出错

我正在使用 rma glmm 来计算两项不同研究的元比例例如 6 个月时出现 xi 和未出现 xii 不良事件的个体比例 library metafor 6 months study c 1 2 ni c 41 19 xi c 26 14
浏览器后退按钮未更新页面

我使用 jquery 单击事件在井号标记后设置 URL URL 设置正确但当我使用浏览器后退按钮时它不会将我带到上一页在我的点击事件之前 URL 如下所示 http example com menu php home 我的点击事件如下
如何使用 JavaZOOM JLayer 库播放/暂停 mp3 文件？

如何向以下代码添加播放暂停按钮 import javazoom jl player Player try FileInputStream fis new FileInputStream mysong mp3 Player playMP3
更新至 Safari 12.0 - Java 插件不再列出

更新到后Safari 版本 12 0 下面的Java插件Safari gt 首选项 gt 网站 gt 插件不再列出因此 Java Applet 不能在不安全模式下运行有没有办法启用 Java 插件或运行 Java 小程序在 macOS
Pandas：条件组特定计算

假设我有一个带有键例如客户 ID 和两个数字列 C1 和 C2 的表我想按键客户对行进行分组并在其列上运行一些聚合器例如 sum 和 Mean 在计算组聚合器之后我想将结果分配回 DataFrame 中的每个客户行因为一些客

Pandas：条件组特定计算

Pandas：条件组特定计算 的相关文章

随机推荐

热门标签

Pandas：条件组特定计算的相关文章