Pandas 相当于 SQL 中的 GROUP BY HAVING

2024-02-15

在 pandas 中使用 groupby 并并行应用过滤器的最有效方法是什么？

基本上我要求 SQL 中的等效项

select *
...
group by col_name
having condition

我认为有很多用例，包括条件均值、总和、条件概率等，这将使这样的命令非常强大。

我需要非常好的性能，所以理想情况下这样的命令不会是在 python 中完成的多个分层操作的结果。

正如 unutbu 的评论中提到的，groupby 的过滤器 http://pandas.pydata.org/pandas-docs/stable/groupby.html#filtration相当于 SQL 的 HAVING：

In [11]: df = pd.DataFrame([[1, 2], [1, 3], [5, 6]], columns=['A', 'B'])

In [12]: df
Out[12]:
   A  B
0  1  2
1  1  3
2  5  6

In [13]: g = df.groupby('A')  #  GROUP BY A

In [14]: g.filter(lambda x: len(x) > 1)  #  HAVING COUNT(*) > 1
Out[14]:
   A  B
0  1  2
1  1  3

您可以编写更复杂的函数（这些函数适用于每个组），只要它们返回一个普通的 ol' bool：

In [15]: g.filter(lambda x: x['B'].sum() == 5)
Out[15]:
   A  B
0  1  2
1  1  3

Note: 可能存在错误 https://github.com/pydata/pandas/issues/6512您无法编写函数来对您用于分组的列进行操作...解决方法是手动对列进行分组，即g = df.groupby(df['A'])).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

sql

pandas

groupby

Filtering

Pandas 相当于 SQL 中的 GROUP BY HAVING 的相关文章

将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
在 where 子句中使用聚合函数和不同的列条件

select PO Order Qty Avg PO Order Qty as totalAverage FROM FirstStrike Retail custom Whse Pricing QR where item code 111
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在 SQL Server 中通过标准差消除异常值

我试图通过标准差消除 SQL Server 2008 中的异常值我只想要特定列中包含该列平均值的 1 标准差范围内的值的记录我怎样才能做到这一点如果您假设事件呈钟形曲线分布则只有 68 的值与平均值相差 1 个标准差以内 95 的值
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
SQL Server 中的嵌套事务

sql server 允许嵌套事务吗如果是的话那么交易的优先级是什么来自 SQL Server 上的 MSDN 文档嵌套交易 http msdn microsoft com en us library ms189336 SQL 90
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code
计算包含字母/数字的行数

我想要实现的目标很简单但是解释起来有点困难我不知道在 postgres 中这是否真的可能我处于相当基础的水平 SELECT FROM WHERE LEFT JOIN ON HAVING 等等基本的东西我正在尝试计算包含特定字母数字

随机推荐

异步 WCF 方法 WebOperationContext 在等待后为 null

在以下示例中该方法公开为 WCF 服务操作并且该服务托管在 IIS 中进入该函数时 WebOperationContext Current 将按预期设置然而等待完成等待后 WebOperationContext Current 将
如何使用CSS在占位符中获取星号

I want to add an asterisk mark to placeholder of inputs Something like this 我已经搜索过互联网但找不到有效的解决方案我目前的做法目前我正在尝试将其添加到 aft
很好的黄瓜教程，不依赖于 Rails [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个好的黄瓜教程它不会强迫我使用 Rails 有什么好的建议吗我相信Rspec 书 ht
您指定了正确的主机或端口吗？ Kubernetes 上的错误

我已经按照 hello world 教程进行了操作http kubernetes io docs hellonode http kubernetes io docs hellonode 当我跑步时 kubectl run hello nod
ggplot2scale_x_连续限制或绝对

我在循环中使用以下 ggplot2 v0 9 scale x continious 逻辑按县名称试图将每个县的数据绘制在具有相同 x 比例的单独图上 MaxDays 365 3 p lt p scale x continuous lim
如何强制 IntelliJ 使用 Maven 下载 javadocs？

我对项目结构中的一些 Maven 条目有以下描述文件系统中确实不存在 Javadoc 文件同时它存在于中央存储库中为什么没有下载如何强制下载 UPDATE 这些选项已经开启设置后尝试重新编译关闭打开等单击IntelliJ右
ARM 皮质：使用位带的互斥体

鉴于此在 ARM Cortex M3 上我可以原子地读取一位原子地设置一位原子地清除一位如何将这些组合起来形成互斥体样式的操作集 try lock take lock release lock 看起来try lock or ta
python 中使用 pandas dataframe 和 statsmodels 或 scipy 进行方差分析？

我想使用 Pandas 数据框来分解一个变量的方差例如如果我有一个名为度的列并且我已针对各种日期城市以及夜间与白天对其进行了索引那么我想找出该系列中的变化中有多少部分来自横截面城市变化有多少来自时间序列变化有多少来自夜间与
CSS：#id .class VS .class 性能。哪个更好？

我认为这会更快 dialog videoContainer width 100px than videoContainer width 100px 当然不考虑这一点 videoContainer在第一个示例中只会在以下样式下设置样式 di
非空终止字符数组

include
使用带有导航器的滑动菜单的 Onsen-UI

好的问题是我有一个带页面的工作滑动菜单现在我的一个页面有一个 ons list 通过单击ons list item 我想导航到带有后退按钮的新页面我到处搜索但没有找到解决我的问题的任何正确方法这是我的代码
在集合视图中显示两个不同的单元格 - Swift 2.0 iOS

我正在开发一个交易应用程序我希望拥有静态数量的单元格加载时用户将看到 5 个单元格每个单元格都显示一个标有添加的标签当添加玩家时该单元格显示玩家信息其他 4 个单元格仍然显示添加标签另一个是添加的 2个单元格
从node js到django的csrf问题

我想将 csrftoken 从 node js 传递到 django 我的 server js 中有这段代码 socket on unread global function data var values querystring stri
LINQ to SQL 谓词生成器

我使用 PredicateBuilder 如下所示http www albahari com nutshell predicatebuilder aspx http www albahari com nutshell predicatebu
Python Selenium 打印文本字段的值显示为空。该值未打印

我正在尝试将文本字段的值打印到控制台该网页的文本字段中的值为 1 000 000 1 000 000 应该打印但我的方法是打印空白我正在使用 Python Webdriver 我正在使用 text 它应该获取文本字段的文本值我的方法
初始化并声明为“extern”，为什么我看到下面的警告？ [复制]

这个问题在这里已经有答案了为什么我会看到以下警告警告 i 已初始化并声明为 extern include
使用 renderUI 在 ShinyR 中创建选项卡时如何在不同对象中重用数据集

我开发了一个闪亮的应用程序在不同的选项卡下包含几个绘图和数据选项卡是使用另一个参数动态创建的但每次我都必须对数据进行子集化以准备绘图假设使用 mpg 子集数据我在 mpg 选项卡中绘制了两种不同类型的图表并且我不想在绘制绘图时每
在美味派视图中暴露“虚拟”字段？

我想使用 tastypie 创建一个视图来公开相同类型的某些对象但具有以下 two 三个变化我需要使用三个单独的查询来获取对象我需要添加一个底层模型中不存在的字段该字段的值取决于它来自哪个查询和数据将是每个用户的因此我需要连接
wix 在 Windows XP 上安装期间使用了不正确的字体

在基本安装模式 msiexe i MyInstaller msi qb 期间我在 MSI 进度对话框中看到的是方框而不是字符有没有办法更改基本 MSI 对话框中使用的字体 TTF FontFace 1 微星日志 MSI c A4 EC
Pandas 相当于 SQL 中的 GROUP BY HAVING

在 pandas 中使用 groupby 并并行应用过滤器的最有效方法是什么基本上我要求 SQL 中的等效项 select group by col name having condition 我认为有很多用例包括条件均值总和条件概

Pandas 相当于 SQL 中的 GROUP BY HAVING

Pandas 相当于 SQL 中的 GROUP BY HAVING 的相关文章

随机推荐

热门标签