Pandas - 保持至少有两个不同代码的组

2024-03-04

我正在使用具有以下结构的 DataFrame：

import pandas as pd

df = pd.DataFrame({'group' : [1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4], 
                   'brand' : ['A', 'B', 'X', 'A', 'B', 'C', 'X', 'B', 'C', 'X', 'A', 'B'], 
                   'code' : [2185, 2185, 0, 1410, 1390, 1390, 0, 3670, 4870, 0, 2000, 0]})

print(df)

    group brand  code
0       1     A  2185
1       1     B  2185
2       1     X     0
3       2     A  1410
4       2     B  1390
5       2     C  1390
6       2     X     0
7       3     B  3670
8       3     C  4870
9       3     X     0
10      4     A  2000
11      4     B     0

我的目标是仅查看具有至少两个不同代码的组。过滤标准中不应考虑用 0 标记的缺失代码。例如，即使第 4 组中的两条记录具有不同的代码，我们也不会将这一组保留在最终的 DataFrame 中，因为其中一个代码丢失。

上面示例中生成的 DataFrame 应如下所示：

    group brand  code
1       2     A  1410
2       2     B  1390
3       2     C  1390
4       2     X     0
5       3     B  3670
6       3     C  4870
7       3     X     0

我没有设法解决这个问题。我认为第一步应该是创建一个掩码来删除缺少 (0) 代码的记录。就像是：

mask = df['code'].eq(0)
df = df[~mask]

print(df)

    group brand  code
0       1     A  2185
1       1     B  2185
3       2     A  1410
4       2     B  1390
5       2     C  1390
7       3     B  3670
8       3     C  4870
10      4     A  2000

现在只保留至少有两个不同代码的组，但我不知道如何在 Python 中解决这个问题。另外，此方法将删除我不想要的最终 DataFrame 中缺少代码的记录。我想了解整个团队的情况。

任何额外的帮助将不胜感激。

This is transform():

mask = (df.groupby('group')['code']
          .transform(lambda x: x.mask(x==0)    # mask out the 0 values
                                .nunique()     # count the nunique
                    )
          .gt(1)
       )
df[mask]

Output:

   group brand  code
3      2     A  1410
4      2     B  1390
5      2     C  1390
6      2     X     0
7      3     B  3670
8      3     C  4870
9      3     X     0

Option 2：类似的想法，但没有 lambda 函数：

mask = (df['code'].mask(df['code']==0)    # mask out the 0 values
            .groupby(df['group'])         # groupby
            .transform('nunique')         # count uniques
            .gt(1)                        # at least 2
       )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas - 保持至少有两个不同代码的组的相关文章

如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Python matplotlib 在鼠标悬停时不显示完整日期

我有一个数据框日期索引 and 温度值 Date Temperature 2015 10 21 9 118 2015 10 22 9 099 2015 10 23 8 945 2015 10 26 8 848 2015 10 27 8 84
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

使用 webView 时是否可以将 HTML 表单中的数据获取到 android 中？

我正在 HTML 中制作一个非常简单的表单可以使用 webview 在 android 中查看该 webview 使用文本框接收您的姓名当您单击按钮时它会将其显示到一个段落中并且它是使用 html 和 javascript 制作的
如何隐藏ide主窗口标题栏？（在 IntelliJ IDEA 中）

Title bar is completely useless for me Info it shows i can see in navigation bar It only takes space Is it possible to h
提取分隔符之间具有特定长度的整数

给定一个字符串列表例如 L 1759 1 83 0 email protected cdn cgi l email protection email protected cdn cgi l email protection 1094 em
如何根据 MVCContrib 网格中的数据设置行的样式？

我正在修补MVCContrib 网格 http mvccontrib codeplex com wikipage title Grid并陷入如何根据数据格式化网格中的一行数据的问题例如假设我们有一个产品网格其中每个产品都有名称价格和
端点“/api-docs”不适用于自定义 GsonHttpMessageConverter

我从 Springfox Swagger 迁移到 Springdoc OpenApi 我在有关 springdoc 的配置中添加了几行 springdoc pathsToMatch api api docs path api docs sw
在外部文件中保存Python字典？

我正在编写的代码本质上是一个超级基本的人工智能系统基本上是 Cleverbot 的简单 Python 版本作为代码的一部分我有一个起始字典其中有几个键其中包含列表作为值文件运行时字典会被修改创建键并将项目添加到关联列表中所
使用 jquery 和 cookie 切换和保留状态

我有 2 个用 jquery 切换的 div 我希望它们在页面重新加载时具有相同的状态因此使用 coockie 但无论如何它都会卡在其中一个 div 上那是因为我似乎无法设置正确的 coockie 怎么了
重命名 Rails 4 应用程序

我创建了一个 Rails 4 应用程序但名称已更改我已经更新了文件夹名称但我想知道我需要进入并更新哪些文件才能在整个站点中使用这个新名称或者是否有 Rails 命令可以快速轻松地完成此操作 https github com mors
CSS 转换被 JavaScript 阻止

我正在尝试在veryJavaScript 的密集期其中构建并填充了一些相当重的 3d 数组该加载栏需要保持为空直到用户单击按钮发生结冰现象是否我在用着 webkit transition 这个应用程序可以是 chrome 独有的在
关于 requireEnd Matcher 方法的澄清

直接来自this http docs oracle com javase 7 docs api java util regex Matcher html requireEnd 28 29java API 公共布尔 requireEnd 如果
如何合并字体？

我有很多字体 OpenSans bold ttf OpenSans boldItalic ttf OpenSans extrabold ttf OpenSans italic ttf OpenSans light ttf 我将如何继续只创建
在RecyclerView顶部设置进度条并在数据加载后删除

我想要一个加载图标显示在 RecyclerView 所在位置的顶部并在数据加载完成后消失它看起来像谁能帮我吗我的代码显示 RecyclerView 上方有一个 TextView 上面写着正在加载并在数据加载后消失但 Recy
在 cURL PHP 中发送请求时出现 401 未经授权的响应

我正在尝试使用 GitLab API 解决我的 gitlab 项目问题我已经尝试过但它似乎不起作用
ms Access 从查询中的文件导入表

有没有办法让 msAccess DB 查询从文件导入表是的只要数据被组织起来您可以将 VBA 或宏与 TransferText 一起使用也可以使用菜单或功能区中的获取外部数据这将指导您完成这些步骤 EDIT 您可以从 CSV 导
NSString 到 NSArray

我想分割一个NSString进入一个NSArray 例如给定 NSString myString ABCDEF 我想要一个NSArray like NSArray myArray A B C D E F 如何使用 Objective C
GWT为移动设备定制CellList多选模型

我有一个使用 MultiSelectionModel 的应用程序它工作得很好但我需要我正在开发的网站才能在移动设备上工作所以我无法使用键盘来帮助选择元素因为它不支持不存在例如在桌面上我只需按住 ctrl 并单击我想要选择的所
SQLAlchemy 提交 pickle 类型

我在 sqlalchemy 中提交对 pickle 类型列表的更改时遇到问题提交后它将表现得好像什么也没发生一样这是我尝试提交的功能 def commit move game id player move game game que
管理包：PyCharm vs conda vs pip

我是 Python 新手最近在 Windows 10 上安装了 PyCharm 2016 3 我还使用 Anaconda 3 我对包管理不太了解想更好地了解它通常我只是使用conda update all但我注意到通过检查本地 Py
Html画布1600x1200屏幕撕裂

我见过几个关于这个问题的问题但它们都已经存在了三年多了通常最后都会说还没有太多解决办法所以我想知道是否有什么改变我目前正在开发一款游戏该游戏使用每秒发生 60 次的间隔在画布上进行绘制它在我的 iPhone 和 PC 上运行得很
Pandas - 保持至少有两个不同代码的组

我正在使用具有以下结构的 DataFrame import pandas as pd df pd DataFrame group 1 1 1 2 2 2 2 3 3 3 4 4 brand A B X A B C X B C X A B c

Pandas - 保持至少有两个不同代码的组

Pandas - 保持至少有两个不同代码的组 的相关文章

随机推荐

热门标签

Pandas - 保持至少有两个不同代码的组的相关文章