可以根据 nunique 值删除数据框中的行吗？

2023-12-08

我想忽略该职业的唯一名称少于 2 个的行：

name        value      occupation
   a           23      mechanic
   a           24      mechanic
   b           30      mechanic
   c           40      mechanic
   c           41      mechanic
   d           30      doctor
   d           20      doctor
   e           70      plumber
   e           71      plumber
   f           30      plumber
   g           50      tailor

I did:

df.groupby('ocuupation')['name'].nunique()
>>>>>>
occupation
mechanic   3
doctor     1
plumber    2
tailor     1
Name: name, dtype: int64

是否可以使用类似的东西df = df.drop(df[<some boolean condition>].index)?

期望的输出：

name        value      occupation
   a           23      mechanic
   a           24      mechanic
   b           30      mechanic
   c           40      mechanic
   c           41      mechanic
   e           70      plumber
   e           71      plumber
   f           30      plumber

Use GroupBy.transform with Series.ge获得等于或大于的值2:

df = df[df.groupby('occupation')['name'].transform('nunique').ge(2)]
print (df)
  name  value occupation
0    a     23   mechanic
1    a     24   mechanic
2    b     30   mechanic
3    c     40   mechanic
4    c     41   mechanic
7    e     70    plumber
8    e     71    plumber
9    f     30    plumber

您的解决方案是系列中索引的过滤值与Series.isin:

s = df.groupby('occupation')['name'].nunique()

df = df[df['occupation'].isin(s[s.ge(2)].index)]
print (df)
  name  value occupation
0    a     23   mechanic
1    a     24   mechanic
2    b     30   mechanic
3    c     40   mechanic
4    c     41   mechanic
7    e     70    plumber
8    e     71    plumber
9    f     30    plumber

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

drop

可以根据 nunique 值删除数据框中的行吗？的相关文章

Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
如何配置应用程序中的所有记录器

Python 的日志记录模块允许模块或类定义自己的记录器不同的记录器可以有不同的处理程序其中一些可能选择记录到文件而另一些则选择记录到标准输出现在我的应用程序使用其中几个模块每个模块都有自己的记录器这些记录器具有各种处理程序
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
计算 R 中数据帧的每一行中特定值的连续出现次数

我有一个data frame许多位置这么多行的变量的每月值我想计算值为零的连续月份即连续单元格的数量如果只是从左到右阅读这很容易但增加的复杂性是年底与年初是连续的例如在下面的缩短示例数据集中用季节而不是月份位置 1
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
从多个大型 NetCDF 文件中提取数据的快速/高效方法

我只需要从全局网格中提取特定节点集的数据由纬度经度坐标按 5000 10000 的顺序给出这些数据是水力参数的时间序列例如波高全局数据集很大因此分为许多 NetCDF 文件每个 NetCDF 文件大小约为 5GB 包含整个
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce

随机推荐

如何将python变量传递给html变量？

我需要从 python 中的文本文件读取 url 链接作为变量并在 html 中使用它文本文件 file txt 仅包含一行 http 188 xxx xxx xx 8878 这一行应该保存在变量 link 中然后我应该在html中使
解决 Azure YAML Pipeline 多个变量组中变量名称重叠的问题

我们正在努力将经典 Azure Pipelines 转换为 YAML Pipelines 不清楚的一件事是如何确保两个具有相同名称但不同含义的变量的不同变量组不会互相踩踏例如如果我有变量组vg1 and vg2 每个变量都有名为secr
从 EF Core 加载时计算 NotMapped 属性

我们确实有一个实体类定义如下 Table Users Schema Mstr Audited public class User public virtual string FamilyName get set public virtual
最大宽度与最小宽度

我正在阅读的大多数关于使用媒体查询的教程都演示了如何使用min width 但我很少看到人们使用max width 这是人们使用的某种设计趋势或模式吗 min width over max width 例如我正在设计一个从移动设备开始一直
使用 boost 几何体调整几何对象模型的其他问题

我想将 boost geometry 算法应用于以下不可变的 2D 模型分别由点多边形开放或封闭和多边形域类具有任意数量的孔类组成如下所示 include
如何给客户一个matlab项目？

如果一家公司从事 matlab 项目那么他们如何向客户提供该项目我的意思是他们将哪个文件发送给客户因为他们无法向客户移交整个代码和数据这取决于很多事情例如您为客户构建的产品的性质您与他们的关系和合同协议以及他们将来是否需要修改
PySpark java.io.IOException：方案没有文件系统：https

我正在使用本地窗口并尝试加载XML在 python 上使用以下代码的文件我遇到了这个错误有谁知道如何解决它这是代码 df1 sqlContext read format xml options rowTag IRS990EZ load
如何避免警告“使用集合获取指定的firstResult/maxResults；在内存中应用！”当使用休眠时？

我在服务器日志中收到警告通过集合获取指定的firstResult maxResults 在内存中应用然而一切工作正常但我不想要这个警告我的代码是 public employee find int id return employee
扩展记录何时引入？

在 Delphi 7 中记录只不过是分组到一个位置的数据集合在过去的几个版本中您已经能够向它们添加公共和私有成员方法属性和构造函数将它们更像对象一样对待这个扩展语法是在哪个版本中引入的编辑如果有人想知道我为什么问我正在尝
在ggplot2中循环数据帧

我想使用来自多个不同数据帧的 ggplot 绘制一系列绘图我计划使用一个列表并迭代该列表如下所示 libraries lt objects make a list of the dataframes we want to graph f
Laravel 应用程序未在 xampp 或实时服务器上运行，但在 php artisan 服务上运行良好

我的 laravel 应用程序无法在 xampp 或实时服务器上运行但在 PHP artisanserve 提供的链接上运行良好每当我在 xampp 上运行这个应用程序时它都会返回 404 错误我还有其他 Laravel 应用程序也
如何连接sql server表

我在连接两张桌子时遇到一些麻烦这是我的两张桌子的样子 Table 1 Customer ID CustomerName Add 1000 John Smith 1001 Mike Coles 1002 Sam Carter Table 2
获取 MySQL 中特定值的 Json 键

我刚刚安装了 MySQL 5 7 27 我想使用一些 Json 字段所以我创建了一些记录例如字段中的这个值 Intitule name Intitule de la formation stats false is array fals
如何从视图调用codeigniter控制器函数

如何从视图调用codeigniter控制器函数当我在控制器中调用该函数时得到一个 404 页面您可以通过以下方式从视图调用控制器函数控制器 public function read object controller this th
div 内包含很长的文本

好的我在 div 内包含文本时遇到问题当它被空格分解时它会移动到下一行但如果有 1 行很长的文本它不会移动到下一行有人可以帮我解决这个问题吗你可以尝试这个CSS word wrap break word 或包含元素上的 thi
在 HTML 视频上加载字幕时出现安全错误

所以我在 HTML5 视频的字幕上遇到了一些意外的行为我将我的视频字幕文件存储在 Google Cloud Storage 上并且我有一个网络界面来观看电影我的服务器为电影和字幕文件生成签名 URL 电影播放正常并且我可以使用 U
从字母数字字符串中检索字母字符

我怎样才能分开AB2468123 with Excel VBA 我尝试了以下一些方法 myStr AB2468123 split myStr 1 OR 2 OR 3 9 我只想得到字母字母 Thanks 只从输入字符串中检索字母怎么样 F
将字符日期和时间（以毫秒为单位）转换为 R 中的数字

我有以下时间戳向量 Timestamp lt c 30 09 2016 11 45 00 000 01 10 2016 06 19 57 860 01 10 2016 06 20 46 393 时间戳是包含其他度数和权重列的表的一部分不幸
创建半透明面板/控件。有没有万无一失的方法呢？

我正在尝试创建一个源自的半透明控件System Windows Forms Panel 编辑基本上我想要实现的是这样的我浏览了大量的网络文章以及SO问题并提出了这个 class SeeThroughPanel Panel public
可以根据 nunique 值删除数据框中的行吗？

我想忽略该职业的唯一名称少于 2 个的行 name value occupation a 23 mechanic a 24 mechanic b 30 mechanic c 40 mechanic c 41 mechanic d 30 do

可以根据 nunique 值删除数据框中的行吗？

可以根据 nunique 值删除数据框中的行吗？ 的相关文章

随机推荐

热门标签

可以根据 nunique 值删除数据框中的行吗？的相关文章