熊猫标签重复

2024-03-06

给定以下数据框：

import pandas as pd
d=pd.DataFrame({'label':[1,2,2,2,3,4,4],
               'values':[3,5,7,2,5,8,3]})
d
    label   values
0     1       3
1     2       5
2     2       7
3     2       2
4     3       5
5     4       8
6     4       3

我知道如何计算这样的唯一值：

d['dup']=d.groupby('label')['label'].transform('count')

结果是：

    label   values  dup
0     1     3       1
1     2     5       3
2     2     7       3
3     2     2       3
4     3     5       1
5     4     8       2
6     4     3       2

但我想要的是一个具有以下值的列：1如果有1 unique每个标签列的行，2如果有duplicates有问题的行是first这样的，以及0如果该行是duplicate一个原创的。像这样：

    label   values  dup  status
0     1     3       1     1
1     2     5       3     2
2     2     7       3     0
3     2     2       3     0
4     3     5       1     1
5     4     8       2     2
6     4     3       2     0

提前致谢！

我想你可以使用loc http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html具有由函数创建的条件duplicated http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.duplicated.html:

d['status'] = 2
d.loc[d.dup == 1, 'status'] = 1
d.loc[d.label.duplicated(), 'status'] = 0 
print (d)

   label  values  dup  status
0      1       3    1       1
1      2       5    3       2
2      2       7    3       0
3      2       2    3       0
4      3       5    1       1
5      4       8    2       2
6      4       3    2       0

或双numpy.where http://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.where.html:

d['status1'] = np.where(d.dup == 1, 1,
               np.where(d.label.duplicated(), 0, 2))

print (d)  
   label  values  dup  status  status1
0      1       3    1       1        1
1      2       5    3       2        2
2      2       7    3       0        0
3      2       2    3       0        0
4      3       5    1       1        1
5      4       8    2       2        2
6      4       3    2       0        0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

duplicates

unique

conditionalstatements

熊猫标签重复的相关文章

Django 独特的不工作

我在从查询中过滤掉重复项时遇到问题我正在使用 Django 1 4 和 Postgres 8 4 13 我在我的模型对象上使用这个查询它是一个 jquery 自动完成 term request GET get term field re
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
Pandas 多索引数据框中组之间的计算

假设我生成一个多索引数据框如下 arrays np array bar bar baz baz foo foo qux qux np array one two one two one two one two df pd DataFrame
Pandas：使用日期时间索引列表从 DataFrame 中提取多行

我有一个 pandas Dataframe 其索引具有秒频率 DatetimeIndex 2015 12 28 05 20 05 2015 12 28 05 20 06 2015 12 28 05 20 07 2015 12 28 05 2
没有名为“PIL”的模块

当我尝试时遇到错误 from PIL import Image ImageFilter 在 Python 文件中我收到一条错误消息ModuleNotFoundError No module named PIL 到目前为止我已经尝试卸载重
如果 csv 存储为变量，如何使用 pandas read_csv() 方法？

我正在尝试处理谷歌电子表格中的数据将其读入 csv 然后使用 pandas read csv 将其作为数据框处理我可以将 csv 读入变量下面的变量 data 但不能在变量上使用 pandas read csv 我尝试使用 os cw
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
如何优化分割重叠范围？

我编写的这个 Python 脚本用于将重叠范围拆分为唯一范围最后一次迭代 https codereview stackexchange com questions 285932 python script to split overlap
在sklearn中将文本列转换为数字

我是数据分析新手我正在尝试 python Sklearn 中的一些模型我有一个数据集其中某些列具有文本列就像下面这样 Dataset 有没有办法将这些列值转换为 pandas 或 Sklearn 中的数字为这些值分配数字是对的吗
根据数据框中的内容从SQL Server删除行

我在 SQL Server 中有一个名为的库存表dbo inventory其中包含Year Month Material and Stock quantity 我每天都会收到 csv 文件形式的新库存计数需要将其加载到dbo invent
根据 pandas 列中的字符串值从 DataFrame 中选择行

如何根据pandas列中的字符串值从DataFrame中选择行我只想显示全部大写的状态各州拥有城市总数 import pandas as pd import matplotlib pyplot as plt pylab inline d
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此

随机推荐

使用 CALayer 委托

我有一个 UIView 其图层将有子图层我想为每个子图层分配委托因此委托方法可以告诉图层要绘制什么我的问题是作为 CALayer 的代表我应该提供什么文档说不要使用图层所在的 UIView 因为这是为视图的主 CALayer 保留
自定义控件中的选择器

我正在建立一些表格使用TableView 并注意到我对单元格的样式设置相同我决定将这段重复的代码重构为一个公共控件 I am struggling to get the binding to work on the picker cor
如何暂停在终端中运行的Python脚本

我有一个网络爬行 python 脚本在终端中运行了几个小时它不断填充我的数据库它有几个嵌套的 for 循环由于某些原因我需要重新启动计算机并从我离开的位置继续执行脚本是否可以保留指针状态并恢复之前在终端中运行的脚本我正在寻找一种
ShellExecute 对于本地 html 或文件 URL 失败

我们公司正在将我们的帮助系统迁移到 Flare 下的 HTML5 格式我们还在 URI 命令行上使用 Flare CSHID 添加了对帮助系统的基于主题的访问以便直接访问主题例如index html CSHID GettingStar
MVC中如何定义img src路径

我的 index cshtml 带有图像里面还有一个Images文件夹myApp Images folder 如果我访问 http localhost myApp 或 http localhost myApp home 工作正常但如果我
gcc 是否会根据条件优化我的循环？

我有以下循环 condition will be set here to true or false for int i 0 i lt LARGE NUMBER i if condition do foo else do bar 假设无条
如何设计一个带有“注释”字段的类？

想象一下我们有某种包含数百种消息类型的协议我们希望通过 C 类对每种消息类型进行建模由于每个类应该能够自动处理每个字段一个自然的解决方案是只拥有一个std tuple具有所有必需的类型 std tuple
“平面文件源”(471) 预执行阶段失败并返回错误代码 0xC020200E。我该如何阻止这种情况发生？

你好我想知道你是否可以帮忙每个星期我都会收到这个错误平面文件源 471 预执行阶段失败并返回错误代码 0xC020200E 无法打开数据文件 G Data 待处理 RO Orders csv 我知道如果我进入平面文件连接管理器编辑器
检查 MySQL 中的日期范围冲突

我正在写一个酒店预订系统经过大量研究包括堆栈溢出我编写了这个 sql 来查找空闲房间 SELECT FROM room WHERE room id NOT IN SELECT room id FROM bookings WHERE c
从快捷键运行宏时不出现输入框

我有一个简单的小 Excel 宏用于打开模板询问文件名并保存文件它从 Microsoft VBA 窗口运行没有问题但当从 Excel 使用快捷键时它会打开文件但不显示输入框 Sub NewCommentSheet NewComm
如何获取浏览器内存中的 JavaScript 对象大小和计数

我知道你们大多数人都会向我指出chrome profiler heap snapshot 但是在空页面上没有js没有css 只有html gt body 它显示8mb堆大小和12到30000个对象取决于他的心情所以对于这个任务来说它是完
Yii2 查看日期时间格式 (d-m-Y H:i:s) 但在数据库中保存/更新时将格式更改为 Y-m-d H:i:s

我正在使用 Kartik DateTimePicker 扩展
opencv中python导入错误

尝试导入 opencv 时出现此错误 gt gt gt import cv2 RuntimeError module compiled against API version 0xa but this version of numpy is
MongoDB - 安装错误 - mongodb 安装向导提前结束

我之前安装的时候也遇到过这个问题也检查了其他线程但在我的情况下无法找到正确的解决方案 UPDATE CLOSED 取消选中Install MongoDB Compass设置向导中的选项为我工作
Android TextView：设置文本时获取“W/StaticLayout：maxLineHeight 不应为-1。maxLines：1 lineCount：1”

我根据计时器每 0 5 秒在 TextView 上设置一些文本每次当计时器运行并设置文本时我都会在控制台中收到此警告消息 W StaticLayout maxLineHeight 不应为 1 最大行数 1 行数 1 XML代码
python 闭包 + oop

我正在尝试用 python 闭包做一些有点奇怪的事情至少对我来说假设我有两个这样的课程 usr bin python import types def method a self print ma d self val class A
将 YAML 文件转换为 Application.properties [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们如何将 YAML 文件转换为应用程序属性 pay payment sandbox Url https securegw stage p
jquery keypress() 事件获取文本

我希望在文本框上按下按键时运行一个函数所以我有以下代码 input x keypress function DoX 这工作正常但在我的函数中我想根据文本框中的文本值做一些事情 var textValue input x val 现在的问
java.util.AbstractList.remove 处的 java.lang.UnsupportedOperationException（来源未知）

我试过下面的代码 String s 1 2 3 4 Collection c Arrays asList s System out println c remove 1 remove flag System out println coll
熊猫标签重复

给定以下数据框 import pandas as pd d pd DataFrame label 1 2 2 2 3 4 4 values 3 5 7 2 5 8 3 d label values 0 1 3 1 2 5 2 2 7 3 2

熊猫标签重复

熊猫标签重复 的相关文章

随机推荐

热门标签

熊猫标签重复的相关文章