识别 Pandas 数据框中组中重复项的更好方法？ [复制]

2024-04-24

我有一个数据框

我想生产

   c  x duplicated
0  1  0      False
1  2  3      False
2  1  1      False
3  1  2       True
4  1  3       True
5  1  4      False
6  0  1      False
7  1  3       True
8  1  2       True
9  2  1      False

即分组依据c首先，标记组中所有重复的行。

我目前的做法是

c = np.random.randint(0, 3, 10)
x = np.random.randint(0, 5, 10)
d = pd.DataFrame({'x': x, 'c': c})
d['duplicated'] = d.groupby('c').apply(
    lambda x: x.duplicated(keep=False)
).reset_index(level=0, drop=True)

还有更好的办法吗？

Use duplicated http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.duplicated.html仅 - 默认情况下它验证所有列：

d['duplicated'] = d.duplicated(keep=False)
print (d)
   x  c  duplicated
0  0  1       False
1  3  2       False
2  1  1       False
3  2  1        True
4  3  1        True
5  4  1       False
6  1  0       False
7  3  1        True
8  2  1        True
9  1  2       False

d['duplicated'] = d.duplicated(subset=['c','x'],keep=False)
print (d)
   x  c  duplicated
0  0  1       False
1  3  2       False
2  1  1       False
3  2  1        True
4  3  1        True
5  4  1       False
6  1  0       False
7  3  1        True
8  2  1        True
9  1  2       False

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

识别 Pandas 数据框中组中重复项的更好方法？ [复制] 的相关文章

python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
pyqt5调用url时处于无响应状态

我刚刚在 pyqt 中实现了登录但在调用 url 和获取响应之间 qt 窗口显示无响应状态谁能建议我如何避免不响应状态 code class Login QDialog def init self height width parent
这是在 python 中美白图像的正确方法吗？

我在尝试着zero center and whiten CIFAR10数据集但我得到的结果看起来像随机噪声 Cifar10数据集包含60 000尺寸的彩色图像32x32 训练集包含50 000和测试集包含10 000分别是图像以下代码片
使用 python 在网络上部署 matlab 应用程序

您好我想使用 python 在网络上部署 matlab 应用程序有没有办法做到这一点我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类有人能指出我前进的正确方向吗事实上您的 Matlab 代码打包为 J
使用 openCV 和 python 检测物体

我正在尝试使用 OpenCV 和 Python 检测下图中的白点我尝试使用函数 cv2 HoughCircles 但没有成功我需要使用不同的方法吗这是我的代码 import cv2 cv import numpy as np impo
为 Mercurial 执行 hgweb.cgi 时，指定的 CGI 应用程序行为不当...

我有 IIS 6 我将 Mercurial 安装在 c program files mercurial 中我在 c program files python 中安装了 Python 2 6 I added extension handli
如何使用生成器遍历文件系统？

我正在尝试创建一个实用程序类来遍历目录中的所有文件包括子目录和子子目录中的文件我尝试使用发电机因为发电机很酷然而我遇到了困难 def grab files directory for name in os listdir dire
将 Pandas 列转换为日期时间

我在 pandas DataFrame 中有一个字段以字符串格式导入它应该是一个日期时间变量如何将其转换为日期时间列然后根据日期进行过滤 Example raw data pd DataFrame Mycol 05SEP2014 00
有效地减去不同形状的 numpy 数组

使用 numpy 出色的广播规则您可以减去形状 3 数组v来自形状 5 3 数组X with X v 结果是一个形状 5 3 数组其中每一行i是有区别的X i v 有没有办法减去形状 n 3 数组w from X使得每一行w从整个数组中
如何找到运行代码的 conda 环境的名称？

我正在寻找一种好方法来从正在运行的代码或交互式 python 实例中找出我所在的 conda 环境的名称用例是我通过 miniconda 安装运行带有 Python 2 和 Python 3 内核的 Jupyter 笔记本默认环境是Py
如何在 Microsoft Azure 中提取 Blob 存储中的 Blob 的上次修改日期

我对 MS Azure 的世界还很陌生我正在尝试使用 Python 获取保存在我的 blob 存储中的一堆文件块 blob 的文件名和最后修改日期这是我正在使用的代码 import datetime from azure storag
tweepy 计数限制为 200？

我目前正在尝试检索一些拥有大量关注者的大帐户的关注者我正在使用 Tweepy 和这段代码带光标 follower cursors tweepy Cursor api followers id id var count 5000 for
Python Shutil.copy 如果我有重复文件，它会复制到新位置吗

我正在与shutil copypython 中的方法我找到了下面列出的定义 def copyFile src dest try shutil copy src dest eg src and dest are the same file
Django - 在启动时执行代码

我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目我想在项目启动时更新其中一个应用程序的表用例例如假设我想在我的网站上销售商品我有一个包含模型项目的应用程序我在 Django 之外有一个网络服务它提供服务 g
Python 用 lambda 函数封闭作用域变量

我写了这个简单的代码 def makelist L for i in range 5 L append lambda x i x return L 好的现在我打电话 mylist makelist 因为稍后调用嵌套函数时会查找封闭范围变量
Python：从 apache authnz_ldap 获取用户

我正在通过 Apache2 的 authnz ldap 模块成功验证 ldap 用户我不清楚如何在他们登录后获取他们的用户名以便我可以通过任何以下表单网页与他们交互我尝试过典型的方法 os getenv os environ get
Seaborn 分组条形图，使用总值而不是平均值

我有一个关于如何组织数据以使用 seaborn 制作条形图的问题我的数据输入如下所示 influencer platform reach person a instagram 10000 person b instagram 5000 p
从tensorflow 2.0 beta中的tf.data.Dataset检索下一个元素

在tensorflow 2 0 beta之前要从tf data Dataset中检索第一个元素我们可以使用迭代器如下所示 usr bin python import tensorflow as tf train dataset tf
将下载的字体添加到 Tkinter

我想下载一个开源字体并在我的 Python Tkinter 程序中使用它如何告诉 Tkinter 从目录导入字体或将字体放在与程序相同的文件夹中 Note 我已经寻找答案一段时间了甚至阅读了 Tkinter 的 API 参考了解我能找

随机推荐

cmake：在 CMakeLists.txt 中选择生成器

我想强制CMake使用 Unix Makefiles 发电机来自 CMakeLists txt 中这是我现在使用的命令 cmake G Unix Makefiles 我希望是这样的 cmake 当在安装了 VC 和自定义工具链的 Wind
在引导响应页面中如何将 div 居中

我需要使用 bootstrap 将 div 放置在页面的中心来创建响应式页面如下面提到的布局所示 Bootstrap 5 更新使用弹性盒进行简单的垂直网格对齐 import url https cdnjs cloudflare com
如何在 shell 函数中获得“set -e”的效果和用处？

set e 或以 bin sh e 对于出现问题时自动轰炸非常有用它使我不必对每个可能失败的命令进行错误检查如何在函数内获得与此等效的内容例如我有以下脚本该脚本在出现错误时立即退出并显示错误退出状态 bin sh e echo
根据内部数组中的值对外部数组进行排序，javascript

我有一个包含数组的数组我想根据内部特定列中的值对外部数组进行排序我敢打赌这听起来有点令人困惑所以我将直接跳到一个例子初始数据 var data row 1 col1 2 row 1 col2 c row 1 coln row 2 c
分析跟踪新 Web+App 中的自定义事件

我曾经使用以下命令跟踪自定义事件 API 命中 google analytics and PHP via cURL 但现在分析正在弃用这种方法我知道新的分析 Web App 用于跟踪此类事件但我找不到任何可以让我跟踪这些事件的东西我当
React Native项目没有index.ios.js或index.android.js

你好我是 React Native 的新手我按照下面的链接构建了我的第一个项目但发现没有 index ios js 或 index android js 可供我编辑 https facebook github io react nat
如何在gnuplot中绘制带有彩色边框的矩形

我想在我的图中画一个空矩形到目前为止我有 set style rect back fs empty border lt 3 set object 1 rect from 1 1 to 2 2 我有一个带有虚线的矩形如何更改线条的颜色 l
F# 中的异步 EF 查询

在使用 EF6 的 C 中我可以轻松地进行如下异步操作 using var context new MyDbContext var item await context SomeEntities Where e gt e Id 1 Fir
如何在窗口窗体中制作圆形标签？

众所周知标签通常是正方形或长方形我真的需要制作圆形标签谁能告诉我这是否可能或者至少为我指出正确的方向抱歉只是为了把事情说清楚我想要一个圆形标签不仅仅是在屏幕上画一个圆圈您可以设置 Label 的 Region 属性 var
在 CentOS 6.4 中意外删除了符号链接 libc.so.6。如何获得 sudo 权限来重新创建它？

我不小心删除了符号链接 lib64 libc so 6 gt lib64 libc 2 12 so sudo rm libc so 6 然后我不能使用任何东西包括ls命令我输入的任何命令都会出现错误 ls error while loa
如何使用 USPS 验证给定地址？

我想向 USPS 验证给定的地址地址城市州邮政编码如果提供的地址是有效地址则返回结果如果不是有效地址则返回无效地址那么我怎样才能在 C Net 中做到这一点呢美国邮政服务 USPS 通过其地址信息 API 提供此服务 U
扁平按钮与凸起按钮

我想知道之间的基本区别Flat button and Raised Button 根据新Android材料设计指南我想使用凸起按钮但我不知道它们是什么网络上有一些论坛显示一个凸起的按钮但他们称之为扁平谁能告诉我两者之间的基本区别
Android 找不到类异常

我正在使用两个单独的类其中一个有一些按钮另一个打开谷歌地图我正在其上进行覆盖如果有人能看到我打开 Map class 的意图的问题请告诉我我将输入我的错误消息和代码 package com state park import j
ORM 是用于迁移数据的正确工具吗？

背景我们正在升级旧版导入工具它的作用是将数据从连接到 SQL Server 的一个数据库移动到同一服务器上的第二个数据库并使用不同的模式沿途执行转换和映射这是一个帮助解释正在发生的事情的示例假设源数据库有一张表名为Client I
Java - 点在线

我如何找出点 x y 是否位于其他两个点之间创建的线上我尝试了这个但似乎有些问题因为我没有得到我应该得到的结果 public boolean intersects Point k Point z Point p Line2D line
Jackson 或 JAXB，哪一个更适合 JSON？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我想知道 JSON Jackson 或 JAXB 哪一个更好我做了一些研究我知道也许我错了我们不应该使用 JAXB 来转换 JSON 某
比较当前月份和上个月的列上的行，SQL Server 2012

我需要一些指导和帮助来解决我不完全确定如何在 SQL Server 2012 中解决的问题我认为LAG and LEAD函数可能有用但我不确定这就是我的数据现在的样子 YearMonth LocationCode Active 201
是否可以使用文件名模式创建 blob 触发的 azure 函数？

我正在开发一个 blob 触发的 azure 函数以下是我的 function json 文件的配置 disabled false bindings name myBlob type blobTrigger direction in pa
如何在 CKEditor 中更改已注册的对话框

我正在尝试编写一个插件向图像对话框添加一个附加选项卡页面我不想更改对话框的源本身而是使用插件来增强它我搜索文档和论坛已经有一段时间了现在我知道我可以在对话框对象上调用 addPage 来添加另一个选项卡我也了解内容对象必须是什
识别 Pandas 数据框中组中重复项的更好方法？ [复制]

这个问题在这里已经有答案了我有一个数据框 x c 0 0 1 1 3 2 2 1 1 3 2 1 4 3 1 5 4 1 6 1 0 7 3 1 8 2 1 9 1 2 我想生产 c x duplicated 0 1 0 False 1

识别 Pandas 数据框中组中重复项的更好方法？ [复制]

识别 Pandas 数据框中组中重复项的更好方法？ [复制] 的相关文章

随机推荐

热门标签