python中dataframe怎么去重_pandasdataframe重复数据查看.判断.去重

2023-10-27

Apple iPhone 11 (A2223) 128GB 黑色 移动联通电信4G手机 双卡双待

4999元包邮

去购买 >

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

dataframe数据样本:

import pandas as pd

df = pd.DataFrame({'name':['苹果','梨','草莓','苹果'], 'price':[7,8,9,8], 'cnt':[3,4,5,4]})

name cnt price

0 苹果 3 7

1 梨 4 8

2 草莓 5 9

3 苹果 6 8

>> 查看dataframe的重复数据

a = df.groupby('price').count()>1

price = a[a['cnt'] == True].index

repeat_df = df[df['price'].isin(price)]

>>duplicated()方法判断

1. 判断dataframe数据某列是否重复

flag = df.price.duplicated()

0 False

1 False

2 False

3 True

Name: price, dtype: bool

flag.any()结果为True (any等于对flag or判断)

flag.all()结果为False (all等于对flag and判断)

2. 判断dataframe数据整行是否重复

flag = df.duplicated()

判断方法同1

3. 判断dataframe数据多列数据是否重复(多列组合查)

df.duplicated(subset = ['price','cnt'])

判断方法同1

>> drop_duplicats()方法去重

1. 对dataframe数据数据去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

示例:

df.drop_duplicats(subset = ['price','cnt'],keep='last',inplace=True)

drop_duplicats参数说明:

参数subset

subset用来指定特定的列,默认所有列

参数keep

keep可以为first和last,表示是选择最前一项还是最后一项保留,默认first

参数inplace

inplace是直接在原来数据上修改还是保留一个副本,默认为False

原文链接:https://www.cnblogs.com/trotl/p/11876292.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python中dataframe怎么去重_pandasdataframe重复数据查看.判断.去重 的相关文章

  • 链改价值节点,构建区块链命运共同体

    区块链是信息革命的拐点 区块链技术的应用使信息时代的内涵从简单的信息复制 信息分享的时代迈入价值转移的时代 因此区块链实际上构建了一种新的网络 即价值互联网 为了创造用户价值 推进区块链产业发展 标准化制定和应用区块链技术来解决企业痛点 链
  • 数字IC后端流程——(二)布局规划Floorplan

    参考博客原址 https blog csdn net weixin 46752319 article details 107313770 ICC布局规划 Floorplan是ICC设计流程中非常重要的一环 Floorplan的好坏直接影响到
  • 跨站脚本攻击(XSS)

    文章目录 渗透测试漏洞原理 1 跨站脚本攻击 1 1 漏洞概述 1 2 XSS漏洞原理 1 2 1 攻击模型 1 3 XSS漏洞危害 1 4 XSS漏洞验证 1 5 XSS漏洞分类 1 5 1 反射型XSS 1 5 2 存储型XSS 1 5
  • 【零基础入门 Nginx】——万字文章通俗易懂

    一 Nginx 简介 1 Nginx 概述 Nginx Engine X 是一个高性能的HTTP和反向代理服务器 特点是占有内存少 并发能力强 同时也提供了IMAP POP3 SMTP服务 nginx可以作为静态页面的web服务器 同时还支
  • vue路由跳转this.$router.push带参数两种方法

    index vue html
  • 2013 一路走过--- 续2

    2013 一路走过 去凤凰古城花光了我所有的钱 回到学校后姐给了我两千 这是我毕业和步入社会的所有资本 鱼的毕业设计 毕业论文都是由我一手包办 所以快毕业答辩的那几天 我一遍又一遍的给她讲毕业设计的一些知识 她很紧张 怕过不了 我笑着安慰她
  • Mac/Linux 安装联邦学习 Fate 框架单机部署所需的依赖(填坑大全)

    安装过程各种坑 官方单机部署教程 然而官方教程问题超多 我在Mac本机与新建的ubuntu18 04 5上分别单机部署 使用standalone fate master 1 4 5 tar gz pycharm2020 1作为编辑器 文章目
  • 第三方博客平台足迹

    第三方博客平台就是我们常说的免费博客 在免费博客发布文章 一般能带上dofollow的链接 是一种常用的外链建设手段 除了著名的blogger com wordpress com等一些大型的第三方博客平台社区可以让我们注册账户发博客 互联网
  • Scala中的映射map

    1 定义 映射是一系列 键值对的容器 map中的Key是唯一的 分为可变map和 不可变map 可变集合 scala collection mutable map 不可变集合 scala collection immutable map 默
  • 网页自适应的几种方式记录

    1 利用js监听事件 window addEventListener resize watchWindowSize 页面缩放改变事件 window addEventListener load watchWindowSize 加载事件 win
  • Python基础入门(六)——Socket套接字解析(TCP服务器端与客户端)

    Python语言提供了Socket套接字来实现网络通信 Python的应用程序通常通过Socket 套接字 向网络发出请求或者应答网络请求 使主机间或者一台计算机上的进程间可以通讯 服务器和客户端的源代码 先上代码 服务器端 coding
  • OpenCV——单目视觉:方形标定板角点提取

    目录 一 主要函数 1 findChessboardCorners 2 find4QuadCornerSubpix 3 drawChessboardCorners 二 代码实现 三 结果展示 1 方形标定板 2 角点检测结果 一 主要函数
  • virtualbox内部连不上问题

    名词解释 宿主机 最外层主机 虚拟机 VirtualBox内的单个主机 1 连接不上宿主机 原因 a 内部机器 Ipv4的网关 DNS设置有问题 b 外部机器 未关闭防火墙 c 虚拟工具 未设置网络为使用桥接模式 并且混杂模式未设置为使用全
  • 五:Spring Boot注解

    五 Spring Boot注解 SpringBootApplication合成注解 SpringBootApplication注解是一个快捷的配置注解 在被它标注的类中 可以定义一个或多个Bean 并自动触发自动配置Bean和自动扫描组件
  • 【例8-6】用指针操作一维数组

    用指针操作一维数组 一 定义一个一维数组a 5 一个指针变量 p并初始化为一维数组首地址a 即 p a a 0 对于一维数组和指针有如下等价关系 i为循环控制变量 表示地址 a i lt gt a i lt gt p i 表示元素 a i
  • 用unity高通Vuforia AR制作自定义扫描物体

    高通Vuforia AR官网 https developer vuforia com 没有账号的先注册一个账号 然后登陆 有账户的直接登陆 登陆之后进入Develop License Manager Get Development Key创
  • wordpress网站Ajax留言评论+自定义评论字段

    前端代码 下面的电话 公司 为自定义字段
  • Qt信号与槽第五个参数

    不管哪种参数形式的connect 函数 最后都有一个参数Qt ConnectionType type 缺省值为Qt AutoConnection 枚举类型Qt ConnectionType表示了信号与槽之间的关联方式 有以下几种取值 1 Q
  • 自动化测试指标

    低代码自动化测试平台的普及 测试同学代码能力的提升使得目前自动化测试已经成了测试工作中非常重要的组成部分 不管是由于kpi压力也好 还是因为需要消除其他方面的质疑声音也罢 我们经常需要在工作中制定一些可以度量的指标来描述某项工作或者改进的实

随机推荐