Pandas：删除重复索引的所有记录

2024-04-23

我有一个数据集，其中可能包含重复的标识符记录appkey。理想情况下，重复的记录不应该存在，因此我认为它们是数据收集错误。我需要删除一个的所有实例appkey这种情况发生不止一次。

The drop_duplicates方法在这种情况下没有用（或者是吗？），因为它选择第一个或最后一个重复项。有没有任何明显的习惯用法可以用 pandas 来实现这一点？

从 pandas 0.12 版本开始，我们有filter为了这。它的作用正是@Andy's解决方案所做的transform，但更简洁，更快。

df.groupby('AppKey').filter(lambda x: x.count() == 1)

盗用@Andy的例子，

In [1]: df = pd.DataFrame([[1, 2], [1, 4], [5, 6]], columns=['AppKey', 'B'])

In [2]: df.groupby('AppKey').filter(lambda x: x.count() == 1)
Out[2]: 
   AppKey  B
2       5  6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

duplicates

Pandas：删除重复索引的所有记录的相关文章

按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
有效地写入 pandas 中的多个相邻列

使用 numpy ndarray 可以一次写入多个列而无需先进行复制只要它们相邻如果我想写入数组的前三列我会写 a 0 0 3 1 2 3 this is very fast a is a numpy ndarray 我希望在 pa
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
时间戳相减必须具有相同的时区或没有时区，但它们都是 UTC

有一些问题解决了相同的错误TypeError Timestamp subtraction must have the same timezones or no timezones但没有一个面临与此相同的问题我有 2 个 UTC 时间戳在
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
Pandas：数据帧累积和，如果其他列为假则重置[重复]

这个问题在这里已经有答案了我有一个包含 2 列的数据框这里的目标很简单如果行列设置为 False 则重置 df cumsum df value condition 0 1 1 1 2 1 2 3 1 3 4 0 4 5 1 想要的结果
在 pandas 数据框中使用 Replace 和 str.startswith() 来重命名值

我有一个名为源的列其中包含数百行文本问题是其中一些可以组合在一起而我正在努力在 Pandas 数据框中做到这一点这是我的代码 df source replace df source str startswith share n
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
AttributeError：'function'对象在pandas中没有属性'bar'

我有一个 pandas 数据框它是 pandas 数据框类型如下所示 type df Out 176 pandas core frame DataFrame 但是当我尝试在此数据框上使用任何绘图函数如条形图时会出现如下错误 df
Python Pandas to_datetime AttributeError：'tuple'对象没有属性'lower'

我有一个由 6 列组成的 csv 第一列具有特定的日期格式因此我需要将其转换为美国格式 YYYY mm dd 阅读 CSV 文件的内容后我继续修改日期列但不断收到以下错误 CSV Gmt time Open High Low Cl
一列中唯一对的数量 - pandas

我在为 pandas 中的数据框生成统计数据时遇到了一些问题我的数据框如下所示我省略了索引 id type 1 A 2 B 3 A 1 B 3 B 2 C 4 B 4 C 各有什么重要的id有两个type分配的值如上例所示我想数一数
条件移位：在 pandas 中使用多个条件从“当前行值”中减去“前一行值”

我有以下数据框 Disease HeartRate State MonthStart MonthEnd Covid 89 Texas 2020 02 28 2020 03 31 Covid 91 Texas 2020 03 31 2020
为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢

我有一个这种格式的 csv 文件 timestmp p 2014 12 31 00 31 01 9200 0 7 2014 12 31 00 31 12 1700 1 9 当通过阅读时pd read csv并将时间字符串转换为日期时间使用p
在 pandas 条形图中设置 xticks

我在下面的第三个示例图中遇到了这种不同的行为为什么我能够正确编辑 x 轴的刻度pandas line and area 情节但不与bar 修复一般第三个示例的最佳方法是什么 import numpy as np import pan
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
jupyter 服务器 dfdata.to_clipboard 从远程到本地计算机。如何？

我有一个数据框说dfdata in a 在远程计算机上运行的 jupyter 服务器笔记本我想将远程计算机内存中的数据帧访问到本地计算机例如粘贴dfdata脱颖而出通常当笔记本服务器在本地运行时我这样做dfdata to clip

随机推荐

如果特定文件发生更改，如何自动收到警告？

我有一个 php 项目当我从另一个存储库中提取并且composer lock 文件发生更改时我应该运行composer phar install dev git 如何自动警告我询问我是否要运行这个命令我想某种挂钩可以解决这个问题但
通过将参数传递给 url 在谷歌地图上绘制圆圈

我想在给定的谷歌地图网址上画一个圆圈作为叠加层这是没有使用谷歌地图 API 的情况因此我想知道是否可以通过仅将某些参数传递给地图网址来实现我正在使用的网址是 https maps google com maps saddr M5J
JAX-RS：是否有用于根元素、列表的一部分、Web 服务中的参数的 json 序列化器

目前我正在设计一个 RESTful API 并使用 JAX RS 作为后端许多响应具有以下简单形式 someList item1 item2 itemn 重要的是数组的字段名称客户端需要它 EmberJS 数据我尝试使用标准 Resp
如何将 N 个本地最顶层提交转换为 MQ 补丁？

我想将我的最后一次提交安排为 MQ 补丁所有提交都是本地的从不推送到服务器但并非所有本地提交都会被转换假设我进行了 10 次提交从未推送现在我希望将最后 5 次提交转换为补丁我该怎么做简洁版本 hg qimport r 5
Android：从触摸事件获取原始位图数据

Is there a possibility to get an array bitmap with the raw data of the touched spots on an Android touch display See ill
Flutter 从 Future 方法返回 bool 类型

这个问题与this https stackoverflow com questions 52477468 flutter futurebool vs bool type但解释对我的用例并没有多大帮助我有一个 Future 类型的方法它返
java中的动态方法调度

class A int a 10 public void show System out println Show A a class B extends A public int b 20 public void show System
SQL Server 使用参数导致结果缓慢

我有一个选择一些数据的查询我在其中传递了一些参数 DECLARE FromAccDocNo INT 1 ToAccDocNo INT 999999999 FromDate CHAR 10 1900 01 01 ToDate CHAR 10
如何设置像“YYYYMM”这样的 Postgresql 默认值日期戳？

作为标题如何将表的列设置为当前年份和月份的默认值格式为 YYYYMM 例如今天的 200905 请记住日期的格式与存储无关如果您认为日期很重要stored在这种格式中您需要定义自定义数据类型或将其存储为字符串然后你可以使用组合e
将 csv 列放入数组中

我有一个带有列标题的 csv 描述库存 mfgid 以及我不需要的其他一些标题我需要从数组中的列标题 stock 和 mfgid 获取数据我正在使用 fgetcsv 但它将整行放入数组中的独占键中在 stackoverflow 上找
如何将 Ruby 编译为 Javascript？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在研究一段逻辑我想在服务器和浏览器中表达它类似于验证表单其中基于已输入的内容元素之间必须存在某些逻辑关系所以如果我可以编写
统一使用单例的最佳方法[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我想知道哪种是使用单例实例的正确方法当我创建一个名为 Manager 的单例类并且它包含一个名为 value 的 int 变量并且我有另一个名
通过代理服务器访问HTTPS站点

我正在添加代码以使用代理服务器访问互联网从正常 HTTP 位置请求文件时该代码可以正常工作但在访问安全位置 HTTPS 时则不起作用这是运行良好的代码 URL http UnSecureSite net file xml Dim w
Blob 转换：获取 xlsx 文件

我正在尝试发送一封电子邮件其中包含xlsx文件已附加但我遇到的问题是当我下载该文件时该文件以 PDF 格式打开这是我的代码 function sendMail var sheet SpreadsheetApp getActiveS
React Native 中无法读取 null 错误的属性“绑定”

从反应本机运行应用程序时我在模拟器设备上收到以下错误消息 ERROR The development server returned response error code 500 URL http 10 0 2 2 8081 inde
语义版本控制中 -rc 的含义是什么？

我了解了 MAJOR MINOR PATCH 的逻辑并且直观地了解了 semver 编号末尾的 alpha 和 beta 的含义但 rc 并没有给我敲响任何警钟在那里找不到满意的答案 gt https semver org https
基于带有图标的列的数据表搜索[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在制作一个带有状态列的数据表我正在考虑提供搜索图标的可能性因此如果有人在搜索框中键入打开它应该显示带有打开图标的所有
在 Windows 上安装 Pinax

我可以安装吗Pinax http pinaxproject com 在 Windows 环境下有简单的方法吗您推荐哪种环境我安装了 pinax 0 7rc1 并在 Windows 7 上运行没有任何问题请观看此视频了解如何执行此
更改文本字体大小以适应浏览器语言翻译时的 div 容器，而不是在视口更改上[重复]

这个问题在这里已经有答案了 NOTE 这与响应视口更改的字体更改不同 IE 字体大小 3 2vw 纯 CSS 使字体大小根据动态字符数量进行响应 https stackoverflow com questions 14431411 pure
Pandas：删除重复索引的所有记录

我有一个数据集其中可能包含重复的标识符记录appkey 理想情况下重复的记录不应该存在因此我认为它们是数据收集错误我需要删除一个的所有实例appkey这种情况发生不止一次 The drop duplicates方法在这种情况下没有用

Pandas：删除重复索引的所有记录

Pandas：删除重复索引的所有记录 的相关文章

随机推荐

热门标签

Pandas：删除重复索引的所有记录的相关文章