删除具有重复索引的 pandas 行

2024-04-18

如何删除具有重复索引值的行？

在下面的天气数据框中，有时科学家会返回并纠正观察结果 - 不是通过编辑错误的行，而是通过将重复的行附加到文件末尾。

我正在从网络上读取一些自动天气数据（每 5 分钟进行一次观测，并编译成每个气象站的每月文件。）解析文件后，DataFrame 如下所示：

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28

重复案例示例：

import pandas as pd
import datetime

startdate = datetime.datetime(2001, 1, 1, 0, 0)
enddate = datetime.datetime(2001, 1, 1, 5, 0)
index = pd.date_range(start=startdate, end=enddate, freq='H')
data1 = {'A' : range(6), 'B' : range(6)}
data2 = {'A' : [20, -30, 40], 'B' : [-50, 60, -70]}
df1 = pd.DataFrame(data=data1, index=index)
df2 = pd.DataFrame(data=data2, index=index[:3])
df3 = df2.append(df1)

df3
                       A   B
2001-01-01 00:00:00   20 -50
2001-01-01 01:00:00  -30  60
2001-01-01 02:00:00   40 -70
2001-01-01 03:00:00    3   3
2001-01-01 04:00:00    4   4
2001-01-01 05:00:00    5   5
2001-01-01 00:00:00    0   0
2001-01-01 01:00:00    1   1
2001-01-01 02:00:00    2   2

所以我需要df3最终成为：

                       A   B
2001-01-01 00:00:00    0   0
2001-01-01 01:00:00    1   1
2001-01-01 02:00:00    2   2
2001-01-01 03:00:00    3   3
2001-01-01 04:00:00    4   4
2001-01-01 05:00:00    5   5

我认为添加一列行号（df3['rownum'] = range(df3.shape[0])）将帮助我选择最底行的任何值DatetimeIndex，但我一直在弄清楚group_by or pivot（或？？？）声明来使其发挥作用。

我建议使用重复的 http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.Index.duplicated.htmlPandas 索引本身的方法：

df3 = df3[~df3.index.duplicated(keep='first')]

虽然所有其他方法都有效，.drop_duplicates对于所提供的示例来说，这是迄今为止性能最低的。此外，虽然分组方法 https://stackoverflow.com/a/13036848/3622349只是性能稍差一些，我发现重复的方法更具可读性。

使用提供的示例数据：

>>> %timeit df3.reset_index().drop_duplicates(subset='index', keep='first').set_index('index')
1000 loops, best of 3: 1.54 ms per loop

>>> %timeit df3.groupby(df3.index).first()
1000 loops, best of 3: 580 µs per loop

>>> %timeit df3[~df3.index.duplicated(keep='first')]
1000 loops, best of 3: 307 µs per loop

请注意，您可以通过将 keep 参数更改为来保留最后一个元素'last'.

还应该注意的是，该方法适用于MultiIndex以及（使用 df1 中指定的保罗的例子 https://stackoverflow.com/a/13036848/3622349):

>>> %timeit df1.groupby(level=df1.index.names).last()
1000 loops, best of 3: 771 µs per loop

>>> %timeit df1[~df1.index.duplicated(keep='last')]
1000 loops, best of 3: 365 µs per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

删除具有重复索引的 pandas 行的相关文章

Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
返回不包括指定键的字典副本

我想创建一个函数返回字典的副本不包括列表中指定的键考虑这本词典 my dict keyA 1 keyB 2 keyC 3 致电without keys my dict keyB keyC 应该返回 keyA 1 我想用一行简洁的字典理
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
本地设置的 Cython 编译器指令是否影响一个或所有函数？

我正在努力使用 Cython 加速一些 Python Numpy 代码并且对本地设置如定义的here http docs cython org en latest src reference compilation html在文档中
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
在 python 查询参数中使用 %20 而不是 + 作为空格

我使用 python requests 编写了以下 python 脚本 http requests readthedocs org en latest http requests readthedocs org en latest impo
字母尺度和随机文本上的马尔可夫链

我想使用 txt 文件中的一本书中的字母频率生成随机文本以便每个新字符 string lowercase 取决于前一个如何使用马尔可夫链来做到这一点或者使用每个字母都有条件频率的 27 个数组更简单我想使用来自的字母频率生成随机文本
使用Python重命名目录中的多个文件

我正在尝试使用以下 Python 脚本重命名目录中的多个文件 import os path Users myName Desktop directory files os listdir path i 1 for file in files
获取运行云功能的运行时服务帐户

有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件我知道我可以猜测默认的 App Engine 帐户因为它始终是 appspot gserviceaccount com 但这不是我想要的我本来期待有一些环境变量 https
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq

随机推荐

C# LINQ to SQL：重构此通用 GetByID 方法

我写了下面的方法 public T GetByID int id var dbcontext DB var table dbcontext GetTable
GCC 为 AVR 上的简单 ISR 生成不必要的寄存器推送

我有一些简单的 C 程序如果使用 g 编译它会生成以下汇编文本唯一的说法是sbi 这不会影响任何状态标志我想知道为什么 G 会产生这些无用的推送弹出r0 and r1 global vector 14 type vector 14
Rust 中带有纯宏的函数组合链

我读了如何在 Rust 中编写函数 https stackoverflow com questions 45786955 how to compose functions in rust Rust 中的函数组合链 https stacko
D3 强制定向图 ajax 更新

我使用 d3 js 和 jquery 以及 PHP 后端基于 yii 框架来创建动态力定向图来表示我们使用 Nagios 监控的网络上主机和服务的当前状态该图显示根 gt 主机组 gt 主机 gt 服务我创建了一个服务器端函数来返回
使用 onSubmit 提交表单

My form onSubmit正在呼叫 onsubmit validate this return false validate 如下 function validate obj ajax url ajax validate check
logback 支持 log4j 附加程序吗？

为 log4j 创建的自定义 Appender 扩展 AppenderSkeleton 可以与 new 一起使用吗logback框架我知道logback带有自己的一组类似于 log4j 的附加程序但这是否可以重用现有的附加程序如何以
signal(SIGCHLD, SIG_DFL); 是什么意思？意思是？

我不处理SIGCHLD在我的代码中我的进程仍然在终止后立即被删除我希望它成为僵尸进程如果我设置SIGCHLD to SIG DFL那么它会起作用吗我该如何设置SIGCHLD to SIG DFL 我希望进程成为僵尸这样我就可以在
尝试调用虚拟方法“int java.lang.String.hashCode()”

我正在尝试使用 Volley Library 将图像从 URL 加载到 gridview 中为此我正在关注this http www 101apps co za index php articles using volley to dow
使用 javascript 的 ASP.Net MVC 3.0 Ajax.ActionLink 动态对象路由值

0 项目在我看来我有一个隐藏字段其中有一个UserID 该用户 ID 是根据操作生成的因此事先不会知道一旦这个隐藏字段有了值我想使用该值作为操作链接路由值我可以用 jquery 选择器来做到这一点吗我的隐藏字段是
我可以使用远程数据库服务器配置 ssl

我想知道是否可以在我的应用程序和远程数据库服务器之间配置 ssl Weblogic 服务器上的 Oracle 数据库和 Web 应用程序 Thanks 是的这是可能的我不确定如何配置服务器我只从客户端的角度使用它但是可以按照链接中的
ejabberd 和 Erlang 安装，lager_transform 未定义

我是 Erlang 新手我一直在尝试在 EC2 ubuntu 机器上安装 Erlang 和 ejabberd 一切都很顺利直到我开始编译一些外部模块ejabberd 它开始抛出错误undefined parse transform la
从雅虎财经提取数据时出错

我正在尝试通过 Pandas 从雅虎财经提取数据我以前使用过类似的拉力但在此之前没有遇到任何问题 import pandas as pd import numpy as np import datetime as dt from dat
Postgis - ST_within 没有做我想做的事。如何在空心区域中找到一个点？

请参阅丝网印刷我在 Postgis 中运行了一个空间查询以返回地图上某个点所在的选区区域该查询使用ST within函数其中点位于多边形内正如您从打印中看到的该点实际上并不在 York Outer 的多边形区域内尽管从技术
php中如何将多维关联数组转换为一维数组？

我有一个快速查询如何将多维数组转换为一维数组 teachers array array post id gt John Doe video id gt array Government English array post id gt St
在Android studio中添加外部库

我想添加外部库https github com foursquare foursquare android oauth https github com foursquare foursquare android oauth到我的 Andr
更改my.ini后MySQL服务无法启动

我在 Windows 上运行 MySQL 8 0 我对 my ini 做了一些更改最终找到了它以更改字符集愚蠢的是我没有先备份它并且我使用了记事本它没有多重撤消功能现在我明白了 The MySQL Service could n
Kivy 中的 HTTPS 请求

我一直在处理与通过 AWS API Gateway 托管的 API 绑定的 Kivy 应用程序中的 HTTPS 请求首先我从Python3迁移到2 然后从requests库迁移到kivy的URLRequest 该应用程序在我的 Linu
prawnto 显示新页面时不会中断的表格

我有数量可变的表行数可变我想让它们一个接一个地显示但如果当前页面不适合表请将其放在下一页上然后继续我已将表格放入事务中这样如果高度适合当前页面我可以回滚然后打印它但如何获取表格高度我现在有这个代码 pdf transac
将 CSV 导入组织模式属性

我想将 CSV 导入组织模式其他人已经询问过如何将 CSV 导入组织模式表这不是我想做的我需要将 CSV 导入到组织模式属性例如像这样的 CSV Name Tel Mobile Fax John 11111 22222 33333
删除具有重复索引的 pandas 行

如何删除具有重复索引值的行在下面的天气数据框中有时科学家会返回并纠正观察结果不是通过编辑错误的行而是通过将重复的行附加到文件末尾我正在从网络上读取一些自动天气数据每 5 分钟进行一次观测并编译成每个气象站的每月文件解析文件后

删除具有重复索引的 pandas 行

删除具有重复索引的 pandas 行 的相关文章

随机推荐

热门标签

删除具有重复索引的 pandas 行的相关文章