使用 Pandas 将重复项提取到新数据框中

2023-12-09

我有一个包含很多列的大型数据框。其中一列应该是唯一 ID，另一列是年份。不幸的是，“唯一 ID”列中有重复项。

我知道如何生成所有重复项的列表，但我真正想做的是将它们提取出来，以便仅保留第一个条目（按年份）。例如，数据框当前看起来像这样（带有一堆其他列）：

我想做的是将这个数据框转换为：

ID    Year
----------
123   1213
154   1415
233   1314

在另一个数据框中仅存储这些重复项时：

ID    Year
----------
123   1314
123   1516
154   1415
233   1415
233   1516

我可以按年删除重复项以保留最旧的条目，但我不确定如何将重复项放入可以存储为另一个数据框的列表中。

我该怎么做？

Use duplicated

In [187]: d = df.duplicated(subset=['ID'], keep='first')

In [188]: df[~d]
Out[188]:
    ID  Year
0  123  1213
3  154  1415
5  233  1314

In [189]: df[d]
Out[189]:
    ID  Year
1  123  1314
2  123  1516
4  154  1718
6  233  1415
7  233  1516

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

duplicates

使用 Pandas 将重复项提取到新数据框中的相关文章

如何使用 lstm 执行多类多输出分类

I have multiclass multioutput classification see https scikit learn org stable modules multiclass html https scikit lear
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
如何修复错误“错误：命令错误，退出状态 1：python。”尝试使用 pip 安装 django-heroku 时[重复]

这个问题在这里已经有答案了我正在尝试使用 pip 安装 django heroku 但它一直遇到错误我看到一些建议告诉我要确保 Heroku 中的 Python 版本是最新的我已经这么做了推送到 Heroku master 后我运
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
Plotly - 不同颜色的表面

我正在尝试在 Plotly for Python 中绘制多个曲面每个曲面具有不同的颜色具体来说表面显示了在相空间中不同点采取行动的预测奖励函数由于我在每个点都有多个可能的操作因此每个点都是不同的表面我想对每个表面进行独特的着色
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
在OpenCV Python中编写4通道以上图像

这对我来说是一个持续的挑战我正在尝试使用 openCV 将两个 3 RGB 图像组合成一个 6 通道 TIFF 图像到目前为止我的代码如下 import cv2 import numpy as np im1 cv2 imread im1
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
如何在Python模拟中调用模拟方法

我想创建一个模拟方法来调用被模拟的底层方法我正在想象类似以下的内容但我找不到任何有关模拟对象的文档该对象包含对被模拟对象的引用我将其表示为 wrapped method foo below from mock import patc
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Django 中同一个模型的多个多对多关系

给定以下具有两个多对多关系的模型 class Child models Model name models CharField max length 80 class Foo models Model bar models ManyToMa
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
带参数的 Python 列表过滤

python中有没有一种方法可以在列表上调用过滤器其中过滤函数在调用期间绑定了许多参数例如有没有办法做这样的事情 gt gt def foo a b c return a lt b and b lt c gt gt myList 1 2
如何下载和使用对象检测数据集（例如 coco 或 pascal）

我对物体检测领域非常陌生我想知道是否有人可以帮助我下载和使用对象检测数据集例如 coco 或 pascal 当我下载数据集后访问他们的网站时我觉得我不知道应该如何处理它们我知道这个问题很愚蠢但是开始的提示可能非常有用谢谢我正在
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
通过 Tweepy 在 Twitter 上更新状态时的回溯

我一直在尝试使用 Twitter 在 Twitter 上发布我的 Rpi 读数tweepy 但首先我想检查一下是否tweepy本来可以正常工作但事实并非如此我正确安装了软件包但是当我尝试运行简单的代码来发布某些内容时出现错误是的
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
vtkPythonAlgorithm 控制管道执行

我正在尝试用 python 编写一个 vtk 过滤器ProjectDepthImage进行投影不是问题它控制 vtk 管道的执行基本上我对 UserEvent 有一个回调当用户在渲染窗口处于活动状态时按下 u 键时会触发该回调这将

随机推荐

如何在编译时使用不同的接口声明而不混淆 Interface Builder

例如如果我的应用程序有多个版本付费版本和免费版本并且我希望根据哪个版本拥有不同的界面那么 Interface Builder 似乎会感到困惑例如 MyViewController h ifdef FREE interface My
Hive 连接优化

我有两组数据都存储在 S3 存储桶中我需要在 Hive 中处理这些数据并将输出存储回 S3 每个数据集的示例行如下 DataSet 1 requestId TADS6152JHGJH5435 customerId ASJHAGSJH se
使用cat函数写入csv文件

我需要使用 cat 函数向 CSV 添加新行请你们帮帮我好吗我对 R 的了解有限这是文件 name1 csv 系统要求我将我的姓名和学生 ID 添加到前几行 homework1 lt data frame homework1 Tota
将多个项目添加到列表中

static class Program static void Main string carMake string carModel string carColour string bikeModel string bikeMake s
添加边框时 CSS Div 跳转

我不明白为什么当我将鼠标悬停在第一个框左上角上时框会发生变化我已将 box sizing 设置为 border box 因此悬停时添加的边框不会产生影响并且它只发生在第一个框上请帮忙 JS小提琴here box sizing b
AngularJS 中防止 IE 缓存的更好方法？

我目前使用 service resource 进行 ajax 调用在本例中为 GET 并且 IE 缓存这些调用以便无法从服务器检索新数据我使用了通过谷歌搜索找到的一种技术来创建一个随机数并将其附加到请求中这样 IE 就不会去缓存数据
mc:edit 不适用于具有 Mandrill Javascript API 的 Mailchimp 模板

我正在尝试使用 Mailchimp 模板通过 Mandrill API 发送电子邮件我正在使用 Parse com 在云代码中执行此操作请参阅此处https www parse com docs cloud modules guide
React Native TypeError：网络请求因 fetch() 失败

我正在使用 React Native 来开发 Android 应用程序通过此获取请求我收到错误TypeError network request failed fetch https pixabay com api key MY KEY
R 中的自动虚拟变量

我有以下创建的数据框 temp lt as data frame with uadm table prlo state code 我希望创建 11 个虚拟变量前 10 名各一个其他一个可以通过以下方式轻松找到前 10 名 top10
R过滤器包含子字符串多个条件

嘿我有一个 500K 行的列表我需要按条件进行过滤其中必须包含某些子字符串另一个包含 20 个子字符串的列表我在用dplyr现在打包我的代码如下所示 result lt data gt filter grepl sub1 col
Java邮件与土耳其字符的问题

我在使用 Java 代码发送的邮件中显示土耳其语字符时遇到问题这些字符在邮件中显示为问号 Message msg new MimeMessage mailSession msg setHeader Content Encoding ISO
SetWindowsHookEx 全局键盘挂钩未捕获所有按键

我正在编写属于自动化系统一部分的代码我想添加一个键盘钩子来提前结束测试我通过使用 SetWindowHookEx 来做到这一点我的代码看起来很像这样 http support microsoft com kb 318804 这是我的
全局变量值不可在多个函数中使用

使用 Google Apps 脚本我尝试创建一个可在多个函数中使用的全局变量例如数组但我似乎无法在任何地方找到答案我需要它才能使我的 Google 电子表格正常工作 Code var infoSheetArray null func
将 Shiro 的 PasswordMatcher 与自定义领域结合使用

我使用 Apache Shiro 和自定义 JDBC 领域来从数据库中检索用户的盐密码哈希算法名称和哈希迭代次数这些数据都存储为单独的列问题是我不确定在使用 PasswordMatcher 验证用户密码与数据库中存储的密码是否匹配时
为什么PyGame动画闪烁

所以我运行代码它就开始出现故障我是 pygame 的新手这是代码 import pygame pygame init Screen Pixels by Pixels X and Y X right and left Y up and
Windows下每5分钟运行一次python脚本

我有一个简单的 python 脚本从 html 页面抓取一些数据并将结果写入 csv 文件如何自动化抓取即在 Windows 下每五分钟启动一次谢谢彼得查看此链接 http blogs esri com esri arcgis 2
如何检查区域设置是否为 UTF-8？

我正在与 Yocto 合作为 ARM 设备 i MX 6Quad 处理器创建嵌入式 Linux 发行版我已经使用变量配置了所需区域设置的列表 IMAGE LINGUAS de de fr fr en gb en gb iso 8859
如何在 C# 中从 IntPtr 获取 byte[]

我想通过一个IntPtr一个方法需要一个byte C 中的参数这可能吗如果可能的话我该怎么做 thx 查看Marshal Copy method byte managedArray 1 2 3 4 5 int size Marshal
抽象方法的目的是什么？

abstract public class car abstract void drive 正如上面的代码片段所示 Java 中抽象方法的具体用途是什么据我所知根据定义他们不允许拥有身体通过声明抽象方法您并没有提供实现而是强制扩
使用 Pandas 将重复项提取到新数据框中

我有一个包含很多列的大型数据框其中一列应该是唯一 ID 另一列是年份不幸的是唯一 ID 列中有重复项我知道如何生成所有重复项的列表但我真正想做的是将它们提取出来以便仅保留第一个条目按年份例如数据框当前看起来像这样带有一堆

使用 Pandas 将重复项提取到新数据框中

使用 Pandas 将重复项提取到新数据框中 的相关文章

随机推荐

热门标签

使用 Pandas 将重复项提取到新数据框中的相关文章