在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列

2023-12-01

我有包含许多列的数据框。有一个日期时间列，并且有重复的日期时间条目以及来自不同源的这些重复项的数据。我想根据以下内容删除重复项column "dt"，但我想根据其中的内容保留结果column "pref"。我在下面提供了简化的数据，但这样做的原因是我还有一个值列，并且"Pref"列是数据源。我更喜欢某些数据源，但每个日期只需要一个条目(column "dt")。我希望这段代码能够正常工作，这样我就不必提供完整的首选项列表。

人工数据代码

import pandas as pd
import numpy as np

 df=pd.DataFrame({'dt':[1,1,1,2,2,3,3,4,4,5],
        "Pref":[1,2,3,2,3,1,3,1,2,3],
        "Value":np.random.normal(size=10),
        "String_col":['A']*10})
df

Out[1]: 
   dt  Pref     Value  String_col
0   1     1 -0.479593  A
1   1     2  0.553963  A
2   1     3  0.194266  A
3   2     2  0.598814  A
4   2     3 -0.909138  A
5   3     1 -0.297539  A
6   3     3 -1.100855  A
7   4     1  0.747354  A
8   4     2  1.002964  A
9   5     3  0.301373  A

所需输出 1（情况 1）：

在这种情况下，我的偏好列表一直很重要。我最喜欢数据源 2，其次是 1，但如果我只有 3，我会选择 3。

preference_list=[2,1,3]

Out[2]: 
   dt  Pref     Value  String_col
1   1     2  0.553963  A
3   2     2  0.598814  A
5   3     1 -0.297539  A
8   4     2  1.002964  A
9   5     3  0.301373  A

所需输出 2（情况 2）

在本例中，我只想查找数据源 1。如果它不存在，我实际上并不关心其他数据源是什么。

preference_list2=[1]

Out[3]: 
   dt  Pref     Value  String_col
0   1     1 -0.479593  A
3   2     2  0.598814  A
5   3     1 -0.297539  A
7   4     1  0.747354  A
9   5     3  0.301373  A

我可以想象在一个非常缓慢且复杂的循环中执行此操作，但我觉得应该有一个命令来完成此操作。还有一件重要的事情：我需要在数据框中保留一些其他文本列，因此 .agg 可能会导致这些元数据出现问题。我尝试过排序和使用keep论证中drop_duplicates，但没有成功。

您实际上正在寻找按类别排序，这可以通过pd.Categorical:

df["Pref"] = pd.Categorical(df["Pref"], categories=preference_list, ordered=True)

print (df.sort_values(["dt","Pref"]).drop_duplicates("dt"))

   dt Pref     Value String_col
1   1    2 -1.004362          A
3   2    2 -1.316961          A
5   3    1  0.513618          A
8   4    2 -1.859514          A
9   5    3  1.199374          A

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列的相关文章

即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

Android 无尽列表

如何创建一个列表当您到达列表末尾时我会收到通知以便我可以加载更多项目一种解决方案是实施OnScrollListener并进行更改例如添加项目等 ListAdapter处于方便的状态onScroll method 下列ListActi
从 Visual Studio 将文件添加到 WP7 独立存储？

我正在开发一个 Windows Phone 7 应用程序我将在其中使用 bing 地图显示您所在位置的 ATM 我有一个包含地址和 GPS 坐标的 xml 文件但是如何从 Visual Studio 将此文件添加到我的程序中如果我将
关闭连接之前关闭阅读器

您是否应该始终在关闭连接之前关闭 DataReader 还是直接关闭连接就可以了通过关闭连接是否会有效地关闭读者这是针对 c net 3 5 的 Thanks 除了明确你的意图之外 Microsoft 文档中还提到了这一点使用 Dat
Chrome 上的 Angular2 Table Row 组件以单列显示

使用中的版本角2 0 1 角度 cli 1 0 0 beta 17 我有一个页面分为 3 个组件页面大纲是一个具有自己的布局包括行的表格其中一行包含行组件在 IE 中表格显示良好在 Chrome 中组件行中的所有数据都显示
ObjectContext 实例已被释放 - Winforms Entity Framework

I am trying to solve this problem and did read content regarding this error but was unable to figure out a solution I am
如何为postgres docker容器的初始化脚本指定当前工作数据库？

众所周知可以使用类似于以下命令的 docker 命令复制要在创建容器时执行的 init sql 文件 COPY init sql docker entrypoint initdb d 让我们考虑使用一个非常简单的 create table
前置“\\?\”不适用于处理长路径

我正在尝试找到一种解决 Windows 字符限制的方法该限制不允许复制文件名 gt 260 个字符的文件根据这篇 MSDN 文章 if 附加在文件名前面这将绕过文件名长度限制我尝试过这个测试 string source C User
如何设置WebView内容比例（qml QT 5.2）

我使用 qml WebView QT 5 2 WebView anchors fill parent url http google com 加载的页面内容根据 WebView 宽度进行缩放如何获得像浏览器中那样的默认比例 left pi
使用 NLTK，当给出某个单词时，如何生成不同形式的单词？

例如假设给出 happy 这个词我想生成其他形式的happy 例如幸福幸福等我已经阅读了有关 Stackoverflow 和 NLTK 参考资料的其他一些先前问题然而只有词性标注变形就像识别句子中某些单词的语法形式而不是生
来自数据库的动态下拉列表值

如何将主下拉列表的值连接到子下拉列表中下拉列表的值来自数据库 main list 和 sub list 表而且身体加载也不起作用主列表 id value id no 1 colors 1 2 fruits 2 3 animals 3
位置提供商真的很耗电吗？

我需要实现基于位置的服务我不需要精确的位置所以不需要 GPS 最简单的方法是在应用程序启动时开始侦听位置更新并将其保留为打开状态 mLocationMgr requestLocationUpdates LocationManager
.gitignore 被 Git 忽略

My gitignore文件似乎被 Git 忽略了可以吗 gitignore文件损坏 Git 需要哪种文件格式区域设置或文化 My gitignore This is a comment debug log nbproject 输出来自
在 Rails 中使用 jquery 和 Ajax 检查用户名可用性

我使用 Rails 和 jquery 和 ajax 来检查用户名的可用性我在用以下插件用于 jquery 验证目的 https github com posabsolute jQuery Validation Engine 在我的控制器
使用 Flex Mobile 4.6 在 iOS 上上传图库或捕获的图像

有谁有使用 iOS Flex 4 6 中的相机 API 的经验吗我遇到了很多设置问题并且缺少文档我正在尝试设置一个图像上传组件用户可以在其中捕获新照片或从其库中选择现有照片对于捕获来说当图像保存为 JPEG 时并且我正在使用 A
聚类中的大距离矩阵

我在 16 GB RAM 的机器上运行 R 3 2 3 我有一个 3 00 000 行 x 12 列的大矩阵我想在 R 中使用层次聚类算法所以在这之前我尝试创建一个距离矩阵由于数据是混合类型我对不同类型使用不同的矩阵我收到有关内
Angular2 处理 http 响应

我只是有一个关于构建和处理服务中 http 请求响应的问题我在用Angular2 alpha46 打字稿刚刚开始测试它我喜欢它 Ps 感谢所有致力于此工作并通过 github 做出贡献的人因此采取以下措施登录表单 componen
Nuget 下载脚本时出现问题

好吧以前也发生过这种情况我不确定这是怎么回事我去安装这个nuget包 Microsoft jQuery Unobtrusive Ajax 使用命令行和 GUI 都可以正确安装该软件包但我的项目中没有添加脚本我在使用 MVC6
如何获取从“UIImagePickerController”接收的图像的压缩文件大小？

我想知道拍摄的图像的大小UIImagePickerController通过卡马拉或图书馆有什么办法可以找到吗要求就像如果图像大小超过 1 MB 我想对其进行压缩提前致谢尝试这个 CGFloat compression 0 8f C
接口方法中的最终参数 - 有什么意义？

在Java中定义是完全合法的final接口方法中的参数并且不遵守实现类中的参数例如 public interface Foo public void foo int bar final int baz public class Foo
在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列

我有包含许多列的数据框有一个日期时间列并且有重复的日期时间条目以及来自不同源的这些重复项的数据我想根据以下内容删除重复项column dt 但我想根据其中的内容保留结果column pref 我在下面提供了简化的数据但这样做的原因是

在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列

在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列 的相关文章

随机推荐

热门标签

在 Pandas DF 中使用删除重复项，但根据首选项列表选择保留列的相关文章