Pandas：查找出现在特定列中的元素的第一次出现

2024-04-23

假设我有以下数据框：

df_raw = pd.DataFrame({"id": [102, 102, 103, 103, 103], "val1": [9,2,4,7,6], "val2": [np.nan, 3, np.nan, 4, 5], "val3": [4, np.nan, np.nan, 5, 1], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2002, 3, 3), pd.Timestamp(2003, 4, 4), pd.Timestamp(2003, 8, 9), pd.Timestamp(2005, 2, 3)]})

我想访问每个第一次出现的行id是。所以这些行将是：

df_first = pd.DataFrame({"id": [102, 103], "val1": [9, 4], "val2": [np.nan, np.nan], "val3": [4, np.nan], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2003, 4, 4)]})

基本上，最后我想要实现的是填满NaN第一次出现的 sid。所以最终的数据框可能是：

df_processed = pd.DataFrame({"id": [102, 102, 103, 103, 103], "val1": [9,2,4,7,6], "val2": [-1, 3, -1, 4, 5], "val3": [4, np.nan, -1, 5, 1], "date": [pd.Timestamp(2002, 1, 1), pd.Timestamp(2002, 3, 3), pd.Timestamp(2003, 4, 4), pd.Timestamp(2003, 8, 9), pd.Timestamp(2005, 2, 3)]})

需要注意的是，行已按 id 和日期分组并按升序排序。因此它们的显示与提供的示例中完全相同。

IIUC 使用drop_duplicates then concat

df1=df_raw.drop_duplicates('id').fillna(-1)
target=pd.concat([df1,df_raw.loc[~df_raw.index.isin(df1.index)]]).sort_index()
target
        date   id  val1  val2  val3
0 2002-01-01  102     9  -1.0   4.0
1 2002-03-03  102     2   3.0   NaN
2 2003-04-04  103     4  -1.0  -1.0
3 2003-08-09  103     7   4.0   5.0
4 2005-02-03  103     6   5.0   1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：查找出现在特定列中的元素的第一次出现的相关文章

xlrd 读取 xls XLRDError：不支持的格式或损坏的文件：预期的 BOF 记录；找到“\r\n”

这是代码 xls open workbook data xls 作为回报 File home woles P2 fin fin apps data container importer py line 16 in import data x
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
查找 python 数据框中每行的最高值

我想找到每行中的最高值并返回 python 中该值的列标题例如我想找到每行的前两个 df A B C D 5 9 8 2 4 1 2 3 我希望我的输出看起来像这样 df B C A D 您可以使用字典理解来生成largest n数据帧
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
Python 可以替代 Java 小程序吗？

除了制作用于物理模拟如抛射运动重力等的教育性 Java 小程序之外还有其他选择吗如果你想让它在浏览器中运行你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方
Pandas DataFrame 自定义 agg 函数奇怪的行为

我想使用自定义函数沿轴聚合 Pandas DataFrame 但我无法弄清楚该函数应返回什么 df pd DataFrame np arange 50 reshape 10 5 您可以将 numpy 函数传递给DataFrame agg C

随机推荐

根据列的值从其他列获取值

对于数据框中的每一行我想根据第三列中的值将值从一列复制到另一列我尝试使用组合的 for 循环和 if 函数来做到这一点 example condition lt c 1 2 2 1 2 3 3 SZ01 lt c 1 1 1 1 1 1
Web 服务资源管理器错误 500

使用最新版本的 eclipse Luna java ee 下载启动 Web Services Explorer 时收到 HTTP ERROR 500 控制台中没有消息故障防火墙 Windows 和 AV 已关闭有什么建议么我通过更
除非调整浏览器窗口大小，否则 Angular ui 网格不会显示内容

我正在使用 angularjs 1 5 0 和 Angular ui grid 3 1 1 当我在控制器主体中分配 gridOptions 传递给网格指令对象时如下所示 scope gridOptions data mock2 1 mo
网站底部的空白区域

我正在尝试消除我即将推出的投资组合网站底部的空白区域 http codymiracle com http codymiracle com 发生的情况是在大多数显示器上页脚似乎太长或太短要么我在非常小的窗口上滚动要么更常见的是较大的分
如何在 python 中将浮点数格式化为字符串？

def main M float input Please enter sales for Monday T float input Please enter sales for Tuesday W float input Please e
编译时引用.NET dll（使用单声道）

我问了一个安装 F powerpack 并使用它的问题here https stackoverflow com questions 6206406 how to install and use f powerpack in mono err
为 Windows 7 构建自定义凭据提供程序

在查看了为 Windows 7 构建自定义凭据提供程序的代码后我设法让自己的磁贴显示在登录屏幕上并且可以作为所需用户登录但是我正在尝试实现一个系统其中事件范围内的蓝牙设备触发登录解锁而无需单击磁贴我可以设置它自动填写密码
iPhone |从头开始构建新版本的核心数据迁移

我正在开发应用程序更新这个版本完全是从头开始构建的并且具有全新的功能coreData模型架构我需要写coreData从旧模型迁移我一直在寻找资源来写作coreData迁移但都需要旧模型文件由于这个版本是全新的所以我没有旧的模型架
连接报告服务中字段的不同行值

我在报告服务中有一份报告我想连接以逗号分隔的列的所有不同值并将该值放入文本框中我知道我可以使用答案之一在 SQL 中做到这一点here https stackoverflow com questions 4670920 how to
将嵌套的json数组插入sql server中的多个表中

我在 Sql 服务器中有以下 Json 对象我想将此数据插入多个表及其关系即外键 DECLARE JsonObject NVARCHAR MAX N FirstElement Name ABC Location East US Regi
蟒蛇2; pip parse_requirements 与 --trusted-host 和 --extra-index-url

我在用 install requires str ir req for ir in parse requirements requirements txt session PipSession with pip install 但是这似乎
处理 save() 方法 $ngResource 上的错误回调

我需要处理更新操作的错误回调为此我正在使用方法save 像这样 scope save function params MigParams save params Migparams服务看起来像这样 angular module monit
如何动态创建 C# 面板

我创建了一个联系人管理器用户已经可以输入一些内容并将它们存储在文件中并在程序启动时重新打开每个联系人都是我的 Person 类的一个对象启动程序时在 Load 中我创建了一个 for 循环直到探索完所有联系人在 Person
nginx 服务器中不允许方法 405 错误

我们的反应应用程序在我们的本地机器上正常工作但我们将其延迟到更高的环境中它不起作用它发送405 Method not allowed error 页面正在加载每当我们要求时submit form这个问题来了下面是我的nginx c
Facebook 对象调试器：Curl 错误：SSL_PEER_CERTIFICATE SSL：没有备用证书使用者名称

我无法使用 Facebook 对象调试器 lint 工具测试网站上的开放图标签 https developers facebook com tools debug og object https developers facebook c
如何在Python中生成随机数？

Python或Numpy中是否有内置库可以根据各种常见分布生成随机数例如 Normal Poisson 指数伯努利还有其他各种是否有这样的具有多变量分布的库 usr bin env python from scipy stats i
已弃用：不带括号的 `a ?乙：丙？ d : e` 已弃用[重复]

这个问题在这里已经有答案了使用任一 a b c d e or a b c d e 在 home cobbktpr public html wp content plugins js composer include classes edi
执行Linux命令并获取PID

通常我使用 os popen du folder gt gt 1 txt read 一切正常但是当我想获取子进程ID时它返回空值 os popen du folder gt gt 1 txt read Notice the symbol
在 Python 中使用 Paramiko 模块切换到 root 用户时出现“必须从终端运行”

我正在尝试通过 Python 脚本自动执行任务这个想法是以普通用户身份登录然后发送su命令并切换到 root 帐户我无法直接以 root 身份登录的原因是SSHD不允许 root 登录这是我所拥有的 ip 192 168 105 8
Pandas：查找出现在特定列中的元素的第一次出现

假设我有以下数据框 df raw pd DataFrame id 102 102 103 103 103 val1 9 2 4 7 6 val2 np nan 3 np nan 4 5 val3 4 np nan np nan 5 1 da

Pandas：查找出现在特定列中的元素的第一次出现

Pandas：查找出现在特定列中的元素的第一次出现 的相关文章

随机推荐

热门标签

Pandas：查找出现在特定列中的元素的第一次出现的相关文章