从另一个 DataFrame 填充 NaN 值（具有不同的形状）

2024-03-05

我正在寻找一种更快的方法来提高解决方案的性能，以解决以下问题：某个 DataFrame 有两列，其中有一些列NaN他们身上的价值观。挑战在于取代这些NaNs带有来自辅助 DataFrame 的值。

下面我将分享用于实现我的方法的数据和代码。让我解释一下这个场景：merged_df是原始的 DataFrame，有几列，其中一些有行NaN values:

从上图中可以看出，列day_of_week and holiday_flg是特别感兴趣的。我想填写NaN通过查看第二个名为的 DataFrame 来获取这些列的值date_info_df，看起来像这样：

通过使用列中的值visit_date in merged_df可以搜索第二个 DataFramecalendar_date并找到等效的匹配项。此方法允许获取以下值day_of_week and holiday_flg来自第二个数据帧。

本练习的最终结果是一个如下所示的 DataFrame：

你会注意到我使用的方法依赖于apply()在每一行上执行自定义函数merged_df:

对于每一行，搜索NaN值在day_of_week and holiday_flg;
When a NaN在这些列中的任何一列或两列中找到，请使用该行的可用日期visit_date在第二个 DataFrame 中找到等效匹配，特别是date_info_df['calendar_date'] column;
匹配成功后，值来自date_info_df['day_of_week']必须复制到merged_df['day_of_week']以及来自的值date_info_df['holiday_flg']还必须复制到date_info_df['holiday_flg'].

这是一个工作源代码:

import math
import pandas as pd
import numpy as np
from IPython.display import display

### Data for df
data = { 'air_store_id':     [              'air_a1',     'air_a2',     'air_a3',     'air_a4' ], 
         'area_name':        [               'Tokyo',       np.nan,       np.nan,       np.nan ], 
         'genre_name':       [            'Japanese',       np.nan,       np.nan,       np.nan ], 
         'hpg_store_id':     [              'hpg_h1',       np.nan,       np.nan,       np.nan ],          
         'latitude':         [                  1234,       np.nan,       np.nan,       np.nan ], 
         'longitude':        [                  5678,       np.nan,       np.nan,       np.nan ],         
         'reserve_datetime': [ '2017-04-22 11:00:00',       np.nan,       np.nan,       np.nan ], 
         'reserve_visitors': [                    25,           35,           45,       np.nan ], 
         'visit_datetime':   [ '2017-05-23 12:00:00',       np.nan,       np.nan,       np.nan ], 
         'visit_date':       [ '2017-05-23'         , '2017-05-24', '2017-05-25', '2017-05-27' ],
         'day_of_week':      [             'Tuesday',  'Wednesday',       np.nan,       np.nan ],
         'holiday_flg':      [                     0,       np.nan,       np.nan,       np.nan ]
       }

merged_df = pd.DataFrame(data)
display(merged_df)

### Data for date_info_df
data = { 'calendar_date':     [ '2017-05-23', '2017-05-24', '2017-05-25', '2017-05-26', '2017-05-27', '2017-05-28' ], 
         'day_of_week':       [    'Tuesday',  'Wednesday',   'Thursday',     'Friday',   'Saturday',     'Sunday' ], 
         'holiday_flg':       [            0,            0,            0,            0,            1,            1 ]         
       }

date_info_df = pd.DataFrame(data)
date_info_df['calendar_date'] = pd.to_datetime(date_info_df['calendar_date']) 
display(date_info_df)

# Fix the NaN values in day_of_week and holiday_flg by inspecting data from another dataframe (date_info_df)
def fix_weekday_and_holiday(row):
    weekday = row['day_of_week']   
    holiday = row['holiday_flg']

    # search dataframe date_info_df for the appropriate value when weekday is NaN
    if (type(weekday) == float and math.isnan(weekday)):
        search_date = row['visit_date']                               
        #print('  --> weekday search_date=', search_date, 'type=', type(search_date))        
        indexes = date_info_df.index[date_info_df['calendar_date'] == search_date].tolist()
        idx = indexes[0]                
        weekday = date_info_df.at[idx,'day_of_week']
        #print('  --> weekday search_date=', search_date, 'is', weekday)        
        row['day_of_week'] = weekday        

    # search dataframe date_info_df for the appropriate value when holiday is NaN
    if (type(holiday) == float and math.isnan(holiday)):
        search_date = row['visit_date']                               
        #print('  --> holiday search_date=', search_date, 'type=', type(search_date))        
        indexes = date_info_df.index[date_info_df['calendar_date'] == search_date].tolist()
        idx = indexes[0]                
        holiday = date_info_df.at[idx,'holiday_flg']
        #print('  --> holiday search_date=', search_date, 'is', holiday)        
        row['holiday_flg'] = int(holiday)

    return row


# send every row to fix_day_of_week
merged_df = merged_df.apply(fix_weekday_and_holiday, axis=1) 

# Convert data from float to int (to remove decimal places)
merged_df['holiday_flg'] = merged_df['holiday_flg'].astype(int)

display(merged_df)

我做了一些测量，以便您可以理解其中的困难：

在 DataFrame 上6 rows, apply() takes 3.01 ms;
在 DataFrame 上使用 ~250000 rows, apply() takes 2min 51s.
在 DataFrame 上使用 ~1215000 rows, apply() takes 4min 2s.

我如何提高这项任务的表现？

您可以使用Index要加快查找速度，请使用combine_first()填充 NaN：

cols = ["day_of_week", "holiday_flg"]
visit_date = pd.to_datetime(merged_df.visit_date)
merged_df[cols] = merged_df[cols].combine_first(
    date_info_df.set_index("calendar_date").loc[visit_date, cols].set_index(merged_df.index))

print(merged_df[cols])

结果：

 day_of_week  holiday_flg
0     Tuesday          0.0
1   Wednesday          0.0
2    Thursday          0.0
3    Saturday          1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从另一个 DataFrame 填充 NaN 值（具有不同的形状）的相关文章

python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

如何在CkEditor中右键单击添加附加菜单项？

在CKeditor中当我们右键单击图像时会出现四个菜单项 cut copy paste image properties 我想再添加两个菜单项 test1 test2 gt subtest2 subtest3 test1 将是一个菜单
在 rspec 中的控制器测试中使用 Rails 的“post”以及路由的范围和协议

我有一个 Rails 项目该项目在生产中从基本 url 的子目录中运行我希望它在开发中以这种方式运行以使开发和生产尽可能接近我的路线文件设置如下 Foo Application routes draw do def draw rou
R 聚类-带有观察标签的轮廓

我用以下方法进行层次聚类clusterR 中的包使用silhouette函数我可以获得树状图中任何给定高度 h 截止点的簇输出的轮廓图 run hierarchical clustering if require cluster ins
ResourceResolverFactory getServiceResourceResolver 在 AEM 6.1 中抛出异常

我想向 AEM 写入一些数据下面的代码在 AEM 6 0 中工作正常但在 AEM 6 1 中不行总是抛出登录异常如下所示获取服务的 CRX 用户时出现登录异常 writeService org apache sling api r
Android protobuf nano 使用

我正在尝试使用 protobuf nano 从下面的 proto 文件生成 java 文件我得到了一些关于如何继续进行的基本说明这个所以线程 https stackoverflow com q 22247951 1051783 我有这个原
将结构与 OCMock 或 Hamcrest 一起使用

我遇到了障碍我想知道这里聪明的集体智慧是否可以提供帮助在 ObjC CocoaTouch 中我试图模拟一个接受结构参数并返回结构的对象 OCMock 咳出一个毛球所以我尝试用 Hamcrest 匹配器包裹不死我正在测试的函数方
执行函数时避免连续的“if (...)”检查

我有一个如下所示的函数 public Status execute Status status doSomething if status Status ABORTED status doSomethingElse if status St
核心数据：我应该从父上下文中获取对象还是子上下文是否具有与父上下文相同的对象？

我对父母孩子的背景有点困惑ManagedObjectContext 当我设置子上下文并设置父上下文时子上下文是否包含父上下文的所有对象我正在使用库存Core Data在中创建的方法AppDelegate 但我改变了Concurrenc
Python使用lxml下载图像

我需要在 HTML 代码中找到与此类似的图像 a href example 1 img src http example net example jpg alt Example a 我正在使用 lxml 和请求这是代码 import lx
更新 Angular cli 时出现“错误：无法找到模块‘@angular-devkit/schematics/tasks’”

当更新项目根文件夹中的 Angular cli 时我遇到了错误运行这个命令 ng update angular cli 返回以下错误 Error Cannot find module angular devkit schematics
更改项目名称和包名称

Android 中是否可以更改项目名称和包名称项目名称 res gt values gt strings xml gt app name gt change the name 包裹名字右键项目 gt Android工具 gt 重命名应用
VBScript 字符串替换为范围而不是字符串？

代替 http msdn microsoft com en us library 238kz954 28v vs 84 29 aspx已经存在但该函数接受字符串作为参数我需要射程在我的字符串中有两个 10 个字符长的字符串 Greg
在 PowerShell 7 中安装/重新启动脚本

我有一个使用的脚本 Authentication的参数调用RestMethod https learn microsoft com en us powershell module microsoft powershell utility i
使用 (wx)python 记录外部程序的输出

我正在编写一个 GUI 用于使用 oracle exp imp 命令并通过 sqlplus 启动 sql 脚本子进程类可以轻松启动命令但我需要一些附加功能我想在使用 wxPython GUI 时摆脱命令提示符但我仍然需要一种方法来显
我的 Visual Force 页面上的 Google 地图未将所有标记显示为获取的结果数

我正在尝试开发一个显示程序位置的视觉力页面在页面加载时它会获取所有程序并使用标记显示在地图上有一些过滤器可用于减少结果集并查看特定程序一切正常除了页面加载时我的结果表位于 Google 地图 div 下方显示 16 条记录
OpenID：尝试从 Google OP 获取电子邮件地址

我正在使用 dotnetopenauth 3 2 来实现 Openid 但不知道如何让 Google 在声明响应中传递电子邮件地址我知道 Google 不支持简单注册但我无法确定他们支持什么对这个问题的警告是我刚刚开始学习 Open
XmlReader - 自关闭元素不会触发 EndElement 事件？

我在 NET 中使用 XmlReader 使用循环解析 XML 文件 while xml Read switch xml NodeType case XmlNodeType Element Do something case XmlNode
iOS 上基于时间的 UUID（版本 1）？

我们如何使用 iOS 创建 RFC 4122 投诉 UUID 版本 1 基于时间这是man page https developer apple com library archive documentation System Conce
Woocommerce WC_Order get_shipping_address() 未作为数组返回

从 Woocommerce 检索订单信息时它指出它应该是一个数组请参阅 http docs woothemes com wc apidocs class WC Order html get shipping address http d
从另一个 DataFrame 填充 NaN 值（具有不同的形状）

我正在寻找一种更快的方法来提高解决方案的性能以解决以下问题某个 DataFrame 有两列其中有一些列NaN他们身上的价值观挑战在于取代这些NaNs带有来自辅助 DataFrame 的值下面我将分享用于实现我的方法的数据和代码让

从另一个 DataFrame 填充 NaN 值（具有不同的形状）

从另一个 DataFrame 填充 NaN 值（具有不同的形状） 的相关文章

随机推荐

热门标签

从另一个 DataFrame 填充 NaN 值（具有不同的形状）的相关文章