pandas 填补前向性能问题

2024-04-08

我有一个具有多索引（日期、输入时间）的数据框，该数据框可能在列（值、Id）中包含一些 NA 值。我想填充远期值，但仅按日期填充，但我找不到以非常有效的方式执行此操作的方法。

这是我的数据框类型：

这是我想要的结果：

因此，为了按日期正确填充，我可以使用 groupby(level=0) 函数。 groupby 很快，但是按日期应用于数据帧组的填充函数确实太慢了。

这是我用来比较简单向前填充（它不会给出预期结果，但运行速度非常快）和按日期预期向前填充（它给出预期结果，但速度确实太慢）的代码。

import numpy as np
import pandas as pd
import datetime as dt

# Show pandas & numpy versions
print('pandas '+pd.__version__)
print('numpy '+np.__version__)

# Build a big list of (Date,InputTime,Value,Id)
listdata = []
d = dt.datetime(2001,10,6,5)
for i in range(0,100000):
    listdata.append((d.date(), d, 2*i if i%3==1 else np.NaN, i if i%3==1 else np.NaN))
    d = d + dt.timedelta(hours=8)

# Create the dataframe with Date and InputTime as index
df = pd.DataFrame.from_records(listdata, index=['Date','InputTime'], columns=['Date', 'InputTime', 'Value', 'Id'])

# Simple Fill forward on index
start = dt.datetime.now()
for col in df.columns:
    df[col] = df[col].ffill()
end = dt.datetime.now()
print "Time to fill forward on index = " + str((end-start).total_seconds()) + " s"

# Fill forward on Date (first level of index)
start = dt.datetime.now()
for col in df.columns:
    df[col] = df[col].groupby(level=0).ffill()
end = dt.datetime.now()
print "Time to fill forward on Date only = " + str((end-start).total_seconds()) + " s"

有人可以解释一下为什么这段代码如此慢，或者帮助我找到一种有效的方法来在大数据帧上按日期向前填充吗？

Thanks

github/jreback：这是 #7895 的骗局。 .ffill 未在 cython 中的 groupby 操作上实现（尽管当然可以），而是在每个组上调用 python space。这是一个简单的方法来做到这一点。网址：https://github.com/pandas-dev/pandas/issues/11296 https://github.com/pandas-dev/pandas/issues/11296

根据 jreback 的答案，当您执行 groupby ffill() 时，未优化，但 cumsum() 是优化的。尝试这个：

df = df.sort_index()
df.ffill() * (1 - df.isnull().astype(int)).groupby(level=0).cumsum().applymap(lambda x: None if x == 0 else 1)

效用函数：（归功于@Phun）

def ffill_se(df: pd.DataFrame, group_cols: List[str]):
    df['GROUP'] = df.groupby(group_cols).ngroup()
    df.set_index(['GROUP'], inplace=True)
    df.sort_index(inplace=True)
    df = df.ffill() * (1 - df.isnull().astype(int)).groupby(level=0).cumsum().applymap(lambda x: None if x == 0 else 1)
    df.reset_index(inplace=True, drop=True)
    return df

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

pandas

pandas 填补前向性能问题的相关文章

Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
我的用例可以合并到单个查询中而不影响性能吗？

我主要着眼于改善表现查询的内容以及是否能够解决单一查询对于我的用例之一解释如下涉及到2张表 Table 1 EMPLOYEE column1 column2 email1 email2 column5 column6 Table 2 E
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
使用“默认”环境变量启动新的子进程

我正在编写一个构建脚本来解析依赖的共享库及其共享库等这些共享库在正常情况下是不存在的PATH环境变量为了使构建过程正常工作让编译器找到这些库 PATH已更改为包含这些库的目录构建过程是这样的加载器脚本更改 PATH gt 基于
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
Android复杂布局线性和相对

I have to implement a layout like shown in the diagram and I do not know the best combination to achieve the required de
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此

随机推荐

Delphi-如何获取目录中所有文件的列表

我正在使用 delphi 当我执行 openpicturedialog 时我想要一个目录中所有文件的列表即当执行打开对话框时并且我从中选择一个文件我想要目录中所有文件的列表所选文件的您甚至可以建议我从中获取目录名称FileN
当 net462 应用程序引用 netstandard1.5 库时，出现“无法加载文件或程序集”错误。但为什么？

我试图找出在这个示例项目中我可能做错了什么当我的net462应用参考文献anetstandard1 5图书馆该应用程序依赖于 System Collections Immutable 1 3 0 根据 Nuget 的说法它的目标是 N
C++ 释放结构体使用的所有内存

快速提问我已经用谷歌搜索并找到了一些答案但我有点偏执所以我想确定一下考虑这种情况 struct CoordLocation float X float Y float Z int main CoordLocation coord n
如何清除货物缓存？

当我跑步时cargo build 各种库存储在文件夹中 usr local lib rustlib 清除这些库的正确方法是什么我可以rm手动这些文件但是这样做正确吗我注意到 usr local lib rustlib manifest
使用 AWS Kinesis Firehose 写入 S3 存储桶中的特定文件夹

我希望能够根据数据内的内容将数据发送到 kinesis firehose 例如如果我发送此 JSON 数据 name John id 345 我想根据 id 过滤数据并将其发送到我的 s3 存储桶的子文件夹例如 S3 myS3Bucke
ViewHolder 在偶数和奇数位置上膨胀布局

我需要两个布局来使用 ViewHolder 根据列表视图项的偶数和奇数位置进行膨胀在偶数位置我需要不同的布局在奇数位置另一个具有相同元素但布局不同的布局然而我实现了它它给了我不同位置的随机布局无论它们的位置如何需要做什么来
如何制作一个在滑动/滑动时在视图之间翻转的 Android 视图

我想在我的 Android 应用程序中创建一个视图通过滑动滑动在多个视图之间切换我希望它的行为或多或少类似于 Android 启动器在视图之间切换时的行为尤其它应该在滑动时翻转视图一般来说滑动会在一个视图和下一个视图之间翻转
Java 中的转义双引号[重复]

这个问题在这里已经有答案了可能的重复在Java中有没有一种方法可以编写字符串文字而不必转义引号 https stackoverflow com questions 3034186 in java is there a way to w
HTML - 在表格单元格内启用滚动

假设我有一个具有固定宽度和高度的表格单元格并且我的数据超出了单元格的固定尺寸 td width 500 height 300 lots of data that exceeds the dimensions td 我可以在单元格内启用此数
仅当“xxxx”是活动工作表时，“With Worksheets("xxxx")”才有效

我对 Excel VBA 还很陌生到目前为止我已经在这个网站上阅读并学到了很多东西但还没有找到解决我的问题的方法作为宏的一部分我有以下代码 With Worksheets Oracle On error resume next A
如何在 Visual Studio 代码资源管理器文件树结构中添加更多缩进？

如何在文件树结构中添加更多缩进它有一点缩进我想增加更多就像 NetBeans 一样检查图像 Go to 文件 gt 首选项 gt 设置并选择工作台树缩进控制树缩进以像素为单位或者在你的settings json中直接输
如何在R中将向量或列切割成间隔[重复]

这个问题在这里已经有答案了我在数据框中有以下列每行之间的差异为 0 012 s Time 0 0 012 0 024 0 036 0 048 0 060 0 072 0 084 0 096 0 108 我想提出从开始开始增加 0 030
如何禁用 AlertDialog 内的按钮？

我正在尝试写一个AlertDialog有 3 个按钮如果不满足特定条件我希望禁用中间的中性按钮 Code int playerint settings getPlayerInt int monsterint settings getMo
PHP 缓存标头覆盖

我已经在这里找到了 100 多个答案有很多尝试但没有任何效果拥有一个基于 PHP 的网站除了少数几个文件外我需要关闭所有 php 文件的缓存因此在 htaccess 中我有以下内容 ExpiresActive On Elim
停止自定义 logback 异步附加程序的正确方法

我使用 Amazon 的 Java SDK 创建了 Amazon SQS 和 SNS logback 附加程序基本附加程序使用同步 Java API 但我还通过扩展创建了两者的异步版本ch qos logback classic Asyn
从锁定的 iOS 设备接听 VoIP 呼叫后直接打开 iOS (Flutter) 应用程序

我正在从事的一个项目主要围绕良好的 UI UX 进行我面临的一个问题是在锁定的 iOS 设备上接听电话文档苹果公司推出了CallKit https developer apple com documentation callkit a
如何使用 JavaScript 获取 WebKit 中的 accessKeyLabel？ [复制]

这个问题在这里已经有答案了访问密钥标签 http www w3 org html wg drafts html master editing html dom accesskeylabel据我所知在撰写本文时 Webkit 不支持但在
在 Java 中禁用 Log4J 输出

怎样才能快速关闭所有Log4J输出使用log4j properties file 将级别设置为关闭而不是调试信息
angularfire2：如果我已经在 firebase 中完成了，如何在 angularfire2 中进行身份验证

我用 ionic 2 和 facebook 登录做了应用程序效果很好但我混合使用 angularfire2 和 firebase 这是不正确的这是我的代码 import Component ViewChild from angular
pandas 填补前向性能问题

我有一个具有多索引日期输入时间的数据框该数据框可能在列值 Id 中包含一些 NA 值我想填充远期值但仅按日期填充但我找不到以非常有效的方式执行此操作的方法这是我的数据框类型这是我想要的结果因此为了按日期正确填充我可

pandas 填补前向性能问题

根据 jreback 的答案，当您执行 groupby ffill() 时，未优化，但 cumsum() 是优化的。尝试这个：

pandas 填补前向性能问题 的相关文章

随机推荐

热门标签

pandas 填补前向性能问题的相关文章