在 Pandas DataFrame 上滚动应用速度更快？

2024-03-29

改进这个问题 https://stackoverflow.com/questions/21040766/python-pandas-rolling-apply-two-column-input-into-function它提供了一个巧妙的解决方案，用于在 DataFrame 中的多个列上应用函数，我想知道该解决方案是否可以进一步优化速度。

环境：Python 2.7.8、Pandas 14.1、Numpy 1.8。

这是示例设置：

import pandas as pd
import numpy as np
import random

def meanmax(ii,df):
    xdf = df.iloc[map(int,ii)]
    n = max(xdf['A']) + max(xdf['B'])
    return n / 2.0

df  = pd.DataFrame(np.random.randn(2500,2)/10000, 
                    index=pd.date_range('2001-01-01',periods=2500),
                    columns=['A','B'])              
df['ii'] = range(len(df))      

res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df))

请注意，meanmax函数不是成对的，因此类似rolling_mean(df['A'] + df['B'],26)行不通的。

不过我可以做类似的事情：

res2 = (pd.rolling_max(df['A'],26) + pd.rolling_max(df['B'],26)) / 2

完成速度大约快 3000 倍：

%timeit res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df))
1 loops, best of 3: 1 s per loop

%timeit res2 = (pd.rolling_max(df['A'],26) + pd.rolling_max(df['B'],26)) / 2
1000 loops, best of 3: 325 µs per loop

考虑到示例函数并使用，是否有比上面第二个选项更好/等效的东西rolling_apply？虽然第二个选项更快，但它不使用rolling_apply，可以应用于更广泛的问题集

编辑：性能时序修正

在大小数组上计算通用滚动函数n有一个大小的窗户m大致需要O(n*m)时间。内置的rollin_xxx方法使用一些非常智能的算法来保持运行时间远低于该时间，并且通常可以保证O(n)时间，如果你仔细想想的话，这是一件非常令人印象深刻的事情。

rolling_min and rolling_max特别是借用了他们的实现瓶颈 https://pypi.python.org/pypi/Bottleneck，其中引用了理查德·哈特 http://www.richardhartersworld.com/cri/2001/slidingmin.html作为算法的来源，尽管我发现我认为是相同算法的早期描述.

所以，在历史课之后：你很可能无法鱼与熊掌兼得。rolling_apply非常方便，但针对特定算法几乎总是会牺牲性能。根据我的经验，使用 Python 科学堆栈的更有趣的部分之一是使用以创造性方式提供的快速原语提出有效的计算方法。您自己的解决方案调用rolling_max两次就是一个很好的例子。因此，放松并享受旅程，知道您将永远拥有rolling_apply如果您或 SO 的优秀人员无法提供更明智的解决方案，可以依靠。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas DataFrame 上滚动应用速度更快？的相关文章

如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

Hive 函数替换列值中的逗号

我有一个配置单元表其中字符串列的值为 12 345 有没有什么方法可以在插入此配置单元表期间删除逗号的配置单元函数您可以使用regexp replace string INITIAL STRING string PATTERN stri
vbscript 使用 Ccur 四舍五入到小数点后两位

我在用CCur 代替CDbl 正如这个问题中的回答 vbscript 数学表达式不起作用 https stackoverflow com questions 13569944 vbscript mathematical expression
如何在 JTextPane 中为文本和下划线设置不同的颜色？

刚刚尝试为 JTextPane 中的文本着色但问题是文本和下划线不能有不同的颜色我应该怎么做或者这是否可能下面的示例以红色打印所有文本和下划线 JTextPane pane new JTextPane StyleContext con
事件未在首页加载时加载，但在刷新后有效

我正在创建一个名为员工管理系统的应用程序Rails 7 为了添加员工我创建了一个表单在这里我使用nested form fields gem 来添加员工的联系人问题是当第一次加载表单时当我想添加或删除联系人字段时它会重定向到同一
从 dplyr 中选择函数时出错

当我使用 dplyr 中的 select 函数时它不起作用并给出一个错误指出我要选择的列名称是未使用的参数但是如果我在函数调用之前指定 dplyr 如 s dplyr select 那么它会正常工作这是一个示例 df sampl
GCE：如何创建从外部端口80到内部端口5555的转发规则

我第一次使用谷歌计算引擎我想设置一个网络负载平衡器具有静态IP 侦听端口80 但转发到侦听端口5555的后端服务器我发现的所有示例都显示转发80到80 这在以下方面没有帮助我的情况 ref https cloud google com
许多元素上的 ngClass 使网站非常慢

我目前正在我的 Angular 6 应用程序中制作一个树视图我正在使用它嵌套和所有内容我遇到的问题之一是当我的页面有很多元素几千个并且它们都有 ngClass 在它们上根据所选节点显示不同的颜色页面往往会挂起很多我创建了一
通过鼠标单击并拖动绘制矩形 - javascript

我试图在 Javascript 中绘制一个矩形实际上是一个选择框以选择选择中的 SVG 元素我尝试修复单击并拖动矩形的代码 http jsfiddle net 7uNfW 26 http jsfiddle net 7uNfW 26 但
如何在同一应用程序中运行 Spring Boot 管理客户端和服务器

我想在同一个应用程序中运行 spring boot 管理服务器和客户端我更改了服务器端口当我更改服务器端口时 spring admin 将访问我更改的端口这样我就可以运行管理服务器但我看不到我的网络应用程序页面我需要这样的输出本
根据请求更改表单字段

应用程序有一个类别字段可以在会话中设置也可以不设置如果是我不想看到表单上的字段只需将其作为隐藏字段其值等于请求中的值如果未设置那么我想显示一个下拉菜单我已经设置了表单以包含下拉列表这是该字段的默认设置我的问题是将小部
将扰乱的 PDF 字符重新映射为可读文本

我确实遇到了一个问题因为 cups PDF 创建的 PDF 文档中的字符被映射到奇怪的符号在 Ubuntu Linux 14 04 和 16 04 上我认为它是某种 unicode 即使 Python 告诉我它的字符串类型 type
Magento CE :: 第一次订购有折扣吗？

是否有任何合理的方式可以为客户的第一笔订单提供折扣我想这会要求用户注册一个免费帐户这很好但在那之后我就陷入了困境 Magento 中的促销功能无法满足此类需求 Google 也找不到任何好的潜在客户 Ideas 没有任何开箱即用的方
如果在 Inno Setup 中更新安装，则排除 ssPostInstall 步骤中的部分代码部分

我尝试对两者使用相同的安装程序全新安装和更新因此如果用户第一次尝试安装我的应用程序它将运行完整安装包括 MySQL 安装程序作为先决条件以及 MySQL 安装的一部分 Code 就会正常执行但是如果用户已经安装了我的应用程序
通过 Vertex AI 用户管理笔记本中的启动后脚本创建自定义内核

我正在尝试使用启动后脚本创建一个 Vertex AI 用户管理笔记本其 Jupyter Lab 在首次启动时有一个专用的虚拟环境和相应的计算内核我已成功创建实例然后作为 Jupyter Lab gt Terminal 中的第二个手动步
在 IE8 中，jquery-ui 的对话框将其内容的高度设置为零。我怎样才能解决这个问题？

我正在使用 jquery UI 的对话框小部件在我的 Web 应用程序中呈现模式对话框我通过将所需 DOM 元素的 ID 传递到以下函数来实现此目的 var setupDialog function eltId eltId dialog
集成 bootstrap-select 以与 Ember 配合使用

我想得到引导选择 https github com silviomoreto bootstrap select使用 Ember js Ember 对视图对象的管理存在一些问题导致其无法按预期工作 JSFiddle http jsfiddl
不兼容的 firebase 库

我使用的是最新版本com google firebase firebase core 16 0 3和最新版本的com google firebase firebase messaging 17 3 1 但它们取决于不同的版本com goog
列出 Google Fonts API 中的所有可变字体？

我需要通过 Google Fonts API 获取所有可用的可变字体的列表我可以从这个端点获取所有字体名称您可以添加一些参数但我认为其中不包括可变字体过滤器我认为在进行 API 调用后我无法过滤结果这里的 Open Sans 是一
创建的 Iframe 和扩展、google chrome 扩展之间的通信

我尝试从从我的扩展程序加载的 iframe 发送消息到我的扩展程序后台脚本或内容脚本创建的 Iframe 通过内容脚本从扩展加载我正在寻找一种沟通方式但我所有的尝试都失败了清单 json author background pag
在 Pandas DataFrame 上滚动应用速度更快？

改进这个问题 https stackoverflow com questions 21040766 python pandas rolling apply two column input into function它提供了一个巧妙的解决方

在 Pandas DataFrame 上滚动应用速度更快？

在 Pandas DataFrame 上滚动应用速度更快？ 的相关文章

随机推荐

热门标签

在 Pandas DataFrame 上滚动应用速度更快？的相关文章