Pandas 向量化函数 cumsum 与 numpy

2023-12-13

回答问题的同时Pandas Dataframe 的向量化计算，我注意到一个关于性能的有趣问题。

我的印象是诸如df.min(), df.mean(), df.cumsum()等被矢量化。然而，我发现两者之间的性能存在巨大差异df.cumsum() and a numpy选择。

Given pandas uses numpy阵列在其基础设施中，我预计性能会更接近。我尝试调查源代码 for df.cumsum()但发现这很棘手。有人可以解释为什么它这么慢吗？

从@HYRY的回答来看，问题归结为为什么以下两个命令在时间上产生如此巨大的差异：

import pandas as pd, numpy as np
df_a = pd.DataFrame(np.arange(1,1000*1000+1).reshape(1000,1000))

%timeit pd.DataFrame(np.nancumsum(df_a.values))    #  4.18 ms
%timeit df_a.cumsum()                              # 15.7  ms

（计时由一位评论者执行，因为我的 numpy v1.11 没有 nancumsum。）

这里似乎有一些毫无价值的东西。

First, df_a.cumsum()默认为axis=0（Pandas 没有在一次调用中对整个 DataFrame 求和的概念），而 NumPy 调用默认为axis=None。因此，通过在一个操作上指定一个轴并有效地展平另一个操作，您可以将苹果与橙子进行比较。

也就是说，您可以比较三个调用：

>>> np.cumsum(df_a, axis=0)
>>> df_a.cumsum()
>>> val.cumsum(axis=0)  # val = df_a.values

在最后的通话中，val是底层的 NumPy 数组，我们不计算得到.values运行时的属性。

因此，如果您在 IPython shell 中工作，请使用以下命令进行行分析%prun a try:

>>> %prun -q -T pdcumsum.txt df_a.cumsum()

>>> val = df_a.values
>>> %prun -q -T ndarraycumsum.txt val.cumsum(axis=0)

>>> %prun -q -T df_npcumsum.txt np.cumsum(df_a, axis=0)

-T将输出保存为文本，以便您可以查看所有三个相互匹配的内容。这就是你最终得到的结果：

df_a.cumsum(): 186函数调用，0.022 秒。其中 0.013 花在numpy.ndarray.cumsum()。（我的猜测是，如果没有 NaN，那么nancumsum()不需要，但请不要引用我的话）。另一个块用于复制数组。
val.cumsum(axis=0)：5 个函数调用，0.020 秒。不进行任何复制（尽管这不是就地操作）。
np.cumsum(df_a, axis=0): 204函数调用，0.026 秒。可以这么说，将 Pandas 对象传递给顶级 NumPy 函数似乎最终会调用 Pandas 对象上的等效方法，该方法会经历一大堆开销，然后重新调用 NumPy 函数。

现在，与%timeit，您在这里只拨打 1 次电话，就像您在%time，所以我不会太依赖于相对时间差异%prun;也许比较内部函数调用是有用的。但在这种情况下，当您为两者指定相同的轴时，即使 Pandas 的调用数量使 NumPy 的调用数量相形见绌，时间差异实际上并没有那么大。换句话说，在这种情况下，所有三个调用的时间都由np.ndarray.cumsum()，辅助 Pandas 调用不会占用太多时间。在其他情况下，辅助 Pandas 调用确实会消耗更多的运行时间，但这似乎不是其中之一。

大局观——如承认韦斯·麦金尼，

从索引到汇总统计的相当简单的操作可能会在到达最低层计算之前经过多层脚手架。

您可能会说，权衡是灵活性和增加的功能。

最后一个细节：在 NumPy 中，您可以避免一点点开销通过调用实例方法ndarray.cumsum()而不是顶层函数np.cumsum()，因为后者最终结束routing到前者。但正如一位智者曾经说过的，过早的优化是万恶之源。

以供参考：

>>> pd.__version__, np.__version__
('0.22.0', '1.14.0')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 向量化函数 cumsum 与 numpy 的相关文章

Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
pythonic方式来反转一个字典，其中值是列表？

我有一本看起来像这样的字典 letters by number 1 a b c d 2 b d 3 a c 4 a d 5 b c 我想将其反转为如下所示 numbers by letter a 1 3 4 b 1 2 5 c 1 3 5
in_array() 和 array_key_exists() 有什么区别？

我在这里有疑问实际上两者有什么区别in array and array key exists 我试图找到这个但我仍然很困惑我可以得到一份样品吗 Thanks in array versus array key exists 不同之处
SQL Server 2005存储过程性能问题

我遇到以下问题当从我的应用程序调用存储过程时时不时地例如 1000 次调用中的 1 次需要 10 30 秒才能完成通常存储过程的运行时间不到一秒这是一个相当简单的过程只需一个选择即可将几个表连接在一起所有表名都设置有 NO
“unicode”对象没有属性“_meta”

我正在尝试创建一个视图用户在其中从下拉菜单中选择一个选项提交它然后返回一些数据具体来说他们将从数据库中的模型中进行选择并返回该类的所有实例我使用 django tables2 输出数据以便可以排序但这是我的症结所在 Vie
多维数组、Vuex 和变异

我正在尝试添加和删除存储在 Vuex 中的多维数组中的项目数组是一组类别每个类别又有一个子类别无穷大不是简单的二维数组示例数据集是这样的 id 123 name technology parent id null children
访问具有动态名称的变量的值

我发现了几个主题其中讨论了在循环中动态创建单个变量是不好的做法最好使用字典就我而言我不需要动态创建它们我想要access他们在循环中我不想用字典对于他们来说因为这些变量在代码中的很多地方使用并且只有一个地方我需要这种动态访问
如何从 Hudson CI API 获得更好的性能？

我正在尝试为自己编写一个与 Hudson 构建服务器集成的小工具我目前遇到的障碍是性能我想做一件简单的事情比如列出所有作业和上次成功构建的时间 hudson API 提供了此信息但我要么必须查询所有内容depth 2或者单独查询每个
如何为 matplotlib 中已绘制的线设置标签？

在我的代码中我已经执行了 ax plot x y b 并且需要能够在事后设置相应行的标签以达到与我相同的效果 ax plot x y b label lbl 有没有办法在 Matplotlib 中做到这一点如果你抓住了line2D创建对
合法 .xlsx 文件上的 openpyxl load_workbook() 会导致 zipfile.BadZipFile 错误

我试图做的是将数据帧数据附加到现有的合法 Excel 文件中我使用了 openpyxl 中的 load workbook 函数但它系统地返回错误这是一些在我的机器上崩溃的代码 from openpyxl import load wor
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
代表和结构的速度问题

我遇到了一些与结构和委托有关的速度问题采用以下控制台应用程序代码 public delegate string StringGetter public class LocalString public LocalString string
带过滤器的 SQLAlchemy func.count

我正在使用一个进行分页的框架如下所示 def get count query self return self session query func count select from self model def paginate se
我可以在 psycopg2 中使用 md5 身份验证吗？

经过两个小时的阅读文档源代码和帮助线程后我放弃了我无法让 psycopg2 使用 md5 字符串进行身份验证根据this http bytes com topic python answers 42597 psycopg authe
打开 PDF 到书签/指定目标？

我正在尝试使用 python 打开特定书签的 PDF 到目前为止我可以在命令提示符中运行以下命令并得到我想要的 last是 PDF test pdf 中指定目的地的名称 C Program Files x86 Adobe Reader 1
在 Python 中将主题标头添加到 server.sendmail()

我正在编写一个 python 脚本来从终端发送电子邮件在我目前发送的邮件中它没有主题我们如何为此电子邮件添加主题我当前的代码 import smtplib msg From email protected cdn cgi l ema
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

Excel 中的链接表和切片器

我无法在 Excel 中创建一个切片器该切片器不仅按主表进行过滤还按辅助表进行过滤该辅助表应与第一个表具有作为引用的字段键链接换句话说主表是students表有一个唯一的ID作为引用第二个表是每个学生参加的课程我希望切片
CentOS 7 上 Ambari 2.7.5 安装失败

我正在 CentOS 7 计算机上安装 Apache Ambari 2 7 5 我正在关注Apache 网站上的安装指南指南第 1 步的最后一个命令 mvn B 全新安装 rpm rpm DnewVersion 2 7 5 0 0 Dbu
将结果右对齐

我再次问同样的问题现在提供更多详细信息希望能得到有效的解决方案在下面的代码中输出将打印对齐到行的右侧 table border 1 style width 100 tr td align right div test div td
PHP - 根据另一个数组的元素对数组元素进行排序:)

所以我有两个数组其中之一看起来像这样它的值或元素的数量可以改变 array 4dec def3 a3d6 d12f 和另一个 array array id gt d12f name gt John array id gt a5f1 na
在文件夹/目录中搜索特定文件扩展名 (PHP)

我正在尝试用 PHP 设计一个程序该程序允许我在由多个文件夹组成的已知目录中查找具有特定文件扩展名例如 jpg shp 等的文件示例代码文档或有关我需要使用哪些方法的信息将非常感激 glob很简单对于递归下降有一些建议readd
如何在服务器和 GWT 客户端之间使用 RSA？

我想加密 Java 服务器后端和 GWT 客户端之间的数据在 GWT 客户端上我使用sbn js图书馆它的工作速度非常快而且比gwt 加密以下是我如何在给定 RSA e n 的客户端进行加密我创建了一个JSFiddle var n
简单的 C++ 交换函数

为什么如果我有这样的函数要交换两个数字它不起作用 swap 我知道我可以通过在原型中声明指针来做到这一点然后将各个变量的地址传递给main 但适用于数组无需传递指针和地址不起作用 void num exchange int m i
在 log(n) 时间内获取排序数组中落在特定范围内的元素数量

假设我有一个以下类的数组按 y 升序排序 public class Obj public int x public int y 如何找到数组中 y 值在 log N 时间内给定的最小和最大范围内的 Obj 项的数量我考虑过使用二分搜索来
将 pyspark 字符串转换为日期格式

我有一个日期 pyspark 数据框其字符串列的格式为MM dd yyyy我正在尝试将其转换为日期列 I tried df select to date df STRING COLUMN alias new date show 我得到一串
如何为 Tomcat servlet 配置 user.dir？

在我的 Tomcat servlet 中我使用一个 jar 库来查找某些 properties文件在System getProperty user dir 问题是当我在不同的服务器上部署 servlet 时 user dir 是不同的
为什么 gnu 链接器的“--oformat binary”选项将“.data”段放置在 0x0200000

我一直在为 i386 实模式编写一些独立代码并在 PXE 网络引导我的代码时遇到一些奇怪的错误 PXE E79 NBP is too big to fit in free base memory PXE M0F Exiting Int
如何理解这个 dmesg 错误信息？

我编写了这个简单的模块来处理设备并调用其一些电源管理方法例如 suspend and resume 在初始化时模块简单地查找特定设备并尝试调用其方法 include
如何实现条件字符串格式化？ [复制]

这个问题在这里已经有答案了我一直在用 Python 开发一个基于文本的游戏我遇到过一个实例我想根据一组条件以不同的方式格式化字符串具体来说我想显示描述房间中物品的文本当且仅当相关项目对象位于房间对象的项目列表中时我希望在房间的
流星 $pull 从数组中删除

我的数据库中有以下对象 id fTgR2YtHiZBzzqF6J following user id S4dLHRJiuHoyAp26q fb id 100006681067911 name Helen Amffhajfgiaa Laube
我需要使用 FileStream.Flush() 或 FileStream.Flush(true) 吗？

在我的程序中我编写一个文件然后调用读取该文件的外部程序我需要Flush true 确保数据完全写入磁盘或者Flush 充足的 class ExampleClass IDisposable private FileStream str
检查启动条件

我想测试 ASP Net Core 2 0 应用程序启动时的某些条件例如如果我的数据库服务器或其他服务器运行正常这对于仅在请求后才会实例化的事物例如我的存储库特别有用目前我必须手动执行此请求但我希望我的应用程序尽早失败建议在
GotW #101“解决方案”真的能解决任何问题吗？

首先阅读 Herb 的 Sutters GotW 帖子内容涉及 C 11 中的 pimpl GotW 100 编译防火墙难度 6 10 GotW 101 编译防火墙第 2 部分难度 8 10 我在理解 GotW 101 中提出的解决
有没有办法在 JavaScript 对象文字中使用变量键？

我有这样的代码 var key anything var object key key attribute 我想知道是否有办法替代key与任何东西 like var object anything key attribute 在 ES6
使用 pygame.mixer.music.get_endevent()

我想要一个tkinter声音效果完成后不显示任何内容的标签我一直在研究如何创建初始化捕捉音乐事件的结束但没有运气 def play btn if mixer music get busy mixer music fadeout 10
Pandas 向量化函数 cumsum 与 numpy

回答问题的同时Pandas Dataframe 的向量化计算我注意到一个关于性能的有趣问题我的印象是诸如df min df mean df cumsum 等被矢量化然而我发现两者之间的性能存在巨大差异df cumsum and a

Pandas 向量化函数 cumsum 与 numpy

Pandas 向量化函数 cumsum 与 numpy 的相关文章

随机推荐

热门标签