在所有列上 apply() 自定义函数提高效率

2024-04-24

我应用这个功能

def calculate_recency_for_one_column(column: pd.Series) -> int:
    """Returns the inverse position of the last non-zero value in a pd.Series of numerics.
    If the last value is non-zero, returns 1. If all values are non-zero, returns 0."""
    non_zero_values_of_col = column[column.astype(bool)]
    if non_zero_values_of_col.empty:
        return 0
    return len(column) - non_zero_values_of_col.index[-1]

到此示例数据帧的所有列

df = pd.DataFrame(np.random.binomial(n=1, p=0.001, size=[1000000]).reshape((1000,1000)))

by using

df.apply(lambda column: calculate_recency_for_one_column(column),axis=0)

结果是：

0      436
1        0
2      624
3        0
      ... 
996    155
997    715
998    442
999    163
Length: 1000, dtype: int64

一切工作正常，但我的程序必须经常执行此操作，因此我需要一个更有效的替代方案。有人知道如何让它更快吗？我认为calculate_recency_for_one_column()是足够有效的，并且df.apply()具有最大的改进潜力。这里作为基准（100 次）：

>> timeit.timeit(lambda: df.apply(lambda column: calculate_recency_for_one_column(column),axis=0), number=100)
14.700050864834338

Update

穆斯塔法的回答：

>> timeit.timeit(lambda: pd.Series(np.where(df.eq(0).all(), 0, len(df) - df[::-1].idxmax())), number=100)
0.8847485752776265

帕杜的回答：

>> timeit.timeit(lambda: df.apply(calculate_recency_for_one_column_numpy, raw=True, axis=0), number=100)
0.8892530500888824

您可以不将列视为Series对象但作为numpy数组。为此，只需指定raw=True中的参数apply方法。还需要稍微改变一下原来的功能。

import time

import numpy as np
import pandas as pd


def calculate_recency_for_one_column(column: np.ndarray) -> int:
    """Returns the inverse position of the last non-zero value in a np.ndarray of numerics.
    If the last value is non-zero, returns 1. If all values are non-zero, returns 0."""
    non_zero_values_of_col = np.nonzero(column)[0]
    if not non_zero_values_of_col.any():
        return 0
    return len(column) - non_zero_values_of_col[-1]


df = pd.DataFrame(np.random.binomial(n=1, p=0.001, size=[1000000]).reshape((1000,1000)))


start = time.perf_counter()
res = df.apply(calculate_recency_for_one_column, raw=True)
print(f'time took {time.perf_counter() - start:.3f} s.')

Out:
    0.005 s.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

performance

在所有列上 apply() 自定义函数提高效率的相关文章

winpdb 不适用于 python 3.3

我无法让 rpdb2 与 python 3 3 一起运行但根据多个来源这应该是可能的 rpdb2 d myscript py A password should be set to secure debugger client serv
通过pip安装lxml时出错：需要Microsoft Visual C++ 14.0

我使用的是 Windows 10 机器最近从 python 2 7 迁移到 3 5 当尝试通过 pip 安装 lxml 时它会停止并抛出此错误消息构建 lxml etree 扩展错误需要 Microsoft Visual C 14
SQLAlchemy 闭包表关系定义

我最近开始使用 SQL Alchemy 开展一个涉及攀岩区域和路线的项目区域是分层的因为单个区域可以包含多个区域而多个区域又可以包含其他区域路线直接与单个区域关联但也与该区域的父区域关联等等为了实现这一点我选择使用Bill
Pythonic方式逐行读取文件？

以下两种方法中逐行读取文件的 Pythonic 方法是什么 with open file r as f for line in f print line or with open file r as f for line in f read
使用分组的多列熊猫绘制堆积条形图

我有两个数据框我需要获取它们之间的差异然后在该差异之上绘制其中一个数据框这是一个最小的例子 import pandas as pd import matplotlib pyplot as plt df1 pd DataFrame 2
使用数据库数据模型生成 SQLAlchemy 模型、架构和 JSON 响应

将 Flask 和 SQLAlchemy 用于 Python Web 应用程序我的目标是创建一个系统在其中我可以从现有 PostgreSQL 数据库导入数据模型并将它们映射到相应 SQLAlchemy 模型中的字段使用这些 SQL
如何从numpy数组中获取两个最小值

我想从数组中取出两个最小值x 但是当我使用np where A B np where x x min 0 1 我收到此错误 ValueError 需要超过 1 个值才能解压我该如何修复这个错误我需要在数组中按升序排列数字吗您可以使用n
Pandas 无法读取使用 h5py 创建的 hdf5 文件

当我尝试读取使用 h5py 创建的 HDF5 格式文件时出现 pandas 错误我想知道我是否只是做错了什么 import h5py import numpy as np import pandas as pd h5 file h5py
向 list.extend() 传递不可迭代对象

我正在创建一个公共方法来允许调用者将值写入设备例如将其称为 write vals 由于这些值将实时输入因此我希望通过允许用户输入列表或单个值来简化用户的生活具体取决于他们需要写入的值的数量例如 write to device 1 2
如何开始使用“scipy”

我之前安装过 Python 3 4 2 和 3 5 2 在这两种情况下我都可以在 Idle 中涉足编写和测试代码这给了我两个窗口一个用于代码的运行窗口一个用于交互和测试的 Shell 窗口输出抱歉不确定术语是否正确现在我
Flask 无法识别两个 URL 参数

我正在尝试将两个参数发送到使用 Flask 路由的 URL If I do curl i http 127 0 0 1 5000 api journeys count startStationName Hansard 20Mews 20Sh
如何在 Django 中创建多选框？

我正在尝试创建多选框字段来自姜戈选择 2 https github com applegrew django select2库如下图所示我使用了下一个代码但它返回简单的选择多个小部件我想我忘了补充一些东西我的错误在哪里有人可以告诉
是否可以将 SpaCy 安装到 Raspberry Pi 4 Raspbian Buster

我一整天都在安装 SpaCy sudo pip install U spacy Looking in indexes https pypi org simple https www piwheels org simple Collectin
python 中打印变量和字符串

好吧我知道如何打印变量和字符串但是我如何打印类似我的字符串 card price 的内容它是我的变量我的意思是这是我的代码 print I have and here I would like to print my varia
在 matplotlib 中添加新的导航模式

我正在编写一个 wx matplotlib 应用程序并且在向 matplotlib 导航工具栏添加新工具时遇到相当大的困难基本上我想添加选择工具选取框套索等以切换受控子图的鼠标模式到目前为止我还没有找到任何功能可以让我轻松地做
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
从 C++ 检索 Python 类型

这个问题实际上是以下两个问题的延伸如何在 Python 中实现 C 类以供 C 调用 https stackoverflow com questions 9040669 how can i implement a c class in
mpld3图，注释问题

我正在使用 mpld3 在 Intranet 网站上显示图形我正在使用将图形保存到字典并使用 mpld3 js 在客户端渲染它的选项除非我想使用注释否则该图呈现良好这些显然是抵消的我不明白为什么因为即使我将偏移量设置为 0 0
将 sudo 与 Python 脚本结合使用

我正在尝试编写一个小脚本来在每次执行脚本时安装 VirtualBox 共享文件夹我想用Python 来做这件事因为我正在尝试学习它来编写脚本问题是我需要特权才能启动挂载命令我可以将脚本作为 sudo 运行但我更喜欢它自己创建 su
无法比较类型“ndarray(dtype=int64)”和“str”

Example of data that I want to replace 数据具有以下属性购买 V 高高中低维持 V 高高中低门 2 3 4 5 更多 2 4人以上 lug boot 小中大安全性低中高这就是

随机推荐

请求送达回执时，CDO 消息不会发送

我正在用经典 ASP 编写一个应用程序是的请原谅我它使用 Google Mail 发送电子邮件我让它工作得很好如下所示 Dim ObjSendMail Set ObjSendMail CreateObject CDO Messag
Apache服务器安装失败（端口80或443已在使用）

我有一个与 PHP 相关的问题我是 net 开发人员我通常使用 asp net 和 c 我在笔记本电脑上安装了 Visual Studio 和 SQL Server 现在我尝试在我的系统上安装 Xampp 服务器这里我遇到了一些问题
回发后在 GridView 中保留数据源

所以我的 ASPX 页面中有一个 GridView 当我点击
如何将带有 HTML 标签的文本拆分为数组

我有非常简单的 HTML 文本仅 b 标签例如 Lorem Ipsum is b simply dummy b text of the printing and b typesetting industry b 我想将文本拆分为数组如
jQuery 漏洞（NVD CVE-2007-2379）

我们正在使用 jQuery 我在国家漏洞数据库中发现了以下 jQuery 漏洞 http web nvd nist gov view vuln detail vulnId CVE 2007 2379 http web nvd nist go
EF Core 2.0 迁移 - 具有附加字段的多对多

我正在使用 EF Core 2 0 并创建了与联接实体的多对多关系当我添加新的迁移 EF 时总是会创建一个额外的索引 Id 字段这是完全愚蠢的这是我的加入实体 public class Team Member public int
当对话框显示时，活动中的外部编辑文本不显示android中的软键盘

现在我遇到了一个严重的问题我正在进行一项活动并且我有一项编辑文本我想在该活动的右上角显示一个自定义对话框现在我的问题是当对话框显示时当我单击编辑文本时软键盘不显示请帮助我想在对话框显示时显示键盘我已经搜索了很多 i找到了对
PyQt5：我无法理解 QGraphicsScene 的 setSceneRect(x, y, w, h)

我看到有人说如果你想把QGraphicsScene的坐标原点放在QGraphicsView的原点即左上角您需要让它们具有相同的大小所以这就是我所做的 import sys from PyQt5 QtWidgets import QAp
使用 XPath 选择两个节点之间的兄弟节点

如何选择 id 为 header completed 的表和 header completed 之后的第一个具有中心对齐的表之间的所有表这是我从中选择的 html table border 0 cellpadding 0 cellspac
将 pandas 数据帧与 apply(lambda) 的结果连接起来，其中 lambda 返回另一个数据帧

数据帧在列中存储一些值将这些值传递给函数我得到另一个数据帧我想将返回的数据帧的列连接到原始数据帧我尝试做类似的事情 i pd concat i i cid id apply lambda x xy x axis 1 axis 1 但
如何从命令行启动 jupyter Notebook 以在当前目录中运行，而无需编辑配置文件或传递硬路径？

Jupyter Notebook 目前有一个限制在当前目录中启动终端 https github com jupyter notebook issues 2018 我如何从命令行执行此操作没有 Anaconda 或其他 GUI witho
使用 pinvoke 从 UWP C# 应用程序调用 LoadLibrary

我正在尝试从 C UWP 应用程序调用非托管 dll 中的方法我这样做但在非托管 dll 上调用 LoadLibrary 以便我可以使用它这一切在调试模式下工作正常但是在发布模式下我收到一个奇怪的错误消息类初始化方法 Test
高效解析个位数算术表达式

如何有效地优化运行时同时保持最小空间解析和计算 Java 中的单个数字算术表达式以下算术表达式都是有效的 eval 5 5 eval 4 4 eval 4 4 eval 7 2 3 8 eval 5 7 12 我的方法是迭代所有元素
如何在 Objective-C 中使用正则表达式验证 IP 地址？

如何在 Objective C 中验证 IP 地址这是一个使用现代 inet pton 的类别它将针对有效的 IPv4 或 IPv6 字符串返回 YES include
添加多列，使用多个变量进行转换

如何添加多个变量的值如果我只有两个变量列我可以简单地去 summation variable lt variable1 variable2 或者如果全部都在数据框中 transform dataframe summation col
iOS 上 OpenGL ES2.0 中的多纹理点精灵？

我正在尝试使用 OpenGL ES 2 0 为 iPhone 应用程序制作多纹理点精灵我在网上找不到任何这样的例子而且它似乎不起作用当对点精灵使用 GL POINTS 模式时是否有一些内置限制使得 gl PointCoord 不能在
ggplot2：更改条形图上堆栈的顺序

我正在尝试使用facet wrap制作堆叠条形图但我希望翻转堆叠变量开发的顺序我已经重新排序了这些因素并尝试了 order descend 以及 scale fill manual 但似乎没有任何效果这是我的代码 develop
C# Process.MainWindowHandle 始终返回 IntPtr 零

这是我的代码 using Process game Process Start new ProcessStartInfo FileName DatabaseCheck exe RedirectStandardOutput true Crea
ListView Viewholder 复选框状态

我的 ListView 自定义适配器及其新实现的 viewHolder 有一些问题我有一个 ListView 其中每个项目都有一个复选框这里没有什么新内容问题是如果我的列表中有超过 9 个项目当我选中第一个复选框时第十个将被自
在所有列上 apply() 自定义函数提高效率

我应用这个功能 def calculate recency for one column column pd Series gt int Returns the inverse position of the last non zero v

在所有列上 apply() 自定义函数提高效率

在所有列上 apply() 自定义函数提高效率 的相关文章

随机推荐

热门标签

在所有列上 apply() 自定义函数提高效率的相关文章