加速熊猫 cummin/cummax

2023-11-23

Pandas cummin and cummax对于我的许多组的用例来说，函数似乎真的很慢。我怎样才能加快他们的速度？

Update

import pandas as pd
import numpy as np

from collections import defaultdict

def cummax(g, v):
    df1 = pd.DataFrame(g, columns=['group'])
    df2 = pd.DataFrame(v)
    df = pd.concat([df1, df2], axis=1)

    result = df.groupby('group').cummax()
    result = result.values
    return result


def transform(g, v):
    df1 = pd.DataFrame(g, columns=['group'])
    df2 = pd.DataFrame(v)
    df = pd.concat([df1, df2], axis=1)

    result = df.groupby('group').transform(lambda x: x.cummax())
    result = result.values
    return result

def itertuples(g, v):
    df1 = pd.DataFrame(g, columns=['group'])
    df2 = pd.DataFrame(v)
    df = pd.concat([df1, df2], axis=1)

    d = defaultdict(list)

    result = [np.nan] * len(g)

    def d_(g, v):
        d[g].append(v)
        if len(d[g]) > 1:
            d[g][-1] = tuple(max(a,b) for (a,b) in zip(d[g][-2], d[g][-1]))
        return d[g][-1]

    for row in df.itertuples(index=True):
        index = row[0]
        result[index] = d_(row[1], row[2:])

    result = np.asarray(result)
    return result

def numpy(g, v):
    d = defaultdict(list)

    result = [np.nan] * len(g)

    def d_(g, v):
        d[g].append(v)
        if len(d[g]) > 1:
            d[g][-1] = np.maximum(d[g][-2], d[g][-1])
        return d[g][-1]

    for i in range(len(g)):
        result[i] = d_(g[i], v[i])

    result = np.asarray(result)
    return result



LENGTH = 100000
g = np.random.randint(low=0, high=LENGTH/2, size=LENGTH)
v = np.random.rand(LENGTH, 40)

%timeit r1 = cummax(g, v)
%timeit r2 = transform(g, v)
%timeit r3 = itertuples(g, v)
%timeit r4 = numpy(g, v)

gives

1 loop, best of 3: 22.5 s per loop
1 loop, best of 3: 18.4 s per loop
1 loop, best of 3: 1.56 s per loop
1 loop, best of 3: 325 ms per loop

您对如何改进我的代码有任何进一步的建议吗？

Old

import pandas as pd
import numpy as np

LENGTH = 100000

df = pd.DataFrame(
    np.random.randint(low=0, high=LENGTH/2, size=(LENGTH,2)),
    columns=['group', 'value'])

df.groupby('group').cummax()

我们将使用defaultdict默认值是-np.inf因为我将采用最大值，并且我想要一个所有值都大于的默认值。

solution

给定一组组g和累积最大值的值v

def pir1(g, v):
    d = defaultdict(lambda: -np.inf)
    result = np.empty(len(g))

    def d_(g, v):
        d[g] = max(d[g], v)
        return d[g]

    for i in range(len(g)):
        result[i] = d_(g[i], v[i])

    return result

示范

LENGTH = 100000
g = np.random.randint(low=0, high=LENGTH/2, size=LENGTH)
v = np.random.rand(LENGTH)

accuracy

vm = pd.DataFrame(dict(group=g, value=v)).groupby('group').value.cummax()
vm.eq(pir1(g, v)).all()

True

深潜

与 Divakar 的答案进行比较

headline chart

code
我对 Divakar 的函数进行了一些修改，以使其准确。

%%cython
import numpy as np
from collections import defaultdict

# this is a cythonized version of the next function
def pir1(g, v):
    d = defaultdict(lambda: -np.inf)
    result = np.empty(len(g))

    def d_(g, v):
        d[g] = max(d[g], v)
        return d[g]

    for i in range(len(g)):
        result[i] = d_(g[i], v[i])

    return result

def pir2(g, v):
    d = defaultdict(lambda: -np.inf)
    result = np.empty(len(g))

    def d_(g, v):
        d[g] = max(d[g], v)
        return d[g]

    for i in range(len(g)):
        result[i] = d_(g[i], v[i])

    return result

def argsort_unique(idx):
    # Original idea : http://stackoverflow.com/a/41242285/3293881 
    n = idx.size
    sidx = np.empty(n,dtype=int)
    sidx[idx] = np.arange(n)
    return sidx

def div1(groupby, value): 
    sidx = np.argsort(groupby,kind='mergesort')
    sorted_groupby, sorted_value = groupby[sidx], value[sidx]

    # Get shifts to be used for shifting each group
    mx = sorted_value.max() + 1
    shifts = sorted_groupby * mx

    # Shift and get max accumlate along value col. 
    # Those shifts helping out in keeping cummulative max within each group.
    group_cummaxed = np.maximum.accumulate(shifts + sorted_value) - shifts
    return group_cummaxed[argsort_unique(sidx)]

def div2(groupby, value):
    sidx = np.argsort(groupby, kind='mergesort')
    sorted_groupby, sorted_value = groupby[sidx], value[sidx]
    # factorize groups to integers
    sorted_groupby = np.append(
        0, sorted_groupby[1:] != sorted_groupby[:-1]).cumsum()

    # Get shifts to be used for shifting each group
    mx = sorted_value.max() + 1
    shifts = (sorted_groupby - sorted_groupby.min()) * mx 

    # Shift and get max accumlate along value col. 
    # Those shifts helping out in keeping cummulative max within each group.
    group_cummaxed = np.maximum.accumulate(shifts + sorted_value) - shifts
    return group_cummaxed[argsort_unique(sidx)]

NOTES:

有必要对迪瓦卡解决方案中的群进行因式分解以对其进行概括

accuracy

整数群
在基于整数的组上，两者div1 and div2产生相同的结果

np.isclose(div1(g, v), pir1(g, v)).all()

True

np.isclose(div2(g, v), pir1(g, v)).all()

True

一般团体
基于字符串和浮点的组div1变得不准确但很容易修复

g = g / 1000000

np.isclose(div1(g, v), pir1(g, v)).all()

False

np.isclose(div2(g, v), pir1(g, v)).all()

True

时间测试

results = pd.DataFrame(
    index=pd.Index(['pir1', 'pir2', 'div1', 'div2'], name='method'),
    columns=pd.Index(['Large', 'Medium', 'Small'], name='group size'))

size_map = dict(Large=100, Medium=10, Small=1)

from timeit import timeit

for i in results.index:
    for j in results.columns:
        results.set_value(
            i, j,
            timeit(
                '{}(g // size_map[j], v)'.format(i),
                'from __main__ import {}, size_map, g, v, j'.format(i),
                number=100
            )
        )

results

results.T.plot.barh()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

pandas

NumPy

pandasgroupby

加速熊猫 cummin/cummax 的相关文章

在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
将 numpy 数组及其大小写入二进制文件

我需要将 2D numpy 数组写入文件包括其尺寸以便我可以从 C 程序中读取它并创建相应的数组我编写了一些简单的代码来保存数组并且可以从 C 读取它但是如果我尝试先写入数组的大小它总是会给我一个错误这是我的简单 python
FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
在Python中，如何通过去掉括号和大括号来打印Json

我想以一种很好的方式打印 Json 我想去掉方括号引号和大括号只使用缩进和行尾来显示 json 的结构例如如果我有一个像这样的 Json A A1 1 A2 2 B B1 B11 B111 1 B112 2 B12 B121 1
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
熊猫系列到二维数组

所以我使用了来自的答案将二维数组放入 Pandas 系列中 https stackoverflow com questions 38840319 put a 2d array into a pandas series将 2D numpy
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
如何在 tkinter 后台运行函数[重复]

这个问题在这里已经有答案了我是 GUI 编程新手我想用 tkinter 编写一个 Python 程序我想要它做的就是在后台运行一个可以通过 GUI 影响的简单函数该函数从 0 计数到无穷大直到按下按钮为止至少这是我想要它做的但
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
从 SUDS 中的 SOAP 响应中提取 Cookie

我必须使用具有多种服务的 API 所有这些都需要来自下面的身份验证的 JSESSION cookie 然而当我调用下一个服务时它不会保留 cookie 因此会拒绝它们 from suds client import Client url
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何通过 API Gateway 使用事件调用类型调用 Lambda 函数？

文件说默认情况下 Invoke API 采用 RequestResponse 调用类型您可以选择通过将 Event 指定为 InitationType 来请求异步执行因此我可以发送到我的函数 python 的就是到处都是 Inspi

随机推荐

业力开始 - 传递参数

有没有办法通过 Karma 命令行传递参数然后在测试中的某个位置读取该参数例如这就是想要的 karma start branding clientX 然后在我的规范中的某个地方我需要访问这个变量我需要 clientX 值这有可能吗
如何更改 SignalR 最大消息大小？

我需要在 SignalR 中传输大型 JSON 消息但默认情况下最大消息大小受到限制有什么方法可以增加该最大大小我还找到了一些相关链接但没有找到任何合适的解决方案 https learn microsoft com en us as
如何在Python中提取XML属性的值？

我需要使用 Python 提取 XML 文档中的属性值例如如果我有一个像这样的 XML 文档
如何在网页中连续显示python输出？

我希望能够访问一个网页它将运行一个 python 函数并在网页中显示进度因此当您访问网页时您可以看到脚本的输出就像从命令行运行它一样并在命令行中查看输出我需要在函数中做什么我需要在模板中做什么 EDIT 我正在尝试将 Mar
未捕获的类型错误：无法添加属性 12，对象不可扩展

我似乎无法理解我在客户端应用程序上遇到的错误我正在订阅 graphql 订阅并且能够检索更新但无法将更改推送到绑定到视图的名为 models ModelClass 的打字稿数组我是否遗漏或做错了什么模型组件 ts this ap
PHP Zend Framework - 如何从请求对象获取请求 URI 片段？

比如说我有一个 URIhttp 127 0 0 1 somecontroller someaction 12345这带我去someAction someController 控制器的操作从那里我可以通过检索请求对象 this gt ge
制作多语言网站的最佳方式

我用 ASP NET C 及其内容English 现在我需要以支持多种语言的方式制作这个网站即德语法语标签文本框字符串所有值将显示各自选定的语言在搜索时我发现有一些方法比如使用本地化使用资源文件数据库不同语言的所有内
p:fileUpload 中的侦听器方法永远不会在 primefaces 中调用 [重复]

这个问题在这里已经有答案了我正在尝试上传带有 primefaces 的图像但未调用 fileUploadListener
服务中的重定向 - symfony2

我可以重定向到服务中的另一个控制器吗我已经根据提供的示例实现了一项服务阿塔米尔我的由控制器执行的函数代码如下所示 public function verifyanddispatch session this gt request gt
使用ajax和jquery替换div内容

我尝试使用以下代码来替换 div 内容但它不起作用我做错了什么 function MakeRequest page num li click function var id this id alert id ajax url displ
如何从 div 外部的链接使用 jQuery UI 选项卡打开选项卡？

这可能有点难以解释但我会尽力我有一个产品页面有两个选项卡完整说明和视频这些是使用 jQuery UI 选项卡完成的在页面的这一部分上方我有一个带有缩略图的产品图像但我希望其中一个缩略图成为查看视频的链接当然该链接包含在视
删除 MATLAB 中的空单元格

我想删除 matlab 元胞数组底部的所有空元胞然而我发现的所有代码示例都将矩阵折叠为向量这不是我想要的所以这段代码 a 1 2 3 4 emptyCells cellfun isempty a a emptyCells 结果在这个
Swift：如何检测 UISplitViewController 当前是否显示 1 个或 2 个控制器？

我如何检测是否UISplitViewController目前刚刚展示1 个视图控制器或者它在双窗格中2 个视图控制器并排显示分割视图控制器反映了实际的显示模式显示模式财产全部可见主 UIViewController 和辅助 UIVie
我需要显式分配我的 NSNumber 吗？

我定义一个数字如下 NSNumber nn0 NSNumber numberWithInt 0 无需任何分配即可正常工作我的理解是如果我使用 numberWithInt 则会自动调用 alloc 和 init 如果我尝试在函数结束时释
基于自定义 HTTP 标头的 UrlRewrite 条件

我正在尝试在 UrlRewrite 中配置一个有 2 个条件的规则 HTTP 标头HTTP HOST需要匹配某个域 api contoso com 自定义 HTTP 标头x app version需要出现在 HTTP 请求中根据此信息我
如何将鼠标滚轮输入定向到光标下方进行控制而不是聚焦？

我使用了许多滚动控件 TTreeViews TListViews DevExpress cxGrids 和 cxTreeLists 等当鼠标滚轮旋转时无论鼠标光标位于哪个控件上具有焦点的控件都会接收输入如何将鼠标滚轮输入定向到鼠标光
如何使用 SWIG 从 C++ 调用 Java？

我可以使用 SWIG 从 Java 调用 C 代码但我找不到任何有关如何执行相反操作从 C 调用 Java 的文档官方 SWIG 文档说 http www swig org Doc1 3 Java html java overview
Laravel eloquent 模型模型属性转换（我应该转换哪些属性类型？）

我不确定我是否完全理解 Laravel Eloquent 属性转换根据文件 https laravel com docs 8 x eloquent mutators attribute casting 这些是支持的类型整数实数浮点
MATLAB 支持前向声明吗？

是否可以在 m 文件中使用函数该函数在同一文件的后面部分中实现以与其他编程语言例如 C 类似的风格当然在这样的 m 文件中局部函数将在主函数之后声明例如 function y main func x This is the m
加速熊猫 cummin/cummax

Pandas cummin and cummax对于我的许多组的用例来说函数似乎真的很慢我怎样才能加快他们的速度 Update import pandas as pd import numpy as np from collection

加速熊猫 cummin/cummax

solution

示范

accuracy

深潜

与 Divakar 的答案进行比较

accuracy

加速熊猫 cummin/cummax 的相关文章

随机推荐

热门标签