我可以在 pandas 中执行动态行累加吗？

2024-05-06

如果我有以下数据框，如下导出：df = pd.DataFrame(np.random.randint(0, 10, size=(10, 1)))

有没有有效的方法cumsum具有限制的行，每次达到此限制时，开始一个新的cumsum。达到每个限制（无论有多少行）后，都会创建包含总累积和的行。

下面我创建了一个执行此操作的函数示例，但它非常慢，尤其是当数据帧变得非常大时。我不喜欢我的函数循环，我正在寻找一种让它更快的方法（我猜是一种没有循环的方法）。

def foo(df, max_value):
    last_value = 0
    storage = []
    for index, row in df.iterrows():
        this_value = np.nansum([row[0], last_value])
        if this_value >= max_value:
            storage.append((index, this_value))
            this_value = 0
        last_value = this_value
    return storage

如果你像这样运行我的函数：foo(df, 5)在上述上下文中，它返回：

   0
2  10
6  8

循环无法避免，但可以使用以下方法并行化：numba's njit:

from numba import njit, prange

@njit
def dynamic_cumsum(seq, index, max_value):
    cumsum = []
    running = 0
    for i in prange(len(seq)):
        if running > max_value:
            cumsum.append([index[i], running])
            running = 0
        running += seq[i] 
    cumsum.append([index[-1], running])

    return cumsum

这里需要索引，假设您的索引不是数字/单调递增。

%timeit foo(df, 5)
1.24 ms ± 41.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit dynamic_cumsum(df.iloc(axis=1)[0].values, df.index.values, 5)
77.2 µs ± 4.01 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

如果索引是Int64Index类型，您可以将其缩短为：

@njit
def dynamic_cumsum2(seq, max_value):
    cumsum = []
    running = 0
    for i in prange(len(seq)):
        if running > max_value:
            cumsum.append([i, running])
            running = 0
        running += seq[i] 
    cumsum.append([i, running])

    return cumsum

lst = dynamic_cumsum2(df.iloc(axis=1)[0].values, 5)
pd.DataFrame(lst, columns=['A', 'B']).set_index('A')

    B
A    
3  10
7   8
9   4

%timeit foo(df, 5)
1.23 ms ± 30.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit dynamic_cumsum2(df.iloc(axis=1)[0].values, 5)
71.4 µs ± 1.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

njit功能性能

perfplot.show(
    setup=lambda n: pd.DataFrame(np.random.randint(0, 10, size=(n, 1))),
    kernels=[
        lambda df: list(cumsum_limit_nb(df.iloc[:, 0].values, 5)),
        lambda df: dynamic_cumsum2(df.iloc[:, 0].values, 5)
    ],
    labels=['cumsum_limit_nb', 'dynamic_cumsum2'],
    n_range=[2**k for k in range(0, 17)],
    xlabel='N',
    logx=True,
    logy=True,
    equality_check=None # TODO - update when @jpp adds in the final `yield`
)

双对数图显示，对于较大的输入，生成器函数速度更快：

一个可能的解释是，随着 N 的增加，追加到不断增长的列表的开销dynamic_cumsum2变得突出。尽管cumsum_limit_nb只是必须yield.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

performance

numba

我可以在 pandas 中执行动态行累加吗？的相关文章

如何创建自定义颜色图并将其用于不同范围的数据？

假设我有这样的数据 import numpy as np import matplotlib pyplot as plt import matplotlib colors for reproducibility purposes np ra
使用定制距离函数从 Pandas Dataframe 创建距离矩阵

我有一个包含两列的 Pandas 数据框 id 唯一标识符和 date 如下所示 test df head id date 0 N1 2020 01 31 1 N2 2020 02 28 2 N3 2020 03 10 我创建了一个自定义
Python bash 管道

我想将 python 脚本的输出通过管道传输到 bash 脚本到目前为止我所做的是尝试使用os popen sys subprocess 并试图给出一个管道的例子 os popen echo P 1 1 591336 4927369 1
如何使用Python中的or-tools解决累积旅行商问题？

累积旅行商问题 CTSP 的目标是最小化到达客户的时间总和而不是总旅行时间这与最小化总旅行时间不同例如如果一个人拥有无限的车辆车辆与位置数量相同并且目标是最大限度地减少到达位置的总时间则可以为每个位置发送一辆车因为这是满足所
Python：并行修改数组的简单方法

这个问题可能听起来很简单但作为 Python 并行化的新手我肯定会遇到困难我处理了 OpenMP for C 中的并行化问题这要容易得多我需要做的是并行修改矩阵的条目就是这样问题是我无法使用简单的 joblib 库来做到这一
具有动态特性的 Python 嵌套作用域

需要帮助理解以下句子PEP 227 http www python org dev peps pep 0227 和Python 语言参考 http docs python org reference executionmodel html
类型错误：不支持的操作数类型 -：“int”和“list”

我正在尝试用 python 创建一个程序它会使用 Zeller 算法告诉你你出生在星期几http en wikipedia org wiki Zeller 27s congruence http en wikipedia org wiki
python数据结构（类似设置）在添加重复项时抛出异常

我正在寻找一种在添加重复元素时会引发异常的数据结构我发现的最接近的是collections Counter gt gt gt from collections import Counter as counter gt gt gt c co
如何将返回列表的 Celery 任务链接到一个组中？

我想从 Celery 任务返回的列表创建一个组以便对于任务结果集中的每一项一个任务将添加到该组中这是一个简单的代码示例来解释用例这应该是上一个任务的结果 celery task def get list amount In rea
优化 Django Queryset for 循环

如何优化以下查询集 link goal for link in self child links all 我想摆脱 for 循环并只访问数据库一次我有以下代码 class Goal models Model name models Cha
ModuleNotFoundError：没有名为“pandas.io.formats.csvs”的模块

我正在尝试创建一个简单的 csv dataframe to csv psv file name encoding utf 8 header True sep doublequote True quoting csv QUOTE ALL in
这个 Python 字符串切片语句中的两个冒号的用途是什么？

例如 str hello str 1 3 我在 Python 文档中哪里可以找到它 in 序列描述 http docs python org library stdtypes html index 510 s i j k slice of
是否有像 python 的 issubclass 这样的东西，如果第一个参数不是类，它将返回 False？

我想要issubclass 1 str 返回 false 1不是的子类str 因为它根本不是一个类所以我收到了 TypeError 有没有一个好的方法来测试这个而不诉诸try except try if issubclass value
在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

我正在使用 Python 中的 NLTK 构建垃圾邮件过滤器现在我检查单词的出现情况并使用 NaiveBayesClassifier 其准确度为 0 98 垃圾邮件的 F 测量值为 0 92 非垃圾邮件的 F 测量值为 0 98 然而
如何在lxml，Python中将<转换为<？

有一个xml文件
何时在 Gevent 中使用线程池

我注意到 Gevent 有线程池对象有人可以向我解释何时使用线程池以及何时使用常规池吗 gevent threadpool 和 gevent pool 有什么区别当你有一段需要很长时间运行几秒钟并且不会导致 greenlet 切换的
TypeError: 'module' 对象不可调用错误 driver=webdriver("C:\\Python34\\Lib\\site-packages\\selenium\\webdriver\\chromedriver.exe")

我在 Pycharm 中遇到类似错误 Traceback most recent call last File C PycharmProjects DemoPyth PythonPack1 Prg1 py line 3 in
熊猫：SettingWithCopyWarning：[重复]

这个问题在这里已经有答案了我尝试使用以下代码将列转换为日期 df DATE pd to datetime df DATE or df DATE pd to datetime df DATE 但我收到以下错误 Users xyz anac
需要帮助编写扭曲的代理

我想编写一个简单的代理可以对请求页面正文中的文本进行打乱我已经阅读了 stackoverflow 上的部分扭曲文档和其他一些类似的问题但我有点菜鸟所以我仍然不明白我现在就是这样不知道如何访问和修改页面 from twisted
每次都在django查询数据库中过滤查询集吗？

想象一下我有以下代码 qs Users objects all list for i in range 10 list append qs filter age i 这里过滤器被调用 10 次它是连接到数据库 10 次还是第一次使用过滤器

随机推荐

我可以使用 vh 和 vw 指定画布尺寸吗？

我的代码是 var canvas document getElementById canvas ctx canvas getContext 2d ctx canvas width 40vw ctx canvas height 40vh 但它
Azure SQL 数据库流量迁移到较新的网关

收到来自 azure 的关于 Azure SQL 数据库流量迁移到较新网关的电子邮件电子邮件中有几个链接包括Azure SQL 数据库流量迁移到较新的网关 https learn microsoft com en us azure sq
如何将年、月、日、小时/分钟列转换为单个日期时间列？

我有以下数据格式其中包含年月日和小时分钟的不同列前两位数字是小时最后两位数字是分钟如何通过组合所有这些现有列来创建日期时间格式的新列 YEAR MONTH DAY HOUR MINUTE 2015 1 15 0010 2015
如何使用 Sound Cloud API 按标签搜索特定用户的曲目？

我想通过仅与我的用户名即皇家歌剧院相关的标签搜索曲目例如 http api soundcloud com users royaloperahouse tracks client id 238947HSGDHSDG tags eric
为什么构造函数参数要成为案例类的成员？

class MyClass name String val x new MyClass x println x name Error name is not a member of MyClass but abstract class Ba
如何选择部分密集数据集的均匀分布子集？

P是一个 n d 矩阵持有nd 维样本 P某些地区的密度是其他地区的几倍我想选择一个子集P其中任意样本对之间的距离大于d0 并且我需要将其传播到整个区域所有样本都具有相同的优先级无需优化任何内容例如覆盖面积或成对距离之和这是执行
Bootstrap 4 navbar-inverse 没有颜色

最近我决定尝试新的引导程序版本 4 我对文件做了所有正确的事情下面是我的html
更改 urllib2.urlopen 上的用户代理

如何使用非默认用户代理下载网页urllib2 urlopen urllib2 urlopen is not available in Python 3 x q 2792650 the 3 x equivalent is urllib req
在 firebase 中存储空数组

我的 firebase 应用程序与 React 一起使用我可以注册用户然后将信息记录到数据库中我正在创建一个约会应用程序我想要某种方法来存储空数组例如 matchers etc 我尝试过这样的事情 firebase databa
Win32 控制台禁用系统菜单按钮

我想禁用灰色控制台窗口上的系统菜单按钮特别是最小化按钮我已经尝试过上面提到的功能另一个线程 https stackoverflow com questions 15834818 c prevent the console window
如何在MySQL中选择字段具有最小值的数据？

我想从 MySQL 中的表中选择特定字段具有最小值的数据我尝试过 SELECT FROM pieces WHERE MIN price 请问有什么帮助吗这将为您提供所有记录中价格最低的结果 SELECT FROM pieces WHER
Docker 数据卷容器。我似乎无法备份

阅读这些链接 https docs docker com userguide dockervolumes backup restore or migrate data volumes https docs docker com usergu
软删除 Nibernate

我想对我的数据库表进行软删除我应用了以下语句如此处所述http nhibernate info blog 2008 09 06 soft deletes html http nhibernate info blog 2008 09 06
如何在Java中设置word文档（.doc或.docx）的背景颜色（页面颜色）？

通过一些图书馆例如http poi apache org http poi apache org 我们可以创建Word文档具有任何文本颜色但对于背景或文本的突出显示我没有找到任何解决方案手动方式的word页面颜色 https sup
如何将非托管内存数组复制到同一个非托管内存中

我保留了内存10项128字节 IntPtr dst Marshal AllocHGlobal 10 128 IntPtr src1 Marshal AllocHGlobal 128 init scr1 from DLL IntPtr src
SuiteScript 2.0 添加过滤器以保存脚本中的搜索

我有一个自定义记录其中有一个项目字段和一个位置字段我对该记录保存了一个搜索其中已经包含我想要的列和一些始终需要的起始条件我想在处理销售订单时使用此搜索我想存储行上所有项目内部 id 和位置 id 的数组然后将其作为动态过滤器传递
获取线性 pyomo 约束的系数

我想获得线性约束的系数cpyomo 模型的m 例如对于 m ConcreteModel m x 1 Var m x 2 Var m x 3 Var within Integers m x 4 Var within Integers m c
在 AtTask PUT 请求中发送多个更新

我想知道 AtTask 的 API 中是否有一种方法可以在单个 URL 请求中发布多个更新例如我需要更新 1 000 条记录的 extRefID 我是否可以对 API 进行 1 000 次调用就开销而言成本高昂或者我可以使用包含如下
C++ 构造函数抛出异常时销毁对象的成员变量

这个问题是基于 Scott Meyers 在他的书更有效的 C 中提供的一个例子考虑下面的类 A class to represent the profile of a user in a dating site for animal
我可以在 pandas 中执行动态行累加吗？

如果我有以下数据框如下导出 df pd DataFrame np random randint 0 10 size 10 1 0 0 0 1 2 2 8 3 1 4 0 5 0 6 7 7 0 8 2 9 2 有没有有效的方法cumsum

我可以在 pandas 中执行动态行累加吗？

我可以在 pandas 中执行动态行累加吗？ 的相关文章

随机推荐

热门标签

我可以在 pandas 中执行动态行累加吗？的相关文章