Pandas diff SeriesGroupBy 比较慢

2023-12-31

Total time: 1.01876 s
Function: prepare at line 91

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
    91                                           @profile
    92                                           def prepare():
    93                                           
    94         1       5681.0   5681.0      0.6     
    95         1       2416.0   2416.0      0.2      
    96                                           
    97                                               
    98         1        536.0    536.0      0.1      tss = df.groupby('user_id').timestamp
    99         1     949643.0 949643.0     93.2      delta = tss.diff()
   100         1       1822.0   1822.0      0.2      
   101         1      13030.0  13030.0      1.3      
   102         1       5193.0   5193.0      0.5      
   103         1       1251.0   1251.0      0.1      
   104                                           
   105         1       2038.0   2038.0      0.2      
   106                                           
   107         1       1851.0   1851.0      0.2     
   108                                           
   109         1        282.0    282.0      0.0      
   110                                           
   111         1       3088.0   3088.0      0.3      
   112         1       2943.0   2943.0      0.3      
   113         1        438.0    438.0      0.0      
   114         1       4658.0   4658.0      0.5      
   115         1      17083.0  17083.0      1.7      
   116         1       3115.0   3115.0      0.3      
   117         1       3691.0   3691.0      0.4      
   118                                           
   119         1          2.0      2.0      0.0

我有一个数据框，我按某个键进行分组，然后从每个组中选择一列，并对该列（每组）执行 diff。如分析结果所示，与其他操作相比，diff 操作非常慢，并且是一种瓶颈。这是预期的吗？是否有更快的替代方案可以达到相同的结果？

编辑：更多解释在我的用例中，时间戳代表用户某些操作的时间，我想计算这些操作之间的增量（它们已排序），但每个用户的操作完全独立于其他用户。

编辑：示例代码

import pandas as pd
import numpy as np


df = pd.DataFrame(
    {'ts':[1,2,3,4,60,61,62,63,64,150,155,156,
           1,2,3,4,60,61,62,63,64,150,155,163,
           1,2,3,4,60,61,62,63,64,150,155,183],
    'id': [1,2,3,4,60,61,62,63,64,150,155,156,
           71,72,73,74,80,81,82,83,64,160,165,166,
           21,22,23,24,90,91,92,93,94,180,185,186],
    'other':['x','x','x','','x','x','','x','x','','x','',
             'y','y','y','','y','y','','y','y','','y','',
             'z','z','z','','z','z','','z','z','','z',''],
    'user':['x','x','x','x','x','x','x','x','z','x','x','y',
            'y','y','y','y','y','y','y','y','x','y','y','x',
            'z','z','z','z','z','z','z','z','y','z','z','z']
    })



df.set_index('id',inplace=True)
deltas=df.groupby('user').ts.transform(pd.Series.diff)

如果您不想对数据进行排序或下拉至numpy，那么通过改变你的user系列到分类。分类数据有效地存储为整数指针。

在下面的示例中，我看到从 86 毫秒改进到 59 毫秒。对于更大的数据集和更多用户重复的情况，这可能会进一步改进。

df = pd.concat([df]*10000)

%timeit df.groupby('user').ts.transform(pd.Series.diff)  # 86.1 ms per loop

%timeit df['user'].astype('category')                    # 23.4 ms per loop
df['user'] = df['user'].astype('category')
%timeit df.groupby('user').ts.transform(pd.Series.diff)  # 35.7 ms per loop

如果您正在执行多项操作，则转换为分类的一次性成本可以打折。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas diff SeriesGroupBy 比较慢的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如

随机推荐

代码高尔夫：井字棋

Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动按字符数发布您的最短代码以检查玩家是否获胜如果获胜是哪一个假设变量中有一个整数数组b
重命名 ASP.NET Identity 表时出现重复的外键

我遵循了以下建议这个问题 https stackoverflow com questions 19460386 how can i change the table names when using visual studio 2013 a
参数包扩展的“模式”定义，尤其是在函数调用中

据我了解当包含参数包的模式右侧出现省略号时该模式将为包中的每个参数扩展一次然而尽管我能够找到模式及其扩展的孤立示例但我无法找到模式构成的定义据我所知空格在模式的定义中不起任何作用但括号却起作用例如在这个例子中 temp
在 sbt 控制台上运行 Spark

我是 Spark 新手正在尝试在 sbt 控制台上运行它我有一个合适的build sbt 因为代码在 Intellij 上运行良好并且能够导入代码中的包问题是当在 sbt 控制台终端上运行时执行器只是保持运行并且无法完成任务
android 阿拉伯语十进制格式，符号位于数字右侧

我正在尝试支持左语言的 RTL 并且正在使用阿拉伯语进行测试我对此一无所知负号正号应该位于数字的右侧还是左侧我认为它应该在左侧但是当我使用 Android 的 DecimalFormat 将数字放入设备设置的区域设置时该符号出现
候选者的 UITableView 类型不匹配？

Xcode 说候选者的 UITableView 类型不匹配有人知道如何解决这个问题吗 func tableView tableView UITableView numberOfRowsInSection section Int gt I
C++ 11 代码可以使用 `clang++` 进行编译，但不能使用 `clang -x c++` 进行编译

基本问题我有以下代码 include
Android SQLite删除行问题

我正在尝试从表中删除一行但我有三个 WHERE 子句并且不确定我是否使用了正确的语句 db delete DBAdapter TableName Id Id AND WHERE QstnrId Integer parseInt Ques
使用 github 操作创建拉取请求

我试图让它发挥作用但我也很困惑在触发彼得埃文斯公关之前它之间缺少什么这个场景非常简单我喜欢在任何 feature 分支上推送自动创建 PR 但相反我遇到了奇怪的场景其中开发更改应用于 feature 分支之上有人可以给我提
为什么使用 webflux 进行 Spring Boot 测试会忽略自定义 Jackson 模块

我正在使用 Spring Boot 2 0 1 和 WebFlux 路由器功能编写一个应用程序 not基于注释对于我的一些数据对象我编写了扩展的自定义序列化器StdSerializer 这些我注册在SimpleModule并将该模块公开
隐藏溢出时检测用户滚动尝试

scroll 当内容为overflow hidden wheel 滚轮鼠标会触发但鼠标不会触发魔术触控板 http www apple com shop product MC380LL A magic trackpad or 魔术鼠标 h
SQL - 检查列是否自动递增

我正在尝试运行查询来检查列是否自动递增我可以检查类型默认值是否可为空等但我不知道如何测试它是否自动递增这是我测试其他事情的方法 SELECT FROM INFORMATION SCHEMA COLUMNS WHERE TABLE
InfluxDB - 仅获取查询中的最后一个值

是否可以只查询查询结果的最后一个值或第n个值例如在查询中 SELECT value FROM response times WHERE time gt now 1h limit 1000 是否有可能只获取最后一个值即时间上更早的值
Django 管理表单 - 如何动态更改选择选项？

我有 2 个型号 class City models Model name models CharField max length 50 slug models SlugField max length 50 class CityNews
批处理文件中括号内的转义括号

这就是我正在尝试做的 echo This is some code that is echo Important to echo exactly as is echo Even if I use parenthesis echo for s
CesiumViewer 中的响应式 DIV [CesiumJS]

我正在定制一个 Cesium 地图它有一个覆盖层里面有各种信息我用 bootsrap 实现的覆盖层的样式不幸的是我放置的 div 保留在特定位置并忽略页面大小的调整有没有办法让添加到铯查看器的 DIV 响应我现在做的是 var
为什么我的代码没有在我的应用程序上更新？（更新eclipse后）

在你因为看不到任何代码而否决我的问题否决的荒谬理由之前请阅读它问题问题是即使我更改代码并在手机上运行它它也会运行但应用程序实际上不会改变例如如果我以前吃吐司会说 hello world 在 onCreate 中但后来我
什么是 Webhook？我为什么要关心？

我能找到的最好的是这个维基条目 http en wikipedia org wiki Webhook 我想肯定还有比这更多的事情我错过了什么吗来自doc https webhooks pbworks com w page 133851
如何获得所有可能的 3 个字母排列？ [复制]

这个问题在这里已经有答案了可能的重复列出字符串整数的所有排列 https stackoverflow com questions 756055 listing all permutations of a string integer
Pandas diff SeriesGroupBy 比较慢

Total time 1 01876 s Function prepare at line 91 Line Hits Time Per Hit Time Line Contents 91 profile 92 def prepare 93

Pandas diff SeriesGroupBy 比较慢

Pandas diff SeriesGroupBy 比较慢 的相关文章

随机推荐

热门标签

Pandas diff SeriesGroupBy 比较慢的相关文章