将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

2024-03-08

我正在寻找解决方案来加速我编写的函数，以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值。

例如，这是我的问题的简化版本：

   User  Time                 Col1  newcol1  newcol2  newcol3  newcol4
0     1     6     [cat, dog, goat]        0        0        0        0
1     1     6         [cat, sheep]        0        0        0        0
2     1    12        [sheep, goat]        0        0        0        0
3     2     3          [cat, lion]        0        0        0        0
4     2     5  [fish, goat, lemur]        0        0        0        0
5     3     9           [cat, dog]        0        0        0        0
6     4     4          [dog, goat]        0        0        0        0
7     4    11                [cat]        0        0        0        0

目前我有一个函数可以循环并计算 ' 的值newcol1' and 'newcol2'基于是否'User' 自上一行以来发生了变化，并且 ' 中的差异是否存在Time' 值大于 1。它还会查看存储在 ' 中的数组中的第一个值Col1' and 'Col2'和更新'newcol3' and 'newcol4' 如果这些值自上一行以来发生了变化。

这是我当前正在做的伪代码（因为我已经简化了问题，所以我还没有对此进行测试，但它与我在 ipython 笔记本中实际所做的非常相似）：

 def myJFunc(df):
...     #initialize jnum counter
...     jnum = 0;
...     #loop through each row of dataframe (not including the first/zeroeth)
...     for i in range(1,len(df)):
...             #has user changed?
...             if df.User.loc[i] == df.User.loc[i-1]:
...                     #has time increased by more than 1 (hour)?
...                     if abs(df.Time.loc[i]-df.Time.loc[i-1])>1:
...                             #update new columns
...                             df['newcol2'].loc[i-1] = 1;
...                             df['newcol1'].loc[i] = 1;
...                             #increase jnum
...                             jnum += 1;
...                     #has content changed?
...                     if df.Col1.loc[i][0] != df.Col1.loc[i-1][0]:
...                             #record this change
...                             df['newcol4'].loc[i-1] = [df.Col1.loc[i-1][0], df.Col2.loc[i][0]];
...             #different user?
...             elif df.User.loc[i] != df.User.loc[i-1]:
...                     #update new columns
...                     df['newcol1'].loc[i] = 1; 
...                     df['newcol2'].loc[i-1] = 1;
...                     #store jnum elsewhere (code not included here) and reset jnum
...                     jnum = 1;

我现在需要将此函数应用于几百万行，并且它的速度慢得令人难以置信，因此我正在尝试找出加快速度的最佳方法。我听说 Cython 可以提高函数的速度，但我没有这方面的经验（而且我对 pandas 和 python 都是新手）。是否可以将数据帧的两行作为参数传递给函数，然后使用 Cython 来加速它，或者是否需要使用“创建新列”diff“其中的值，以便该函数一次仅读取和写入数据帧的一行，以便从使用 Cython 中受益？任何其他速度技巧将不胜感激！

（关于使用 .loc，我比较了 .loc、.iloc 和 .ix，这个速度稍快，所以这是我目前使用它的唯一原因）

（还有，我的User实际上列是 unicode 而不是 int，这对于快速比较可能会出现问题）

我的想法和安迪一样，只是groupby补充说，我认为这是对安迪的回答的补充。添加 groupby 只会产生在每次执行操作时将 NaN 放入第一行的效果diff or shift。（请注意，这并不是试图给出确切的答案，只是为了勾勒出一些基本技术。）

df['time_diff'] = df.groupby('User')['Time'].diff()

df['Col1_0'] = df['Col1'].apply( lambda x: x[0] )

df['Col1_0_prev'] = df.groupby('User')['Col1_0'].shift()

   User  Time                 Col1  time_diff Col1_0 Col1_0_prev
0     1     6     [cat, dog, goat]        NaN    cat         NaN
1     1     6         [cat, sheep]          0    cat         cat
2     1    12        [sheep, goat]          6  sheep         cat
3     2     3          [cat, lion]        NaN    cat         NaN
4     2     5  [fish, goat, lemur]          2   fish         cat
5     3     9           [cat, dog]        NaN    cat         NaN
6     4     4          [dog, goat]        NaN    dog         NaN
7     4    11                [cat]          7    cat         dog

作为安迪关于存储对象的观点的后续，请注意，我在这里所做的是提取列表列的第一个元素（并添加一个移位版本）。这样做你只需要进行一次昂贵的提取，之后就可以坚持标准的熊猫方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法的相关文章

Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Rails Windows Vagrant 响应时间非常慢

我在跑 Vagrant 1 7 1 Rails 4 1 4 Thin 1 6 1 Windows 7 每个静态文件的发送时间都超过一秒在我的 PC 上加载一个页面可能需要大约 20 秒而在同事的 Linux 机器上则只需瞬间有一些帖子
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

使用 MySQL Workbench 搜索所有表

我可以使用 MySQL GUI 在所有表中搜索字符串吗或者是这样的 mySQL 查询在数据库中的所有表中搜索字符串 https stackoverflow com questions 7523039 mysql query to sear
-symbolic 和 -shared GCC 标志之间有什么区别？

从文档的描述来看它们似乎做了同样的事情除了并非所有系统支持共享并且只有某些系统支持符号尚不清楚这些是否是同一组系统共享生成一个共享对象然后可以将其与其他对象链接起来形成可执行文件并非所有系统支持这个选项对于可预测
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
为 .NET Framework 项目创建基于 Linux 的 Docker 文件

我有一个 ASP Net Framework 4 8 项目我想为此项目创建一个基于 Linux 的 Docker 文件但我在 NET Framework 的 Docker 文件中找不到基于 Linux 的映像来用作基础映像如何为此创建
Rails3 Mysql2::Error: 未知列 - ActiveRecord::StatementInvalid

我是在这个级别上使用 Rails 中的数据库的新手我已经寻找了几个小时但还没有找到解决这个特定问题的方法版本 Rails 3 2 9 Ruby 1 9 3 MySQL 5 5 28 mysql2 gem 2 9 0 Mac OS 10
如果 lt_dlopen 失败，如何获取更多信息？

我正在打电话lt dlopen并收到通用文件未找到错误翻译后的 errno 文本我怎样才能获得有关实际失败的更多信息因为该文件肯定存在这是一个加载 C 库的 C 程序在同一个程序的其他地方我使用相同的命令打开其他库没有问题因
“zipAlignExe”不存在。在 Android Studio 上运行我的项目时出错

我在下面遇到错误 Error A problem was found with the configuration of task project1 zipalignDebug gt File D Program Files Android
Eclipse 的最佳 JVM 设置是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
隐藏纵向中的 UISplitViewController 覆盖

在采用新的UISplitViewController我正在尝试更改使用时发生的默认行为UISplitViewControllerDisplayModeAutomatic mode 在纵向工作时我希望当用户触发推送到细节侧时隐藏主覆盖层默
通过 http 请求下载文件时的进度条

我需要下载一个相当大的 200MB 文件我想出了如何下载并保存文件here https stackoverflow com questions 16694907 how to download large file in python w
numpy.sin 函数以度为单位？

我正在研究一个与计算折射角有关的问题但是我似乎无法以度为单位使用 numpy sin 函数我尝试使用 numpy Degrees 和 numpy rad2deg numpy sin 90 numpy degrees numpy sin
如何使用 JavaFX 侦听在 TextField 中完成的鼠标粘贴？

将文本复制到剪贴板右键单击文本字段并按粘贴有没有办法在单击粘贴时监听或者更确切地说以这种方式粘贴某些内容后字段中的输入文本发生了变化因为这些在这种特殊情况下不起作用 setOnKeyReleased setOnInputMet
C 预处理器：在 #warning 中展开宏

我想在 warning 指令中打印宏值展开宏例如对于代码 define AAA 17 warning AAA 所需的编译时输出是 warning AAA 17 我该用什么或者如何增强代码您可以使用预处理器指令 pragma me
ValueError：给定的 numpy 数组中至少有一个步幅为负，并且当前不支持具有负步幅的张量

我正在使用 RL 编写自动驾驶代码我正在使用稳定的基线3和开放的人工智能健身房环境我在 jupyter 笔记本中运行以下代码但出现以下错误 Testing our model episodes 5 test the environme
使用经典 ASP 将 Base64 保存到图像

我一直在尝试使用经典 ASP 从服务器端将 base64 文件保存为图像我想要的是将文件自动保存到特定位置并给它一个文件名现在我可以很好地编码它的这方面但是如果不先在浏览器上渲染我就无法获取保存图像的代码这对我来说不起作用因为
使用 Mercurial SCM 进行分支

现在我正在学习 Ruby on Rails 并且正在阅读 Agile Web Development with Rails 一书我还决定尝试一下 Mercurial 因为我已经阅读了分布式 SCM 的相关内容而且这似乎是一个理想的情况
从经典 asmx 切换到 wcf 的好处

最近我从使用 asmx Web 服务切换到使用 wcf 服务转换即将完成但我知道我需要进行大量错误检查和测试以确保所有内容都按预期移植我的问题是到目前为止我只能想到使用 wcf 的一个好处那就是您可以获得一种简单的方法来实现
使用 gae 远程时发生错误：com.google.appengine.repackaged.com.google.api.client.http.HttpResponseException：302

当我使用 gae 远程 api 连接到远程服务器时发生错误如下所示 com google appengine repackaged com google api client http HttpResponseException 302
按值对字典排序

我有一本字典格式如下 honda 4 toyota 7 ford 3 chevy 10 我想按第二列即值降序对其进行排序期望的输出雪佛兰 10 丰田 7 本田 4 福特 3 感谢来自以下机构的卡里登如何按值对字典进行排序 htt
将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

我正在寻找解决方案来加速我编写的函数以循环遍历 pandas 数据帧并比较当前行和前一行之间的列值例如这是我的问题的简化版本 User Time Col1 newcol1 newcol2 newcol3 newcol4 0 1 6 c

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法 的相关文章

随机推荐

热门标签

将 pandas 数据框中的行和上一行与数百万行进行比较的最快方法的相关文章