涉及前一行数据的 Python 向量化运算

2024-01-03

我很好地掌握了如何利用 pandas 和 numpy 对整个数据列进行矢量化操作。然而，我遇到了一种我似乎无法矢量化的情况。当计算涉及利用前一行的值来计算当前行时，我必须退回到 for 循环。

是否可以对这种事情进行矢量化？这是我的意思的一个简单例子：

# Test set of 20 random integers
df = pd.DataFrame({'base': [15, 16, 2, 16, 14,
                            1, 18, 18, 4, 7,
                            4, 18, 19, 13, 16,
                            11, 1, 8, 1, 9]})


# Empty array to hold calculated values
calc_data = np.empty((20, 1))

period = 14

for idx, value in enumerate(df.base):

    # Seeding the first element of the calculated array
    if idx == 0:
        calc_data[idx] = 5

    else:
        calc_data[idx] = (calc_data[idx - 1] * (period - 1) + df.base.iloc[idx]) / period

# Adding the column to the dataframe
df['calculated'] = calc_data

print(df)

Output:

    base  calculated
0     15    5.000000
1     16    5.785714
2      2    5.515306
3     16    6.264213
4     14    6.816769
5      1    6.401286
6     18    7.229765
7     18    7.999068
8      4    7.713420
9      7    7.662461
10     4    7.400857
11    18    8.157939
12    19    8.932372
13    13    9.222916
14    16    9.706994
15    11    9.799351
16     1    9.170826
17     8    9.087196
18     1    8.509539
19     9    8.544572

一种矢量化方式（将“矢量化”视为“避免 Python 级循环”）是将其视为线性信号滤波器 https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.lfilter.html:

import numpy as np
import pandas as pd
import scipy.signal

def via_lfilter(arr):
    period = 14
    y0 = 5.0  # initial value

    # calc_data[idx] = (calc_data[idx - 1] * (period - 1) + df.base.iloc[idx]) / period
    b = [1.0/period]  # coefficients of 'original' terms
    a = [1.0, -(period-1)/period]  # coefficients of 'computed' terms

    zi = scipy.signal.lfiltic(b, a, [y0], x=arr[1::-1])

    y = np.zeros_like(arr)
    y[0] = y0
    result = scipy.signal.lfilter(b, a, arr[1:], axis=0, zi=zi)
    y[1:] = result[0]

    return y

但在现实世界中，我只使用 numba，它的设计正是为了给我们带来矢量化的性能优势，而不会带来麻烦：

import numba

@numba.jit(nopython=True)
def via_numba(arr):
    calc_data = np.zeros_like(arr)
    period = 14
    calc_data[0] = 5.0  # initial value
    for idx in range(1, len(arr)):
        calc_data[idx] = (calc_data[idx - 1] * (period - 1) + arr[idx]) / period
    return calc_data

这些给了我：

In [238]: df["vect"] = via_lfilter(df.base.values.astype(float))
     ...: df["via_numba"] = via_numba(df.base.values.astype(float))
     ...: 
     ...: 

In [239]: df
Out[239]: 
    base  calculated      vect  via_numba
0     15    5.000000  5.000000   5.000000
1     16    5.785714  5.785714   5.785714
2      2    5.515306  5.515306   5.515306
3     16    6.264213  6.264213   6.264213
4     14    6.816769  6.816769   6.816769
5      1    6.401286  6.401286   6.401286
6     18    7.229765  7.229765   7.229765
7     18    7.999068  7.999068   7.999068
8      4    7.713420  7.713420   7.713420
9      7    7.662461  7.662461   7.662461
10     4    7.400857  7.400857   7.400857
11    18    8.157939  8.157939   8.157939
12    19    8.932372  8.932372   8.932372
13    13    9.222916  9.222916   9.222916
14    16    9.706994  9.706994   9.706994
15    11    9.799351  9.799351   9.799351
16     1    9.170826  9.170826   9.170826
17     8    9.087196  9.087196   9.087196
18     1    8.509539  8.509539   8.509539
19     9    8.544572  8.544572   8.544572

并且两者在较大的框架下表现得相当合理：

In [240]: df = pd.DataFrame({"base": np.random.uniform(1, 100, 10**6)})

In [241]: %timeit via_lfilter(df.base.values.astype(float))
11.4 ms ± 49.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [242]: %timeit via_numba(df.base.values.astype(float))
11 ms ± 342 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

vectorization

涉及前一行数据的 Python 向量化运算的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

按位 XOR（异或）是什么意思？

我试图理解 C 或一般情况下的二元运算符特别是异或 http msdn microsoft com en us library zkacc7k1 aspx 例如给定一个正整数数组除了一个出现奇数次的数字外所有数字都出现偶数次在
nodejs socket.io 在函数循环内发出

我想通过循环内的 socket io 发出为此我制作了一个运行良好的触发器但在每个触发器中我调用 socket emit 并且只有第一个发出有效这是服务器代码 var server require http createServer
从动态 PHP 页面生成 HTML 静态页面 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个脚本来在运行时从动态内容生成静态 HTML 页面我基本上想做的就是保存那些缓存那些ht
用于提取 HTML 图像属性的正则表达式

我需要一个正则表达式模式来提取图像标签的所有属性众所周知存在大量格式错误的 HTML 因此该模式必须涵盖这些可能性我正在看这个解决方案https stackoverflow com questions 138313 how to ex
用于乐观更新的操作存储是 Redux/Flux 中的一个好方法吗？

我一直在 React Flux 应用程序中进行乐观更新并看到了两件事如果用户在存在某些未完成的操作时尝试关闭窗口会发生什么情况例如在 Facebook 中即使没有真正持久化消息也会出现在墙上这就是乐观更新的作用对用户来说是
flag_shih_tzu 可以处理的最大标志数量是多少？

我正在使用 flag shih tzu gem 我想知道它可以处理的最大标志数量是多少或者它是否取决于 int 标志列中的长度我需要它来处理 64 个标志 can it 我是 flag shih tzu 的维护者最佳实践出于性能原因
我是否正确使用了 Automapper 2.0 的 Include 功能？

要么我没有要么它不起作用我有一个 Source 类我想将其映射到彼此继承的多个视图基本上基类是 Detail 子类是 Edit 或 Update 它们使用与 Detail 相同的所有数据再加上几个其他字段来管理自己的列表或其他内
如何更改 allauth 中的电子邮件验证链接

我在 django 应用程序中使用 allauth 创建用户后它会发送一封包含如下链接的电子邮件http localhost 8001 account confirm email asdfafsd 不过我希望链接是http localh
通过 AlamofireImage 下载 UIImage？ [复制]

这个问题在这里已经有答案了我有一个 URL 想通过返回函数下载图像但是我无法让它正常配合这是我的函数 func getTabImage url URL gt UIImage Alamofire request url response
为多个客户端运行 Magento - 单个安装与多个安装

我希望为多个客户端设置 Magento 社区版安装并且已经研究了几天这个问题我可以看到企业版中有我需要的东西但令人惊讶的是我不愿意支付每年 12 000 美元的订阅费用似乎有一些选项可供选择但我担心我将从各种选项中获得的性能选
删除 TensorFlow 图中除少数节点之外的所有节点

我的 TensorFlow 用例要求我为每个需要处理的实例构建一个新的计算图这最终会增加内存需求除了少数几个tf Variables这些是模型参数我想删除所有其他节点其他有类似问题的人也发现了tf reset default gra
如何在 Windows 中使用正则表达式匹配行尾

我在 Windows 中创建了一个 txt 文件现在应该在 Linux 中进行编辑我想用 grep 匹配行尾假设我要在文件中找到的行的内容是 foo bar bar 然后我发出命令grep r bar 但没有产生任何输出在 Wind
多线程 COMObject 和 UI 线程 (C#)

这是我在这里发表的第一篇文章因为实际上我通常用很棒的方法解决我所有的问题您可以在这里找到邮政数据库但我现在实际上陷入困境我正在开发一个遵循 MVVM 的项目其中包括一个 COM 对象正如我在研究过程中所读到的那样我了解到 CO
具有多个代理的 Ember CLI

问题我有一个 Ember CLI 应用程序它将使用多个 API 我需要在开发模式下代理这些 API 背景我有一个遗留的 api 它在以下位置公开服务 api在我的本地开发机器上运行localhost 3000 我有一个新的 api 它
申请家庭内如何分配？

我有包含多个因素的 data frame 我想重命名所有这些因素的因素级别例如 mydf lt data frame col1 as factor c A A NA NA col2 as factor c A NA NA A mydf l
不同 Modelica 仿真环境之间有什么区别？

有不同的 Modelica 仿真环境包括 Dymola Wolfram SystemModeler OpenModelica 和 Jmodelica 所以我尝试加载热流体库 ThermoSysProhttps github com Dw
为什么命名元组使用的内存比字典少？

我问这个是因为我觉得这很令人惊讶我想namedtuple会有更多的开销背景是我在内存中缓存了一个大型 Django 查询发现 Django 对象的大小是 values 然后我想知道什么开销namedtuple对象的版本将是允许我仍然
从一个 SQS 触发器触发多个 lambda 函数

我不确定我是否正确理解 AWS Lambda SQS 触发器我是否可以将其配置为一个 SQS 队列可以根据消息正文或消息属性触发不同的 lambda 函数我的用例我有三个不同的 lambda 函数 processCricket pro
java.lang.RuntimeException：运行命令获取文件权限时出错：ExitCodeException exitCode=-1073741515

问题的标题是我在 Windows 10 上安装 Hadoop 2 9 1 时遇到的异常经过几周的研究我无法找到我的标题查询的答案根据我收到的异常 hadoop 进程正在数据目录中查找权限但我已经在管理员模式下运行 dfs cmd 和
涉及前一行数据的 Python 向量化运算

我很好地掌握了如何利用 pandas 和 numpy 对整个数据列进行矢量化操作然而我遇到了一种我似乎无法矢量化的情况当计算涉及利用前一行的值来计算当前行时我必须退回到 for 循环是否可以对这种事情进行矢量化这是我的意思的一个

涉及前一行数据的 Python 向量化运算

涉及前一行数据的 Python 向量化运算 的相关文章

随机推荐

热门标签

涉及前一行数据的 Python 向量化运算的相关文章