使用 Numba 处理 pandas DataFrame 时间序列的有效方法

2024-03-02

我有一个包含 1,500,000 行的 DataFrame。这是我从 QuantQuote.com 购买的一分钟级别的股市数据。（开盘价、最高价、最低价、收盘价、交易量）。我正在尝试对股票市场交易策略进行一些自制的回测。直接使用 python 代码来处理交易太慢了，我想尝试使用 numba 来加快速度。麻烦的是numba 似乎不适用于 pandas 函数 https://groups.google.com/a/continuum.io/forum/#!topic/numba-users/ZNfJtXeH2Lc.

谷歌搜索发现，关于使用 numba 和 pandas 的信息令人惊讶地缺乏。这让我想知道我的考虑是否犯了错误。

我的设置是 Numba 0.13.0-1，Pandas 0.13.1-1。 Windows 7、带有 PTVS 的 MS VS2013、Python 2.7、Enthought Canopy

我现有的Python+Pandas内循环具有以下一般结构

计算“指标”列（使用 pd.ewma、pd.rolling_max、pd.rolling_min 等）
计算预定事件的“事件”列，例如移动平均线交叉、新高等。

然后我使用 DataFrame.iterrows 来处理 DataFrame。

我尝试了各种优化，但仍然没有我想要的那么快。并且优化会导致错误。

我想使用 numba 来处理行。有解决这个问题的首选方法吗？

因为我的 DataFrame 实际上只是一个浮点矩形，所以我正在考虑使用 DataFrame.values 之类的东西来访问数据，然后编写一系列使用 numba 来访问行的函数。但这会删除所有时间戳，我不认为这是可逆操作。我不确定从 DataFrame.values 获得的值矩阵是否保证不是数据的副本。

任何帮助是极大的赞赏。

Numba 是一个支持 NumPy 的即时编译器。您可以将 NumPy 数组作为参数传递给 Numba 编译的函数，但不能传递给 Pandas 系列。

截至 2017 年 6 月 27 日，您唯一的选择是使用 Pandas 系列值，它们实际上是 NumPy 数组。

另外，您询问这些值是否为“保证不是数据的副本”。它们不是复制品，您可以验证：

import pandas


df = pandas.DataFrame([0, 1, 2, 3])
df.values[2] = 8
print(df)  # Should show you the value `8`

在我看来，Numba 是一种很棒的（如果不是最好的）处理市场数据的方法，而您只想坚持使用 Python。如果您想看到巨大的性能提升，请务必使用@numba.jit(nopython=True)（请注意，这不允许您在 JIT 编译的函数中使用字典和其他 Python 类型，但会使代码运行得更快）。

请注意，您正在使用的某些指标可能已经在 Pandas 中有效实现，因此请考虑使用 Pandas 预先计算它们，然后将值（NumPy 数组）传递给您的 Numba 回测函数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Numba 处理 pandas DataFrame 时间序列的有效方法的相关文章

TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

解读 C++ 模板错误消息

当人们说 C 的错误消息对于模板来说非常糟糕时我真的开始理解他们的意思了对于像函数与其原型不匹配这样简单的事情我见过可怕的长错误有什么技巧可以破译这些错误吗编辑我同时使用 gcc 和 MSVC 他们俩看起来都非常可怕您可以尝试
如何从闭包内部修改在闭包外部定义的变量？

如何从闭包内部修改在闭包外部定义的变量 Code fn main let mut t foo to string println t let mut closure t clear closure println t 编译错误 cannot
为什么 jQuery 或 getElementById 等 DOM 方法找不到该元素？

可能的原因有哪些document getElementById id 或者任何其他 DOM 方法 jQuery 选择器找不到元素示例问题包括 jQuery 默默地无法绑定事件处理程序 jQuery getter 方法 val html t
当我更改控件的左侧位置和宽度时，如何阻止控件抽搐？

我有一个用户可以用鼠标调整大小的控件当它们移动到右侧时我只需更改宽度一切正常但是当它们移动左侧尺寸时我必须更改左侧和宽度属性控件的右侧明显抽搐在新位置显示旧宽度如果我使用边界同时设置左侧和宽度它仍然会抽搐是否将
删除中不存在的地方

我遇到的一个简单问题我从以下 SQL 中收到语法错误 DELETE FROM Blog Category c WHERE NOT EXISTS SELECT FROM Blog Posts p WHERE p postCategory b
C 中数组的递归和[重复]

这个问题在这里已经有答案了你好我正在学习 C 中的递归我试图找到元素的总和这是我的主要 int main int arr 1 2 3 4 5 int sum sum arr sum arr 4 printf nsum is d su
有和/或没有类型的 AWS DynamoDB 数据？

我正在使用aws sdk让 NodeJS 与 DynamoDB 表进行交互这是我第一次了解 DynamoDB 当使用像这样的调用时getItem or updateItem 数据结构包括类型如下所示 a S My string 有没有什
iPhone 应用程序提交到 App Store 所需的图形的完整列表

你好精彩的stackoverflowers 我希望这个问题在本网站的范围内我正准备向 AppStore 提交我的第一个 iPhone 应用程序我想确保我拥有所需的所有图形我还想确保我有 iPad 所需的图形和成为特色如果我幸运的话
如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用

假设我有以下数据 import pandas as pd data Reference 1 2 3 4 5 Brand Volkswagen Volvo Volvo Audi Volkswagen Town Berlin Berlin St
验证 apk 是否为付费副本（避免应用程序盗版）

我对 Android Play 商店完全陌生我正在开发一个即将完成并准备发布的应用程序但我注意到您可以将 apk 文件购买后复制到另一个位置例如 SD 卡并将其安装在另一台设备上这是我想避免的事情我的问题是 Google P
R：根据其他列填充和/或复制行

我的问题是基于此question https stackoverflow com questions 35614425 r code programming filling missing column values down first
R 加载错误 - libproj.so.13：无法打开共享对象文件：没有这样的文件或目录

我正在尝试安装 CRANs 群体遗传学包希尔夫统计 https cran r project org web packages hierfstat hierfstat pdf 但是 libproj so 13 打印出以下错误 gt inst
垂直拉伸列表项目

我正在构建一个phonegap应用程序我有以下内容 ul li One li li Two li li Three li li Three br a Half li ul 我怎样才能使 li 元素垂直拉伸并填充页面的整个高度因为这需要是
如何在企业架构师的下拉列表中添加多个标记值？

我正在使用企业架构师我希望在下拉列表中显示多个值作为标记值我只能为标记值赋予一个值但我不知道如何为一系列选择执行此操作我在 sparx 系统的用户指南中找不到帮助也许我没有找到它有什么帮助吗谢谢创建下拉标记值列表企业架构师
Xamarin.iOS 在应用程序未关闭时处理推送通知

如果应用程序在后台使用该方法我设法处理推送通知didReceiveRemoteNotification 如果应用程序位于前台且未关闭是否有办法处理推送通知谢谢你实施了吗用户通知 https developer apple com d
iTunesConnect 要求我提交“年终自我资格报告”

当我尝试提交我的应用程序进行测试时出现了此问题如果您使用 ATS 或调用 HTTPS 请注意您需要提交年终自我分类报告给美国政府答案是肯定的我确实会调用 https 来与我的 API 对话我具体应该怎么做才能满足这个要求呢什
在 Django 中运行 Discord 机器人

我想要一个访问 Django 数据库的不和谐机器人一个明显的解决方案是有两个单独的脚本我想知道是否有办法使不和谐机器人作为应用程序或其他东西成为 Django 的一部分您可以在单独的线程中运行不和谐机器人并且还可以相互设置属性同样
如何将已修补的 GNU readline 库正确链接到所有现有程序？

我最初的问题是我想要一种方法来区分在 vi 模式下使用 bash 时是处于 vi 命令模式还是 vi 插入模式据我了解从 GNU readline 7 0 开始有一种方法可以在命令提示符中设置指示器然而我想要的是改变光标的形状
有没有办法阻止 SqlPackage.exe 在部署脚本中设置默认文件组？

我们正在使用 Sql Server 数据库项目通过 SqlPackage exe 从 DacPac 创建部署脚本我们在不同的环境中设置了不同的 SQL Server 文件组部署时我们排除文件组因为我们希望在默认文件组中创建对象在数
使用 Numba 处理 pandas DataFrame 时间序列的有效方法

我有一个包含 1 500 000 行的 DataFrame 这是我从 QuantQuote com 购买的一分钟级别的股市数据开盘价最高价最低价收盘价交易量我正在尝试对股票市场交易策略进行一些自制的回测直接使用 python

使用 Numba 处理 pandas DataFrame 时间序列的有效方法

使用 Numba 处理 pandas DataFrame 时间序列的有效方法 的相关文章

随机推荐

热门标签

使用 Numba 处理 pandas DataFrame 时间序列的有效方法的相关文章