使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围

2024-04-23

有人可以指出我关于 OHLC 数据时间范围转换的正确方向吗Pandas http://pandas.pydata.org/？我想做的是构建一个数据帧，其中包含较高时间范围的数据，给定较低时间范围的数据。

例如，假设我有以下一分钟（M1）数据：

                       Open    High     Low   Close  Volume
Date                                                       
1999-01-04 10:22:00  1.1801  1.1819  1.1801  1.1817       4
1999-01-04 10:23:00  1.1817  1.1818  1.1804  1.1814      18
1999-01-04 10:24:00  1.1817  1.1817  1.1802  1.1806      12
1999-01-04 10:25:00  1.1807  1.1815  1.1795  1.1808      26
1999-01-04 10:26:00  1.1803  1.1806  1.1790  1.1806       4
1999-01-04 10:27:00  1.1801  1.1801  1.1779  1.1786      23
1999-01-04 10:28:00  1.1795  1.1801  1.1776  1.1788      28
1999-01-04 10:29:00  1.1793  1.1795  1.1782  1.1789      10
1999-01-04 10:31:00  1.1780  1.1792  1.1776  1.1792      12
1999-01-04 10:32:00  1.1788  1.1792  1.1788  1.1791       4

其中每分钟都有开盘价、最高价、最低价、收盘价 (OHLC) 和交易量值我想构建一组 5 分钟读数 (M5)，如下所示：

                       Open    High     Low   Close  Volume
Date                                                       
1999-01-04 10:25:00  1.1807  1.1815  1.1776  1.1789      91
1999-01-04 10:30:00  1.1780  1.1792  1.1776  1.1791      16

所以工作流程是这样的：

Open 是时间窗口中第一行的 Open
High 是时间窗口中的最高 High
低就是最低的低
关闭是最后一次关闭
体积只是体积的总和

但有几个问题：

数据有间隙（注意没有 10:30:00 行）
5 分钟间隔必须在回合时间开始，例如M5 于 10:25:00 开始，而不是 10:22:00
首先，不完整的集合可以像本例中那样省略，也可以包含在内（这样我们就可以有 10:20:00 5 分钟的条目）

The Pandas 关于上下采样的文档 http://pandas.sourceforge.net/timeseries.html#up-and-downsampling给出了一个例子，但他们使用平均值作为上采样行的值，这在这里不起作用。我尝试过使用groupby and agg但无济于事。对于获得最高高点和最低低点可能并不那么难，但我不知道如何获得第一个开盘价和最后一个收盘价。

我尝试的是以下内容：

grouped = slice.groupby( dr5minute.asof ).agg( 
    { 'Low': lambda x : x.min()[ 'Low' ], 'High': lambda x : x.max()[ 'High' ] } 
)

但它会导致以下错误，我不明白：

In [27]: grouped = slice.groupby( dr5minute.asof ).agg( { 'Low' : lambda x : x.min()[ 'Low' ], 'High' : lambda x : x.max()[ 'High' ] } )
---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
/work/python/fxcruncher/<ipython-input-27-df50f9522a2f> in <module>()
----> 1 grouped = slice.groupby( dr5minute.asof ).agg( { 'Low' : lambda x : x.min()[ 'Low' ], 'High' : lambda x : x.max()[ 'High' ] } )

/usr/lib/python2.7/site-packages/pandas/core/groupby.pyc in agg(self, func, *args, **kwargs)
    242         See docstring for aggregate
    243         """
--> 244         return self.aggregate(func, *args, **kwargs)
    245 
    246     def _iterate_slices(self):

/usr/lib/python2.7/site-packages/pandas/core/groupby.pyc in aggregate(self, arg, *args, **kwargs)
   1153                     colg = SeriesGroupBy(obj[col], column=col,
   1154                                          grouper=self.grouper)
-> 1155                     result[col] = colg.aggregate(func)
   1156 
   1157             result = DataFrame(result)

/usr/lib/python2.7/site-packages/pandas/core/groupby.pyc in aggregate(self, func_or_funcs, *args, **kwargs)
    906                 return self._python_agg_general(func_or_funcs, *args, **kwargs)
    907             except Exception:
--> 908                 result = self._aggregate_named(func_or_funcs, *args, **kwargs)
    909 
    910             index = Index(sorted(result), name=self.grouper.names[0])

/usr/lib/python2.7/site-packages/pandas/core/groupby.pyc in _aggregate_named(self, func, *args, **kwargs)
    976             grp = self.get_group(name)
    977             grp.name = name
--> 978             output = func(grp, *args, **kwargs)
    979             if isinstance(output, np.ndarray):
    980                 raise Exception('Must produce aggregated value')

/work/python/fxcruncher/<ipython-input-27-df50f9522a2f> in <lambda>(x)
----> 1 grouped = slice.groupby( dr5minute.asof ).agg( { 'Low' : lambda x : x.min()[ 'Low' ], 'High' : lambda x : x.max()[ 'High' ] } )

IndexError: invalid index to scalar variable.

因此，任何对此方面的帮助将不胜感激。如果我选择的路径不起作用，请建议其他相对有效的方法（我有数百万行）。一些关于使用 Pandas 进行金融处理的资源也很好。

在更新版本的 Pandas 中，有一个resample https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html方法。它非常快并且对于完成相同的任务很有用：

ohlc_dict = {                                                                                                             
    'Open': 'first',                                                                                                    
    'High': 'max',                                                                                                       
    'Low': 'min',                                                                                                        
    'Close': 'last',                                                                                                    
    'Volume': 'sum',
}

df.resample('5T', closed='left', label='left').apply(ohlc_dict)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围的相关文章

如何在基于其他数据帧的数据帧中创建联接？

我有 2 个数据框一份包含学生批次详细信息另一份包含分数我想加入 2 个数据框数据框1包含 s1 s2 s3 Stud1 Stud2 Stud3 Stud2 Stud4 Stud1 Stud1 Stud3 Stud4 数据框2包含
使用组合时如何解决循环依赖？

我遇到了如下所示的情况其中每个类都需要另一个类并且它创建了循环依赖关系我在使用 ctypes 包装一些 C 代码时遇到了这种情况已经有很多关于这个主题的帖子但我发现它们没有帮助我需要一些例子 Module A from B im
表单输入框不显示

我正在尝试使用 Django 显示一个简单的表单输入文本框我正在亚马逊 AWS 上部署该网站在不同的服务器 pythonanywhere 上运行良好但在 AWS 上存在主要问题具体来说输入框没有被显示我使用的模板如下首页 ht
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
使用 python 将 bibtex 文件转换为 html （也许是 pybtex？）

您好我想解析 bibtex 出版物文件并对特定字段例如年份进行排序并过滤某些内容然后将其放在网站上我遇到了 pybtex 它可以读取和解析 bibtex 文件但它基本上没有记录我不知道如何对条目进行排序 pybtex 是可行的
Redis 队列工作程序在 utcparse 中崩溃

我正在尝试按照以下教程获得基本的 rq 工作 https blog miguelgrinberg com post the flask mega tutorial part xxii background jobs https blog m
Flask-admin 内联建模传递表单参数会抛出 AttributeError

Flask 开发者们大家好在 Flask admin 中我目前尝试在模型视图中实现内联模型编辑在模型方面我有一个简单的树结构表示一组内容页面每个节点都有多个子节点以及与其关联的多个内容数据模型模型被命名为ContentNode
Jupyter Notebook 找不到 IQSharp

我一直在尝试为 Quantum Katas 运行 Q 但在找到 Q 内核方面遇到了一些困难唯一显示的内核是用于 Jupyter Notebook 的 Python 3 内核奇怪的是当我执行 jupyter kernalspec lis
调整pandas read_sql_query NULL值处理？

当我做 from sqlalchemy import create engine import pandas as pd engine create engine sqlite conn engine connect conn execut
根据另一个非索引数组中的值从 numpy 数组中选择元素

假设我有以下两个数组 a array 1 L 74 423088306605 5 H 128 05441039929008 2 L 68 0581377353869 0 H 88 15726964130869 4 L 97 45015825
使用 isdigit 表示浮点数？

a raw input How much is 1 share in that company while not a isdigit print You need to write a number n a raw input How m
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
ValueError：设置 random_state 无效，因为 shuffle 为 False。您应该将 random_state 保留为默认值（无），或设置 shuffle=True

当我尝试在 pycaret 中训练某些内容时我收到此错误消息 ValueError Setting a random state has no effect since shuffle is False You should leave
适用于 Python 的 GitLab CI 共享 Windows 运行器

我在 GitLab 中有一个 python 项目仓库我看到 GitLab 共享了可用的测试版 Windows 运行程序请参阅this https about gitlab com blog 2020 01 21 windows shar
Chrome 已关闭，并出现错误 ERROR:network_change_notifier_win.cc(141)] WSALookupServiceBegin 失败，原因为：0

我的笔记本电脑操作系统是 windows 10 我使用 selenium webdriver 和 Python 当我通过脚本打开chrome浏览器时加载网页后chrome就关闭了下面是我的python代码和错误 from seleniu
将 pi 打印到小数点后几位

w3resources 面临的挑战之一是将 pi 打印到小数点后 n 位这是我的代码 from math import pi fraser str pi length of pi number of places raw input En
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修

随机推荐

猫头鹰旋转木马键盘导航

我正在寻找向 Owl Carousel 插件添加键盘导航原始 jQuery 插件的 Github 有一个关于此主题的线程here https github com OwlFonk OwlCarousel issues 65 所以我尝试了以
Sphinx 文档中人类可读的迭代

Sphinx autodoc 扁平化字典列表和元组使得长的几乎难以阅读漂亮的打印格式也并不总是需要的因为一些嵌套容器最好保持扁平化而不是列化有没有办法显示可迭代对象as typed在源代码中直接从源获取它并添加一个 rst其命
在事件处理程序中获取表单元素

我想添加一个onSubmit事件所有的HTML Forms验证提交文件大小并阻止其提交javascript 问题是我没有id of the form 也没有那些file input element 现在我怎样才能获得所需的值input 可
Prolog 同构图

这里尝试解决同构图问题作业信息判断2个无向图是否同构没有孤立的顶点顶点数小于30 图的边作为谓词给出即 e 1 2 f 1 2 我正在尝试使用以下方法对于每对边即图 1 和图 2 中的每条边 Try to bind the v
PHP 标头重定向 301 - 有何影响？

I have example com 如果用户登录它应该自动加载example com option X其中 X 是用户的预定义选择所以我在顶部这样做index php header Location option X 但是如果用户
将字符串转换为带时区的日期

我有日期字符串2017 01 03T10 45 00 000 02 00我需要将其转移到类似的东西2017 01 03 10 45 00 0200 let formatter DateFormatter formatter dateForm
查找 AAR 依赖项

我正在使用编译成 AAR 文件的第 3 方 SDK 我想使用此 AAR 为 Xamarin 创建绑定库如何找到此 AAR 使用的依赖项如果我使用 Java 反编译器我可以看到许多类都有针对第 3 方 SDK 的导入语句因此我有时
ruby on Rails 3.1 将 .swf 移动到资产管道？

是否可以将 SWF 文件移动到资源管道中如果可以如何做到这一点我建议将它们放在一个名为的文件夹中app assets flash 将此文件夹添加到您的资源路径中 config assets paths lt lt Rails root
贪心聚类算法速度提升

我正在尝试在 python 中实现一个非常简单的贪婪聚类算法但很难优化它的速度该算法将采用距离矩阵找到具有最多小于预定距离截止值的分量的列并将行索引具有小于截止值的分量存储为簇的成员簇的质心是列索引然后从距离矩阵中删除每个
将 StarUML 图转换为 Visio 绘图

我有一个使用 Star Uml 创建的类图但现在的要求是将其移植到 MS Visio 是否可以将 uml 移植到具有可用 xml 信息的 vsd 提前致谢导出为 Windows 图元文件 WMF 和增强型 Windows 图元文件 EM
使用 VB.NET 循环遍历 XML 文件

我在处理 XMl 文件时遇到问题我想循环使用 VB NET 该文件并提取 OrderID 元素的所有值
在 Corda 中，哪些数据会发送到非验证公证服务？

这个问题经常出现在对话中当 Corda 交易被发送到非验证公证服务进行最终确定时公证服务可以看到并推断出关于世界的什么在将交易发送给非验证公证人之前会按如下方式进行过滤 stx buildFilteredTransaction Pr
如何组合两个表达式： result = exp1(exp2);

作为主题在这种情况下如何将两个表达式组合成一个表达式 Expression
双向绑定无法解析 java.lang.String 属性的 setter

我正在研究 Android Studio 2 1 AFIK 中引入的数据绑定 API 的双向绑定我收到这个有趣的错误错误任务 app compileDebugJavaWithJavac 执行失败 gt java lang Runtim
tkinter 和 pygame 不想在一个窗口中工作[重复]

这个问题在这里已经有答案了我想创建一个应用程序并希望使用 tkinter 作为 GUI 并使用 Pyglet 和 Pygame 等游戏库之一我没有找到任何有关将 pyglet 嵌入 tkinter 的信息但找到了一些使用 tkint
如何避免权限被拒绝 (publickey) SSH 密钥 (Windows)

我想通过 SSH 连接我的 ec2 但我收到这个错误 WARNING UNPROTECTED PRIVATE KEY FILE Permissions for F Config first1 pem are too open It is r
Visual Studio 2010 QuickWatch 窗口不可见

当我在 VS2010 中突出显示一个变量并右键单击以选择 QuickWatch 时 QuickWatch 窗口不会出现 VS 的行为就像模态窗口打开一样让我无法执行任何操作直到我点击取消一位同事建议我转到窗口菜单并选择重置 W
SqlException - 未找到网络路径

我正在运行我的代码并收到此错误但是这是什么意思找不到网络路径说明未处理的异常发生在当前 Web 请求执行期间请查看堆栈跟踪以获取有关错误及其位置的更多信息它起源于代码异常详细信息 System ComponentModel
在 TypeScript 中找不到名称 jsPdf

我的任务是使用 JavaScript 将数据打印到 pdf 文件中所以我选择 jsPdf 来完成我的任务并且也成功了我的任务是将打印任务转换为 TypeScript 我面临一个新问题Can t find name jsPdf in Ty
使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围

有人可以指出我关于 OHLC 数据时间范围转换的正确方向吗Pandas http pandas pydata org 我想做的是构建一个数据帧其中包含较高时间范围的数据给定较低时间范围的数据例如假设我有以下一分钟 M1 数据 Ope

使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围

使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围 的相关文章

随机推荐

热门标签

使用 python 和 pandas 将 OHLC 股票数据转换为不同的时间范围的相关文章