使用日期时间索引 pandas 更快地加载 csv

2023-12-25

我经常迭代存储在 csv 文件中的金融价格数据。当我完成与时间相关的所有分析时，就像使用 pandas 日期时间对象来子集和组织数据的可访问性一样。

我的问题是，当我将文件读入计算机内存时，会打扰parse_dates提供的参数顶部pandas.read_csv()和pandas.to_datetime()非常耗费时间。

有谁知道在 python 中处理时间戳的更好方法，可以优化它以运行许多需要加载到内存中的文件？

%timeit pd.read_csv("C:\\Users\\rgalbo\\Desktop\\Equity\\Data\\sp - working data\\30min--Adj\\AAPL_24.csv",index_col=[0])

10 loops, best of 3: 112 ms per loop

与 parse_date = True

%timeit pd.read_csv("C:\\Users\\rgalbo\\Desktop\\Equity\\Data\\sp - working data\\30min--Adj\\AAPL_24.csv",index_col=[0],parse_dates=True)

1 loops, best of 3: 7.5 s per loop

在测试了加载和解析包含 13,811,418 行、98 个唯一日期值的 csv 文件的几个选项后，我们得到了下面的代码片段，并发现如果我们通过format具有预定义日期格式的参数（在我们的例子中为“%m/%d/%Y”）我们可以达到2.52 s与 Pandas.0.15.3。

def to_date(dates, lookup=False, **args):
    if lookup:
        return dates.map({v: pd.to_datetime(v, **args) for v in dates.unique()})
    return pd.to_datetime(dates, **args)

还可以使用 coerce=True （或在更高版本中粗略='raise'）来启用日期格式验证，否则错误值将保留为字符串值，并且当执行任何其他日期时间操作时将导致错误在数据框列上执行

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

datetime

使用日期时间索引 pandas 更快地加载 csv 的相关文章

如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
Android 中 localTime 和 localDate 的替代类有哪些？ [复制]

这个问题在这里已经有答案了我想使用从 android API 获得的长值该值将日期返回为长值表示为自纪元以来的毫秒数我需要使用像 isBefore plusDays isAfter 这样的方法 Cursor managedCurso
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
MySQL 两种日期格式之间的转换

用户将以这种格式输入日期 2017 年 2 月 17 日存储在 mysql 数据库中的日期格式如下 2015 02 17 00 00 00 我想做的是 SELECT FROM insurance where DATE FORMAT in
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

IteratorGetNext 上的 TensorFlow 性能瓶颈

在摆弄 TensorFlow 时我注意到一个相对简单的任务批处理一些 3D 加速度计数据并获取每个周期的总和的性能相对较差一旦我得到了非常漂亮这就是我所运行的本质 Timeline https stackoverflow com
为什么 F5 在 Visual Studio 中执行之前不重建项目？

If I press F5 my project runs but it doesn t see any of the changes that I made I need to manually re build before press
如何将一个库静态链接到另一个静态库？

我有 2 个具有不同版本 MinGW 的构建环境一种为 Qt 配置另一种则没有然而两者都有 Qt 的存根静态库最终实际上链接到 dll 问题是我想在Qt MinGW中构建一个静态库然后将其包含在非Qt MinGW中当我尝试时
如何实现logstash配置的单元或集成测试？

使用logstash 1 2 1 人们现在可以有条件地做各种事情如果管理许多日志文件并实现指标提取即使是早期版本的 conf 文件也会变得复杂看完之后这个全面的 http untergeek com 2013 09 11 gettin
如何按最小增量（或接近最小增量）改变浮点数？

我有一个double value f并希望有一种方法将其稍微放大或缩小以获得一个尽可能接近原始值但仍严格大于或小于原始值的新值它不必接近最后一位更重要的是我所做的任何更改都保证产生不同的值而不是舍入到原始值检查你的 mat
jQuery DatePicker 填充输入 - 多次点击问题

所以我最近面临的困境是我使用 jQuery DatePick 不是 DatePicker 来选择日期并用这些日期填充输入字段问题是每次我单击日期时输入字段都会被填充因此如果我单击第 23 个然后再次单击它以取消选择它它会自动添
正则表达式重用一个模式来捕获多个组？

我想多次匹配某个模式就像描述的那样here https stackoverflow com questions 41878948 is it possible to define a pattern and reuse it to cap
为 NSTextField 设置边框

哇我真的掉进兔子洞了我试图在 UI 部分的背景上添加文本并将文本字段作为另一部分例如生日在然后我想重新调整该文本字段的用途以允许输入文本所以我做了类似的事情 myTextFieldName editable true myTex
在 Preact 和 typescript 中使用 Web 组件

我在用着自定义元素 https developer mozilla org en US docs Web Web Components Using custom elements又称为网络组件Preact https preactjs co
如何绘制堆叠和归一化直方图？

我有一个将连续值映射到离散类别的数据集我想显示一个直方图其中连续值作为 x 类别作为 y 其中条形堆叠并标准化例子 import numpy as np import pandas as pd import matplotlib im
在 Azure 数据工厂查找中处理 >5000 行

我有一个复制活动它将表从 MySQL 复制到 Azure 表存储这很好用但是当我在 Azure 表上进行查找时出现错误数据太多这是按照文档设计的 Lookup 活动最多可包含 5 000 行最大大小为 2 MB 另外还提到了
Android：将参数传递给选项卡

在我的 Android 应用程序中我使用以下代码来创建选项卡 mTabHost FragmentTabHost findViewById android R id tabhost mTabHost setup this getSuppor
脸书状态栏

有人知道如何在新 Facebook 中找到状态栏的好教程吗底部的那个看起来真的很酷我以为它是用 ajax 或 jquery 编写的但不确定以下是一些可能对您有帮助的有用链接插件定位页脚 http plugins jquery
计算向量中元素的所有成对差异[重复]

这个问题在这里已经有答案了我的问题与之前的帖子密切相关计算 R 中向量内的所有成对差异 https stackoverflow com questions 24314878 compute all pairwise difference
Rails 3 应用程序中的 Sass 导入错误 - “未找到或无法读取要导入的文件：指南针”

我有一个成功运行的 Rails 3 应用程序compass init rails using blueprint 我可以 import stylesheets 目录中的文件但当我尝试时出现错误 import compass 现在该应用程序
在 CORS spring security + webFlux 中启用通配符

我在使用 spring webFlux 制作的项目中启用了 spring security CORS 我的问题是我们接受来自以下机构的请求 http 本地主机 4200 http localhost 4200 我怎样才能让 CORS 接受来
如何启用 chromedriver 从 selenium webdriver 登录

如何从 selenium webdriver 中启用 chromedriver 详细日志记录功能我找到了合适的方法loggingTo and enableVerboseLogging但似乎无法正确使用它们 require chromedr
我怎样才能用汇编语言（MIPS）做小于或等于的事情？

我面前有 C 代码我必须将其翻译成 MIPS 汇编语言我并不是在寻找直接的答案但我希望有人纠正我思考问题的方式我面前的C代码是 x z lt y 我已经知道 x y 和 z 分别存储在寄存器中6 美元 7 美元 8 美元问题是我无
使用 ASP.NET MVC 4 从控制器调用另一个不同的视图

我有一个带有提交按钮的视图 Index cshtml 单击提交按钮时它会调用控制器 TestController cs 内的操作 Action01 因此在操作结束时我想以自定义视图模型作为参数返回到调用者 Index cshtml 视图
使用日期时间索引 pandas 更快地加载 csv

我经常迭代存储在 csv 文件中的金融价格数据当我完成与时间相关的所有分析时就像使用 pandas 日期时间对象来子集和组织数据的可访问性一样我的问题是当我将文件读入计算机内存时会打扰parse dates提供的参数顶部panda

使用日期时间索引 pandas 更快地加载 csv

使用日期时间索引 pandas 更快地加载 csv 的相关文章

随机推荐

热门标签