为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢

2024-05-15

我有一个这种格式的 .csv 文件

timestmp, p
2014/12/31 00:31:01:9200, 0.7
2014/12/31 00:31:12:1700, 1.9
...

当通过阅读时pd.read_csv并将时间字符串转换为日期时间使用pd.to_datetime，性能急剧下降。这是一个最小的例子。

import re
import pandas as pd

d = '2014-12-12 01:02:03.0030'
c = re.sub('-', '/', d)

%timeit pd.to_datetime(d)
%timeit pd.to_datetime(c)
%timeit pd.to_datetime(c, format="%Y/%m/%d %H:%M:%S.%f")

表演是：

10000 loops, best of 3: 62.4 µs per loop
10000 loops, best of 3: 181 µs per loop
10000 loops, best of 3: 82.9 µs per loop

那么，我怎样才能提高性能pd.to_datetime从 csv 文件读取日期时？

这是因为 pandas 回落到dateutil.parser.parse用于在字符串具有非默认格式或没有时解析字符串format提供字符串（这更灵活，但也更慢）。

如上所示，您可以通过提供format字符串到to_datetime。或者另一种选择是使用infer_datetime_format=True

显然，infer_datetime_format无法推断何时存在微秒。通过没有这些的示例，您可以看到很大的加速：

In [28]: d = '2014-12-24 01:02:03'

In [29]: c = re.sub('-', '/', d)

In [30]: s_c = pd.Series([c]*10000)

In [31]: %timeit pd.to_datetime(s_c)
1 loops, best of 3: 1.14 s per loop

In [32]: %timeit pd.to_datetime(s_c, infer_datetime_format=True)
10 loops, best of 3: 105 ms per loop

In [33]: %timeit pd.to_datetime(s_c, format="%Y/%m/%d %H:%M:%S")
10 loops, best of 3: 99.5 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

pandas

pythondatetime

stringtodatetime

为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
使用 matplotlib.animation 从 CSV 文件实时绘图 - 数据绘制到第一个输入错误

我正在尝试绘制来自不断写入 CSV 文件的传感器的数据虽然成功创建实时绘图但每个新数据条目都会创建一条延伸到第一个数据条目的附加线见下文 Python 3 4 脚本 import matplotlib pyplot as plt im
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

我有一个使用 Amazon 的 RDS 服务托管的数据库我正在尝试编写一个 Web 服务来更新所述数据库我遇到的问题是它不允许我使用 COPY 命令因为我收到此错误错误必须是超级用户才能复制到文件或从文件复制我正在使用我为数据库
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

如何在 SQLite 中替换字符串？

如何更新具有以下内容的表列 var mobile 233KKFSDK3234 Documents Page jpg 并将其替换为 Documents Page jpg 在 SQLite 中注意所有文字除了 Documents 是动态的
GWT 是否重用 Google Closure Compiler，如果不重用，为什么？

谷歌网络工具包 GWT http code google com webtoolkit 执行 javascript 代码的内联缩小和删除未使用的代码以及其他一些优化这些也是由谷歌闭包编译器 http code google com c
来自java的kotlin函数默认参数

给出以下 Kotlin 类 class Foo public fun bar i Int 0 Int 2 i 我应该如何在没有 java groovy 代码中的任何参数的情况下调用 bar 函数 def f new Foo f bar th
如何将 Twitter 小部件嵌入到 Reactjs 中？

前往 Twitter 小部件网站 https publish twitter com https publish twitter com 我可以获得一个小部件添加到我的网站我正在使用示例代码来尝试了解它的工作原理 a class twit
如何在 ASP.Net MVC 中执行 301 永久重定向路由

如何在 ASP NET MVC 中执行 HTTP 301 永久重定向路由创建一个继承自 ActionResult 的类 public class PermanentRedirectResult ActionResult public st
将命令行参数传递给子进程并对它们进行计数

我希望父进程将参数传递给 main 并通过以 argv 1 开头的管道一次将其中的字符发送到子进程然后继续处理其余参数一次调用 write对于每个字符我希望子进程计算父进程发送给它的字符数并打印出从父进程接收到的字符数子进程不应以
如何将整个 GDB 会话转储到文件中，包括我输入的命令及其输出？

在 bash 中我可以使用script命令它将 shell 上显示的所有内容转储到文件中包括键入的命令 PS1 line 命令的 stdout 和 stderr gdb 中的等效项是什么我试着跑shell script从 GDB
For...VBA 中的下一个循环超出限制

我正在使用一个For Next循环填充数组如下所示 ReDim array 1 to 100 1 to 100 For i 1 to 100 Next i But the i计数器似乎总是转到 101 而不是停止在 100 因此这会在我
Rails 注释分段错误

有一些问题围绕着这个问题但没有什么真正能满足我的需求 After I bundle install下面列出了我的 Gemfile 我运行annotate并出现以下错误 Users nickcoelius rvm gems ruby 1 8
在浏览器中查看 javascript 事件

我正在使用火狐浏览器有没有什么东西可以向我显示实时触发的所有 JavaScript 事件您可以右键单击其中的元素Firebug http getfirebug com的 HTML 选项卡并单击日志事件然后您将在控制台选项卡中看到
Safari 中的 javascript 页面刷新

我正在尝试弄清楚如何使用 javascript 刷新 Safari 5 1 中的页面但似乎没有任何效果到目前为止我已经尝试过窗口位置 href 窗口位置 href 窗口位置窗口位置 href window location r
没有导出的成员/节点模块

我刚刚开始使用 5 分钟快速入门找到的 Angular 2 Typescripthere https angular io docs ts latest quickstart html 我遇到了一个看起来很常见的问题但可能有点不同我遇到
触发“对等方重置连接”

我想测试当发生对等方重置连接错误时我们的应用程序嵌入式 ftp 服务器中发生的日志记录这个帖子 https stackoverflow com questions 1434451 connection reset by peer很
多行 C# 正则表达式在空行后匹配

我正在寻找一个多行正则表达式它将匹配空行后出现的情况例如给定下面的示例电子邮件我想匹配发件人 Alex From s 可以匹配任何 From 行但我希望它仅限于正文中的行第一个空白行之后的任何行 Received from a
python 插入与追加

我编写了基本的 python 代码片段首先将值插入列表中然后反转它们我发现插入和追加方法之间的执行速度存在巨大差异片段 1 L for i in range 10 5 L append i L reverse 执行此操作所需的时间
Springfox - 如果不在控制器中使用 POJO，是否可以通过注释记录 POJO

正如标题所说如果 POJO 未在控制器方法中使用是否可以在 swagger 文档中包含 POJO 我尝试在 POJO 类上使用 ApiModel 注释即 ApiModel POJO public class Pojo 但是除非 PO
redis 2.8.7 Linux Sentinel环境配置问题，如何使其自启动，应该订阅什么？

现在我们尝试使用 redis 2 8 7 作为缓存存储来自使用 booksleeve 客户端的 NET Web 应用程序目前看来这是一个非常有趣和令人兴奋的任务 redis 文档非常好但由于缺乏真正的实践经验我确实有几个关于如何正确
在 JDeveloper 中创建应用程序服务器连接时出错

背景我使用安装了 SOA 的 Oracle JDeveloper Studio 作为我的 IDE 在 JDeveloper 中我想创建到远程 Weblogic 服务器的连接 The remote服务器运行在我的本地计算机上我将其称为远
将表行从 Word 文档复制到现有文档表特定单元格

我正在寻找一个宏它将内容从一个 Word 文档中的表格复制到另一个现有 Word 文档中的表格到特定单元格中从第 5 行开始复制后面的所有行并将其粘贴到现有文档中的第 5 行这可能吗在此输入图像描述 https i stack i
为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢

我有一个这种格式的 csv 文件 timestmp p 2014 12 31 00 31 01 9200 0 7 2014 12 31 00 31 12 1700 1 9 当通过阅读时pd read csv并将时间字符串转换为日期时间使用p

为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢

为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢 的相关文章

随机推荐

热门标签

为什么 pandas.to_datetime 对于非标准时间格式（例如“2014/12/31”）很慢的相关文章