在 Pandas 中解析大型 CSV 文件的最快方法

2024-01-07

我正在使用 pandas 来分析大型 CSV 数据文件。它们的大小约为 100 兆。

每次从 csv 加载需要几秒钟，然后需要更多时间来转换日期。

我尝试加载文件，将日期从字符串转换为日期时间，然后将它们重新保存为 pickle 文件。但加载这些也需要几秒钟。

我可以使用哪些快速方法从磁盘加载/保存数据？

正如 @chrisb 所说，熊猫'read_csv可能比csv.reader/numpy.genfromtxt/loadtxt。我认为你不会找到更好的东西来解析 csv （作为注释，read_csv不是“纯 python”解决方案，因为 CSV 解析器是用 C 实现的。

但是，如果您必须经常加载/查询数据，解决方案是仅解析 CSV 一次，然后将其存储为其他格式，例如 HDF5。您可以使用pandas (with PyTables在后台）有效地查询（docs http://pandas.pydata.org/pandas-docs/stable/io.html#hdf5-pytables).
HDF5、csv和SQL与pandas的io性能比较见这里：http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations

还有一个可能相关的其他问题：使用 pandas 的“大数据”工作流程 https://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas/14268804#14268804

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

在 Pandas 中解析大型 CSV 文件的最快方法的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在

随机推荐

将 Active Directory 属性设置为“未设置”的 .Net 代码

在 Active Directory mmc 管理单元中您看不到未设置的属性当您使用 ADSIEDIT MSC 工具时如果属性值为空您确实会将它们视为未设置如何在 Net 代码中将属性设置为未设置这是 Powershel
如果我在 -init 中什么都不做，是否与仅调用 [MyClass alloc] 相同？

如果我有一个NSObject子类要么没有 init方法或根本不执行任何操作 init 这两种方式创建的实例有什么区别 MyClass instance MyClass alloc MyClass instance MyClass alloc
C++ 标准到底在哪里说取消引用未初始化的指针是未定义的行为？

到目前为止我找不到如何推断出以下内容 int ptr ptr 0 是未定义的行为首先 5 3 1 1 指出表示间接转换T to T 但这并没有说明UB的任何事情然后经常引用3 7 3 2 4 说在非空指针上使用释放函数会导致指针无效
R 中绘图标签中的乳胶和变量？

如何在 R 的 Latex 表达式中使用变量例如 plot X Y main expression R 2 将把 R 加上漂亮的上标 2 作为主标题但假设我希望它说 R 2 0 5 其中 0 5 来自 R 变量我怎么做 Owen 的
使用 DLL 中的类创建 VB6 应用程序，然后在构建后交换该 DLL？

所以我的问题相对简单我可以创建引用dll中的类的VB6应用程序然后在运行时将该dll替换为另一个吗现在我最初的猜测是在 VB6 中没有机会所以我的想法转向了 VB net interop dll 我可以在这里做然后从 VB 调用
log4net LogicalThreadContext 不工作

我的问题要么是 log4net 中的错误要么是我的误解我正在尝试使用LogicalThreadContext将某些数据与调用上下文相关联并将其传播到该上下文中任何线程发出的任何日志语句这就是所谓的优点LogicalThreadCon
Codeigniter 使用什么设计模式？

相当简单的问题我知道 Codeigniter 是一个 MVC 框架但是 Codeigniter 使用什么设计模式乍一看它看起来像 Facade 但我可能是错的 Edit 也许我应该为那些不使用 Codeigniter 的人描述一下它
迭代数据网格的行

我试图通过迭代数据网格的所有行来从数据网格中提取值 foreach DataRow drv in PGIPortfolio Items DataRow row drv Row string acname drv Portfolio ToSt
我无法在 servlet-context XML 中使用 Spring 过滤器

由于某种原因 Eclipse 和 Spring 都找不到过滤器标签甚至有一个红色标记出了什么问题
通过计划任务触发时.net应用程序失败

我有一个用 C 编写的 net 控制台应用程序它在 Visual Studio 中运行以及单击文件系统中的 exe 文件时完全执行其应有的操作它运行起来就像一个魅力但是当我在 Windows 7 开发计算机或 Windows 200
更改 iPad 的备用图标

我在 iPad 上更改应用程序图标时遇到问题在 iPhone 上一切正常但在 iPad 上我收到此错误默认无法将preferredIconName设置为AI Gorgosaurus 0 gt 错误错误 Domain NSCocoa
Cassandra 长行性能

我正在考虑在 Cassandra 中实现一个具有很长行每行数十万到数百万列的 CF 我使用完全虚拟的数据将 200 万列插入到一行中均匀间隔如果我执行切片操作以获得 20 列那么当您在行的下方执行切片操作时我会注意到性能大幅下
Swift：将类的 ObjectID 用于可哈希协议会导致 set.contains 方法中的随机行为。代码有什么问题吗？

我在一个集合中存储了少量自定义类的实例我需要检查该集合中是否包含某个元素匹配的标准必须是对象的 ID 而不是其内容为了简化起见假设一个类以整数 var 作为唯一属性并且该类有两个不同的实例两者都保存数字 1 直接比较这些实例应返
当脚本结果正确时，Powershell 返回负退出代码

我制作了以下 PowerShell 脚本 Set Location D folder1 folder2 folder3 folder4 Get ChildItem Rename Item NewName BaseName insert 19
如何取消拆分编辑器，从 2 个代码视图返回到 1 个，与终端相同

如何取消拆分编辑器从 2 个代码视图返回到 1 个与终端相同编辑组为了不分裂编辑组 https code visualstudio com docs getstarted userinterface editor groups
如何查询Oracle目录的权限？

我在 all directories 中有一个目录但我需要找出与它关联的权限即已授予它什么权限这将为您提供在目录上授予的角色用户和权限 SELECT FROM all tab privs WHERE table name your
如何使 QLineEdit 在 Windows 中不可编辑

我正在使用 Qt 5 2 我想做一个QLineEdit不可编辑问题是它看起来并不像这样使用时setReadOnly true 它保持白色背景看起来仍然可以编辑如果我禁用它它就会变成灰色文本也会变成浅灰色问题是在禁用状态下
如何在 Internet Explorer 中触发 script.onerror？

The MSDN 上的 onerror 页面 http msdn microsoft com en us library cc197053 28VS 85 29 aspx指出 onerror 处理程序可以附加到脚本元素并且它在对象加载期
ggplot 中的直方图不是从 X 轴上的零开始[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案所以这是第一次使用 ggplot 制作直方图我看到的是对于我的数据导出的直方图如下所示我不喜欢的是第一个 bin 不包含零
在 Pandas 中解析大型 CSV 文件的最快方法

我正在使用 pandas 来分析大型 CSV 数据文件它们的大小约为 100 兆每次从 csv 加载需要几秒钟然后需要更多时间来转换日期我尝试加载文件将日期从字符串转换为日期时间然后将它们重新保存为 pickle 文件但加载这

在 Pandas 中解析大型 CSV 文件的最快方法

在 Pandas 中解析大型 CSV 文件的最快方法 的相关文章

随机推荐

热门标签

在 Pandas 中解析大型 CSV 文件的最快方法的相关文章