在 Pandas 中解析大型 CSV 文件的最快方法

2024-01-07

我正在使用 pandas 来分析大型 CSV 数据文件。它们的大小约为 100 兆。

每次从 csv 加载需要几秒钟,然后需要更多时间来转换日期。

我尝试加载文件,将日期从字符串转换为日期时间,然后将它们重新保存为 pickle 文件。但加载这些也需要几秒钟。

我可以使用哪些快速方法从磁盘加载/保存数据?


正如 @chrisb 所说,熊猫'read_csv可能比csv.reader/numpy.genfromtxt/loadtxt。我认为你不会找到更好的东西来解析 csv (作为注释,read_csv不是“纯 python”解决方案,因为 CSV 解析器是用 C 实现的。

但是,如果您必须经常加载/查询数据,解决方案是仅解析 CSV 一次,然后将其存储为其他格式,例如 HDF5。您可以使用pandas (with PyTables在后台)有效地查询(docs http://pandas.pydata.org/pandas-docs/stable/io.html#hdf5-pytables).
HDF5、csv和SQL与pandas的io性能比较见这里:http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations

还有一个可能相关的其他问题:使用 pandas 的“大数据”工作流程 https://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas/14268804#14268804

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas 中解析大型 CSV 文件的最快方法 的相关文章

随机推荐