有没有办法加快 python 中处理大型 CSV 和数据帧的速度？

2024-03-17

我正在处理一些大小在 1Gb 到 2Gb 范围内的 CSV 文件。仅将文件加载到 pandas 数据帧中就需要 20-30 分钟，而我执行的每个操作则需要 20-30 分钟，例如按列名称过滤数据帧，打印 dataframe.head() 等。有时，当我在等待时尝试使用另一个应用程序时，它也会滞后于我的计算机。我使用的是 2019 年款 Macbook Pro，但我想其他设备也是如此。

我尝试过使用modin，但数据操作仍然很慢。

有什么办法可以让我工作更有效率吗？

预先感谢您的回复。

pandas 文档上扩展到大型数据集 https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html有一些很棒的技巧，我将在这里总结一下：

加载更少的数据 https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html#load-less-data。使用以下命令读入列或行的子集usecols or nrows 参数为pd.read_csv https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html。例如，如果您的数据有很多列，但您只需要col1 and col2列，使用pd.read_csv(filepath, usecols=['col1', 'col2'])。如果您要加载带有大量额外逗号的数据集（例如，行看起来像index,col1,col2,,,,,,,,,,,。在这种情况下，使用nrows仅读入数据的子集，以确保结果仅包含您需要的列。
使用高效的数据类型 https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html#use-efficient-datatypes。默认情况下，pandas 将所有整数数据存储为有符号 64 位整数，将浮点数存储为 64 位浮点数，将字符串存储为对象或字符串类型（取决于版本）。您可以使用以下工具将它们转换为较小的数据类型Series.astype https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html or pd.to_numeric https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html与downcast option.
使用分块 https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html#use-chunking。解析大数据块可能会很慢，特别是如果您的计划是按行操作然后将其写出或将数据缩减为较小的最终形式。或者，使用low_memory标志让 Pandas 在后端使用分块迭代器，但返回单个数据帧。
使用其他库 https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html#use-other-libraries。这里列出了几个很棒的库，但我要特别指出dask.dataframe https://docs.dask.org/en/latest/dataframe.html，它专门针对您的用例，通过启用镜像的 CSV 文件的分块、多核处理熊猫 API https://docs.dask.org/en/latest/dataframe.html#dask-dataframe-copies-the-pandas-api并有简单的方法在处理数据后将数据转换回正常的 pandas 数据帧（如果需要）。

此外，我认为您应该考虑一些特定于 csv 的事情：

指定列数据类型 https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#specifying-column-data-types。特别是在分块的情况下，但即使您没有，指定列类型也可以显着减少读取时间和内存使用量，并突出显示数据中的问题区域（例如，NaN 指示器或不满足 pandas 默认值之一的标志）。使用dtypes具有单个数据类型的参数应用于所有列或列名的字典，数据类型对指示要读入的类型。或者，您可以提供converters格式化日期、时间或其他数字数据（如果它不是 pandas 识别的格式）。
指定解析器引擎 https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#specifying-the-parser-engine- pandas 可以用纯 python（慢）或 C（快得多）读取 csv。 python 引擎的功能稍微多一些（例如，目前 C 引擎无法读取具有复杂的多字符分隔符的文件，并且无法跳过页脚）。尝试使用参数engine='c'以确保正在使用 C 引擎。如果您需要一种不受支持的文件类型，我会尝试首先手动修复文件（例如删除页脚），然后使用 C 引擎进行解析（如果可能）。
确保捕获数字列中的所有 NaN 和数据标志。这可能是一项艰巨的任务，在输入中指定特定的数据类型有助于捕获不良情况。使用na_values, keep_default_na, date_parser, and converters论点pd.read_csv https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html。目前，解释为 NaN 的默认值列表是['', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', '<NA>', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null']例如，如果您的数字列具有编码为的非数字值notANumber那么这将被错过，并且要么导致错误（如果指定了数据类型），要么导致 pandas 将整个列重新分类为对象列（对内存和速度来说超级糟糕！）。
阅读pd.read_csv https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html一遍又一遍地文档。read_csv 的许多参数都有重要的性能考虑。pd.read_csv经过优化以平滑可被视为 csv 的大量变化，并且更多的 magic pandas 必须准备好执行（确定类型、解释 nan、转换日期（可能）、跳过页眉/页脚、推断索引/列、处理坏行等）读取速度越慢。给它尽可能多的提示/约束，你可能会发现性能大幅提高！如果这还不够，其中许多调整也将适用于dask.dataframe https://docs.dask.org/en/latest/dataframe.htmlAPI，因此可以很好地进一步扩展。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有没有办法加快 python 中处理大型 CSV 和数据帧的速度？的相关文章

如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

设计..首次登录后应要求更改密码

我在我的应用程序中使用设备作为身份验证我需要在设备中实现功能首次登录后用户应要求更改密码我尝试通过模型 after create update pass change def update pass change self pass
如何强制 Eclipse 请求默认工作空间？

我注意到安装 cdt 后 Eclipse 总是加载默认工作区中列出的工作区config ini in osgi instance area default 无论是否打开 Eclipse 都不会询问要打开哪个工作区Prompt for wo
以随机顺序打印数组[重复]

这个问题在这里已经有答案了如何在java中以随机顺序打印数组例子 int myArray 5 4 3 2 1 打印时结果可能是 3 2 1 4 5 or 4 3 2 5 1 你应该看看写一个费舍尔耶茨洗牌 http en wikip
不支持的授权类型 Salesforce OAUTH2

我正在使用 VBA 在 Salesforce 中获得授权然后最终想要运行 Salesforce 报告并将结果转储到 Excel 中我已编写以下内容来处理授权但收到 unsupported grant type 错误到目前为止我的代码
批处理文件执行文件夹中的所有.exe

我需要创建一个批处理脚本来运行文件夹中的所有 exe 文件这必须包括子文件夹我运行的是Windows 7 批处理文件存储在根文件夹中我尝试了几种变体但没有成功两个主要变化如下 REM dir exe S B gt tmpFile R
安卓中的adb是什么？

当我尝试运行 Android 程序时出现以下错误请解释一下到底是什么adb是的如何重新启动呢我收到以下错误 The connection to adb is down and a severe error has occured Y
为什么 Android 上的 onCallStateChanged() 在一次调用中会被多次调用？

我想实现一个像防火墙一样阻止呼叫的应用程序当我调试我的应用程序时我发现当有电话进来时 onCallStateChanged 界面中的函数电话状态监听器被调用 3 次因此阻止一个调用可能会导致三个日志我很困惑 my code Ove
PLSQL 触发器通过 SQL 加载器触发

当我们通过 SQL 加载器插入时表会被触发吗请详细解释一下 Oracle 将执行INSERT如果使用常规负载则触发但是当你使用直接负载时不是 http docs oracle com cd E11882 01 server 112 e
确定 django 中的属性是否为“DeferredAttribute”

上下文我在 Django Cache Machine 中发现了一个相当严重的错误导致其失效逻辑在从 Django 1 4 升级到 1 7 后失去理智该错误仅限于调用only 在扩展缓存机器的模型上CachingMixin 它会导致深度
如何剪切csv的列

我有一组 csv 文件大约 250 个每个文件有 300 到 500 条记录我需要从每个文件中剪切 2 或 3 列并将其存储到另一个文件中我在用着操作系统有什么办法可以在命令或实用程序中做到这一点吗如果您知道字段内没有出现列分隔
使用 1xx 响应通过 HTTP 报告进度

问题通过 HTTP 提供进度信息我正在编写一个应用程序我想为长时间运行的请求提供进度信息我希望客户端能够报告进度例如完成百分比并向用户发送消息 HTTP 1xx 响应我的目的是在最终 HTTP 响应之前使用 HTTP 1xx
如何在 Gnome 终端中对 Python 错误的输出进行着色？

注意我在研究如何实际做到这一点后提出这个问题其他有点相似但实际上与我的问题不同的问题涉及颜色编码withinpython脚本导入颜色库within剧本使用类似的工具Solarized改进工具例如Vim对 python 代码进行颜
Python unittest：如何临时将标准输出消息重定向到缓冲区并测试其内容？

我想捕获发送到的消息stdout our stderr 在测试期间暂时断言这些消息中是否出现某些字符串模式 import unittest class SomeTest unittest TestCase def test stdout s
Tomcat 6 堆大小 - 这是正确的吗？

我在 Red Hat 机器上运行多个 tomcat 我想为每个 tomcat 配置单独的堆大小某些实例使用更多内存我可以在 catalina sh 文件中输入以下内容来设置堆大小最小最大 bt CATALINA OPTS Xms64m
WPF 将控件可见性绑定到另一个控件的聚焦属性

我有一个显示项目列表的组合框我想在它旁边放置一个按钮来触发命令以查看所选项目的详细信息到目前为止一切都很好现在我希望该按钮仅在组合框具有焦点时才可见或处于编辑模式但不仅在弹出窗口打开时我想我可以将按钮的可见性绑定到组合框的
命令“git checkout”的含义。 [复制]

这个问题在这里已经有答案了虽然我知道标题中的命令类似于撤消对当前存储库的更改但我无法理解它的实际工作原理或如何读取该命令任何线索都会有很大的帮助 git 结账
Python 中的参数解析（必需与可选）

我目前正在编写一个能够采用多个标志的脚本我希望它无论最后一个参数是什么都应该是 start stop status usr bin env python from argparse import ArgumentParser def ar
Oracle 11g - FOR 循环仅将工作日插入表中？

我想将一些数据插入与明年日期相关的表中实际上我只需要插入工作日 BEGIN FOR i IN 1 365 LOOP INSERT INTO MY TABLE ID MY DATE VALUES i to date sysdate DD M
如何以Python方式获取numpy argwhere函数的最大值

我想使用 numpy argwhere 来查找数据中的最大值在哪里下面是一个示例集描述了我正在做的事情 bins np arange 10 data np array 6 4 8 5 np argwhere bins
有没有办法加快 python 中处理大型 CSV 和数据帧的速度？

我正在处理一些大小在 1Gb 到 2Gb 范围内的 CSV 文件仅将文件加载到 pandas 数据帧中就需要 20 30 分钟而我执行的每个操作则需要 20 30 分钟例如按列名称过滤数据帧打印 dataframe head 等有

有没有办法加快 python 中处理大型 CSV 和数据帧的速度？

有没有办法加快 python 中处理大型 CSV 和数据帧的速度？ 的相关文章

随机推荐

热门标签

有没有办法加快 python 中处理大型 CSV 和数据帧的速度？的相关文章