在 Python 中并行处理大型 .csv 文件

2023-12-26

我正在使用 Python 脚本处理大型 CSV 文件（大约有 10M 行的几个 GB 的量级）。

这些文件具有不同的行长度，并且无法完全加载到内存中进行分析。

每一行都由我的脚本中的函数单独处理。分析一个文件大约需要 20 分钟，看来磁盘访问速度不是问题，问题在于处理/函数调用。

代码看起来像这样（非常简单）。实际代码使用 Class 结构，但这是类似的：

csvReader = csv.reader(open("file","r")
for row in csvReader:
   handleRow(row, dataStructure)

鉴于计算需要共享数据结构，那么利用多核在 Python 中并行运行分析的最佳方法是什么？

一般来说，如何从 Python 中的 .csv 一次读取多行以传输到线程/进程？循环使用for在行上听起来效率不高。

Thanks!

这可能为时已晚，但对于未来的用户，我无论如何都会发布。另一张海报提到使用多处理。我可以保证这一点，并且可以提供更多细节。我们每天使用 Python 处理数百 MB/数 GB 的文件。所以这绝对取决于任务。我们处理的一些文件不是 CSV，因此解析可能相当复杂，并且比磁盘访问花费的时间更长。但是，无论文件类型如何，方法都是相同的。

您可以同时处理大文件的各个部分。这是我们如何做到这一点的伪代码：

import os, multiprocessing as mp

# process file function
def processfile(filename, start=0, stop=0):
    if start == 0 and stop == 0:
        ... process entire file...
    else:
        with open(file, 'r') as fh:
            fh.seek(start)
            lines = fh.readlines(stop - start)
            ... process these lines ...

    return results

if __name__ == "__main__":

    # get file size and set chuck size
    filesize = os.path.getsize(filename)
    split_size = 100*1024*1024

    # determine if it needs to be split
    if filesize > split_size:

        # create pool, initialize chunk start location (cursor)
        pool = mp.Pool(cpu_count)
        cursor = 0
        results = []
        with open(file, 'r') as fh:

            # for every chunk in the file...
            for chunk in xrange(filesize // split_size):

                # determine where the chunk ends, is it the last one?
                if cursor + split_size > filesize:
                    end = filesize
                else:
                    end = cursor + split_size

                # seek to end of chunk and read next line to ensure you 
                # pass entire lines to the processfile function
                fh.seek(end)
                fh.readline()

                # get current file location
                end = fh.tell()

                # add chunk to process pool, save reference to get results
                proc = pool.apply_async(processfile, args=[filename, cursor, end])
                results.append(proc)

                # setup next chunk
                cursor = end

        # close and wait for pool to finish
        pool.close()
        pool.join()

        # iterate through results
        for proc in results:
            processfile_result = proc.get()

    else:
        ...process normally...

就像我说的，这只是伪代码。它应该让任何需要做类似事情的人开始。我面前没有代码，只是凭记忆做。

但我们在第一次运行时获得了超过 2 倍的速度提升，而无需对其进行微调。您可以根据您的设置微调池中的进程数量以及块的大小以获得更高的速度。如果您像我们一样有多个文件，请创建一个池来并行读取多个文件。只是要小心，不要让太多进程使盒子超载。

注意：您需要将其放入“if main”块中，以确保不会创建无限进程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

在 Python 中并行处理大型 .csv 文件的相关文章

判断线程是否已经启动

如何判断Python线程是否已经启动有一个方法is alive 但这是真的before and while一个线程正在运行你可以看看ident领域的Thread实例这Python 2 7 线程文档 http docs python o
多重处理：如何从子进程重定向标准输出？

注意我见过multiprocessing Process 的日志输出 https stackoverflow com questions 1501651 log output of multiprocessing process 不幸的是
OpenCV 错误：使用 COLOR_BGR2GRAY 函数时断言失败

我在使用 opencv 时遇到了一个奇怪的问题我在 jupyter 笔记本中工作时没有任何问题但在尝试运行此 Sublime 时却出现问题错误是 OpenCV错误 cvtColor中断言失败深度 CV 8U 深度 CV 16U 深度
如何在groupby之后将pandas数据框拆分为许多列

我希望能够在 pandas 中使用 groupby 按列对数据进行分组然后将其拆分以便每个组都是数据框中自己的列 e g time data 0 1 2 0 1 2 3 0 2 3 4 0 3 1 2 1 4 2 3 1 5 3 4 1
Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
返回不包括指定键的字典副本

我想创建一个函数返回字典的副本不包括列表中指定的键考虑这本词典 my dict keyA 1 keyB 2 keyC 3 致电without keys my dict keyB keyC 应该返回 keyA 1 我想用一行简洁的字典理
无法安装时间模块

我试过了pip install time and sudo H pip install time 但我不断收到错误找不到满足要求时间的版本从版本未找到时间匹配的发行版我正在 PyCharm 中工作但真正没有意义的是我可以在 Py
如何从网站中提取冠状病毒病例？

我正在尝试从网站中提取冠状病毒 https www trackcorona live https www trackcorona live 但我得到了一个错误这是我的代码 response requests get https www t
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
使用 Python 解析 XML，解析外部 ENTITY 引用

在我的 S1000D xml 中它指定了一个带有对公共 URL 的引用的 DOCTYPE 该 URL 包含对包含所有有效字符实体的许多其他文件的引用我使用 xml etree ElementTree 和 lxml 尝试解析它并得到解析错
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
在 Windows 上将 Word2vec 与 Tensorflow 结合使用

In 本教程文件 https github com tensorflow models blob master tutorials embedding word2vec py L45通过 Tensorflow 找到以下行第 45 行来加
如何检查包含 NaN 的列表 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在我的 for 循环中我的代码生成一个如下所示的列表 list 0 0 0 0 sum 0 0 0 0 该循环生成所有其他数字向量但它也
从 Apache 运行 python 脚本的最简单方法

我花了很长时间试图弄清楚这一点我基本上正在尝试开发一个网站当用户单击特定按钮时我必须在其中执行 python 脚本在研究了 Stack Overflow 和 Google 之后我需要配置 Apache 以便能够运行 CGI 脚本
python 中的基本矩阵转置

我尝试了 python 中矩阵转置的最基本方法但是我没有得到所需的结果接下来是代码 A 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 print A def TS A B A for i in range len A
Python：如何从文件中的一行读取字符并将它们转换为浮点数和字符串，具体取决于它们是数字还是字母？

我有一个如下所示的文件 1 1 C C 1 9873 2 347 3 88776 1 2 C Si 4 887 9 009 1 21 我想逐行读取文件的内容当我使用的行上只有数字时 for line in readlines file d
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0
Django - 缺少 1 个必需的位置参数：'request'

我收到错误 get indiceComercioVarejista 缺少 1 个必需的位置参数要求当尝试访问 get indiceComercioVarejista 方法时我不知道这是怎么回事 views from django ht
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

您将如何在这里使用敏捷？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我是敏捷的大力支持者但我的一个朋友他还不知道敏捷他是管理类型问我如何规划和开发一个复杂的分布式项目其中包含数据库层通信层层接口以及
使用 Go 获取 Python 版本

我正在尝试使用 Go 获取我的 Python 版本 import log os exec strings func verifyPythonVersion err exec LookPath python if err nil log Fa
将 dll 与 node-ffi 一起使用

我正在使用 node ffi 访问我购买的自定义硬件提供的 dll 该 dll 使用设备驱动程序来执行操作他们不提供 dll 文档但他们有一个 c 中的示例应用程序该 dll 在 c 中使用像这样 DllImport POS CIDR
我对 REST 有什么不理解的地方？

我正在构建一个框架并希望使用它进行构建的开发人员能够允许其部分内容与其他站点共享数据并允许其他站点添加编辑删除数据例如如果有人制作了一个包含书评作者引言代码示例评论等的网站那么开发人员可以制作例如书评对于其他网站来说
处理 django 包含模板标签中的请求

我是 Django 新手正在尝试将上传文件表单放入包含标签中所以我可以在各种模板中使用它我创建了以下包含标签 upload files py register inclusion tag upload form html def up
PrimeFaces p:fileUpload 不调用方法

我正在尝试使用 PrimeFaces
MVVM 是否违反了 DRY？

看来我制作的 ViewModels 看起来可疑地像其他班级一样而且它们似乎需要大量的代码重复例如在当前的项目中我有 SmartForm Model that represents a data form to fill in has pr
将本地图片上传到tinyMCE

tinyMCE有一个插入图像按钮但如何处理其功能请给出一些代码我已经对 pavanastechie 编写的代码投了赞成票但最终我重写了很多次这是一个更短的版本可能对某些人有价值 tinymce init toolbar imag
如何在Python中创建链表

我正在尝试解决 python 中的链表编码挑战我只给出了以下课程来创建链接列表 Definition for singly linked list class ListNode object def init self x self va
单击小部件时播放声音

这是我的代码它打开主要活动但我似乎找不到一种方法来让小部件播放声音我尝试过了向小部件添加一个按钮不起作用 add an OnClickListener到主要活动有效但它打开主要活动我只想要声音而不是活动编写一个新方法来播放
了解 ASP.NET WebForms 中控件处于生命周期的哪个阶段

从控件的外部是否可以找出特定控件或页面处于页面生命周期的哪个阶段初始化加载预渲染等例如在伪代码中 if myControl CurrentLifeCycle Lifecycle Init do something 恐怕没有内置函
Qt QSqlQuery 准备和bindValue 不工作

我在准备和绑定值时遇到问题 db open QSqlQuery q q prepare SELECT id malade nom prenom FROM Malade WHERE nom LIKE p OR prenom f q bindV
如何使用 SetWindowsHookEx 和 WH_KEYBOARD 挂钩外部进程

我试图挂钩例如记事本但没有成功制作一个全局钩子似乎效果很好在 XP SP2 上测试编辑修改后的代码现在可以使用 MyDLL代码 include
如何以编程方式打印各种文件类型

我正在编写一个应用程序它执行一些测试并生成许多不同的报告这些可以是标签最终客户的 PDF 维修部门的 PDF XML 文件等的任意组合根据报告类型我需要将文件发送到文件系统或多种不同打印机 A4 标签等之一理想情况下不应该有弹
F# 是否具有与 C# 的“不安全”块等效的语法

大量的数组边界检查会降低速度对于二维数组尤其如此有没有办法在 F 中编写不安全的代码块我不是一个F http cs hubfs net blogs f team archive 2006 08 15 506 aspx程序员但据我所知
如何取消订阅使用 lambda 表达式的事件？

我有以下代码让 GUI 响应集合中的更改 myObservableCollection CollectionChanged sender e gt UpdateMyUI 首先这是一个好方法吗第二取消订阅此活动的代码是什么是否相同但
如何在不指定变量来保存其 OUT 参数的情况下调用 PL/SQL 过程？

我想调用指定了 OUT 参数的 PL SQL 存储过程但我不关心返回值我只关心程序是否成功执行即没有抛出异常我是否必须在调用 PL SQL 块中定义一个虚拟变量才能接收 out 参数即使我不想要它它使我的调用代码变得混乱是的
运行 Spark 作业时 CPU 使用率低

我正在运行 Spark 作业我有 4 个核心工作内存设置为 5G 应用程序主机位于同一网络中的另一台计算机上并且不托管任何工作程序这是我的代码 private void myClass configuration of the sp
super(&nil) 在 ruby 中做什么？

我正在读书并发 ruby 的源代码 https github com ruby concurrency concurrent ruby blob master lib concurrent executor abstract executo
在 Python 中并行处理大型 .csv 文件

我正在使用 Python 脚本处理大型 CSV 文件大约有 10M 行的几个 GB 的量级这些文件具有不同的行长度并且无法完全加载到内存中进行分析每一行都由我的脚本中的函数单独处理分析一个文件大约需要 20 分钟看来磁盘访问速度

在 Python 中并行处理大型 .csv 文件

在 Python 中并行处理大型 .csv 文件 的相关文章

随机推荐

热门标签

在 Python 中并行处理大型 .csv 文件的相关文章