Python - 使用 pandas 多重处理多个大尺寸文件

2023-12-07

我有一个y.csv文件。文件大小为 10 MB，包含来自Jan 2020 to May 2020.

我每个月还有一个单独的文件。例如data-2020-01.csv。它包含详细的数据。每个月文件的文件大小约为1 GB.

我正在分割y.csv按月份，然后通过加载相关月份文件来处理数据。当我去很多个月时，这个过程花费的时间太长。例如24个月。

我想更快地处理数据。我可以访问 AWSm6i.8xlarge实例有32 vCPU and 128 GB memory.

我是多处理新手。那么有人可以在这里指导我吗？

这是我当前的代码。

import pandas as pd

periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB


def process(_month_df, _index):
    idx = _month_df.index[_month_df.index.get_loc(_index, method='nearest')]
    for _, value in _month_df.loc[idx:].itertuples():

        up_delta = 200
        down_delta = 200

        up_value = value + up_delta
        down_value = value - down_delta

        if value > up_value:
            y.loc[_index, "result"] = 1
            return

        if value < down_value:
            y.loc[_index, "result"] = 0
            return


for x in periods:
    filename = "data-" + str(x[0]) + "-" + str(x[1]).zfill(2)  # data-2020-01
    filtered_y = y[(y.index.month == x[1]) & (y.index.year == x[0])]  # Only get the current month records
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)

    for index, row in filtered_y.iterrows():
        process(month_df, index)

多线程池非常适合共享y线程之间的数据帧（消除了使用共享内存的需要），但不太擅长并行运行 CPU 密集型处理。多处理池非常适合执行 CPU 密集型处理，但在跨进程共享数据而不提供内存碎片表示时效果不佳。y数据框。

在这里，我重新排列了您的代码，以便使用多线程池来创建filtered_y对于每个时期（其中is这是一个 CPU 密集型操作，但 pandas 确实为某些操作释放了全局解释器锁——希望是这个）。然后我们只将一个月的数据传递到多处理池，而不是整个数据ydataframe，使用工作函数处理该月process_month。但由于每个池进程都无权访问ydataframe，它只返回需要用要替换的值更新的索引。

import pandas as pd
from multiprocessing.pool import Pool, ThreadPool, cpu_count

def process_month(period, filtered_y):
    """
    returns a list of tuples consisting of (index, value) pairs
    """
    filename = "data-" + str(period[0]) + "-" + str(period[1]).zfill(2)  # data-2020-01
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)
    results = []
    for index, row in filtered_y.iterrows():   
        idx = month_df.index[month_df.index.get_loc(index, method='nearest')]
        for _, value in month_df.loc[idx:].itertuples():
    
            up_delta = 200
            down_delta = 200
    
            up_value = value + up_delta
            down_value = value - down_delta
    
            if value > up_value:
                results.append((index, 1))
                break
    
            if value < down_value:
                results.append((index, 0))
                break
    return results

def process(period):
    filtered_y = y[(y.index.month == period[1]) & (y.index.year == period[0])]  # Only get the current month records
    for index, value in multiprocessing_pool.apply(process_month, (period, filtered_y)):
        y.loc[index, "result"] = value

def main():
    global y, multiprocessing_pool

    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB

    MAX_THREAD_POOL_SIZE = 100
    thread_pool_size = min(MAX_THREAD_POOL_SIZE, len(periods))
    multiprocessing_pool_size = min(thread_pool_size, cpu_count())
    with Pool(multiprocessing_pool_size) as multiprocessing_pool, \
    ThreadPool(thread_pool_size) as thread_pool:
        thread_pool.map(process, periods)
        
    # Presumably y gets written out again as a CSV file here?

# Required for Windows:
if __name__ == '__main__':
    main()

仅使用单个多处理池的版本

import pandas as pd
from multiprocessing.pool import Pool, ThreadPool, cpu_count

def process_month(period):
    """
    returns a list of tuples consisting of (index, value) pairs
    """
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    filtered_y = y[(y.index.month == period[1]) & (y.index.year == period[0])]  # Only get the current month records
    filename = "data-" + str(period[0]) + "-" + str(period[1]).zfill(2)  # data-2020-01
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)
    results = []
    for index, row in filtered_y.iterrows():   
        idx = month_df.index[month_df.index.get_loc(index, method='nearest')]
        for _, value in month_df.loc[idx:].itertuples():
    
            up_delta = 200
            down_delta = 200
    
            up_value = value + up_delta
            down_value = value - down_delta
    
            if value > up_value:
                results.append((index, 1))
                break
    
            if value < down_value:
                results.append((index, 0))
                break
    return results

def main():
    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

    multiprocessing_pool_size = min(len(periods), cpu_count())
    with Pool(multiprocessing_pool_size) as multiprocessing_pool:
        results_list = multiprocessing_pool.map(process_month, periods)
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    for results in results_list:
        for index, value in results:
            y.loc[index, "result"] = value
    # Write out new csv file:
    ...

# Required for Windows:
if __name__ == '__main__':
    main()

现在，它的一个变体使用更多的内存，但允许主进程将其处理与多处理池重叠。如果需要更新的索引数量非常大，这可能会很有用：

...
def main():
    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

    multiprocessing_pool_size = min(len(periods), cpu_count() - 1) # save a core for the main process
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    with Pool(multiprocessing_pool_size) as multiprocessing_pool:
        # Process values as soon as they are returned:
        for results in multiprocessing_pool.imap_unordered(process_month, periods):
            for index, value in results:
                y.loc[index, "result"] = value
    # Write out new csv file:
    ...

最后一个版本可能会更优秀，因为它在将任务提交到池之前首先读取 csv 文件，并且根据平台及其缓存 I/O 操作的方式，可能会导致工作函数不必执行任何物理 I/O 来读取在其文件副本中。但那又是一个10M的文件被读入内存了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 使用 pandas 多重处理多个大尺寸文件的相关文章

使用 Pandas 解析时避免 Excel 的科学记数法舍入

我有一个自动生成的 Excel 文件其中偶尔包含非常大的数字例如135061808695 在 Excel 文件中当您单击单元格时它会显示完整的数字135061808695然而在视觉上使用自动常规格式数字显示为1 35063
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
python subprocess proc.stderr.read() 引入额外的行？

我想运行一些命令并抓取输出到 stderr 的任何内容我有两个版本的函数可以执行此操作版本 1 def Getstatusoutput cmd Return status output of executing cmd in a she
QFileDialog 作为 TableView 的编辑器：如何获取结果？

我正在使用一个QFileDialog作为某些专栏的编辑QTableView 这基本上有效对一些焦点问题取模请参阅here https stackoverflow com questions 22854242 qfiledialog as
NumPy：linalg.eig() 和 linalg.eigh() 之间的区别

在 Python 3 应用程序中我使用 NumPy 来计算对称实矩阵的特征值和特征向量这是我的演示代码 import numpy as np a np random rand 3 3 generate a random array sh
使用 Click 在 python 中创建命令行应用程序

我正在使用 Python 创建一个命令行应用程序Click http click pocoo org 接受名称作为输入的库但如果未输入名称则返回默认值这是我到目前为止的代码 hello py import click click ve
如何在 pygame 中水平翻转图像？

这是在 pygame 如何翻转图像假设一个图像猪向右看时向左看我按向左箭头键然后保持这样即使我不按任何键或者按向上和向下箭头键那么当我按向右箭头键时如何再次将其切换回向右看并使其保持这种状态即使我不按任何键或按向上和向
如何从包含许多表的 Excel 工作表中解析数据帧（使用 Python，可能使用 Pandas）

我正在处理布局糟糕的 Excel 工作表我正在尝试解析这些工作表并将其写入数据库每个工作表可以有多个表尽管这些可能的表格的标题是已知的但哪些表格将位于任何给定的工作表上它们在工作表上的确切位置也不是已知的表格不以一致的方式对齐
如何在Python中将字符串转换为包含一个元素的列表[重复]

这个问题在这里已经有答案了我有一个字符串我想将其转换为其中只有一个元素的列表 a abc print list a output a b c Expected o p abc 正确的做法是什么只需使用 a abc b a print
在此异步设置中，我在哪里捕获 KeyboardInterrupt 异常

我正在开发一个使用ccxt异步库它要求通过显式调用该类的资源来释放某个类使用的所有资源 close 协程我想退出程序ctrl c并等待异常中的关闭协程然而它永远不会被等待该应用程序由模块组成harvesters strategie
使用 South 更改 Django 模型列默认值

我在 Django 项目中使用 South 和 Postgresql DB 我想更改一个模型字段的默认值以供继续使用我不需要以前的记录刚刚新记录我是否需要为此进行迁移或者只是更改模型旧场详细信息 background style
Python，socket.error：[Errno 10049]

在开发一个简单的聊天客户端的基础上遇到以下错误 socket error Errno 10049 The requested address is not valid in its context 代码是 from socket impo
在硬件级别模拟按键 - Windows

我正在寻找一种语言或库使我能够在最大可能的水平上模拟击键而无需实际按下按键我对击键级别的具体衡量标准是当我的计算机已经运行按键侦听器例如鼠标键和粘滞键时它是否会产生与物理按键相同的输出我尝试过很多击键模拟的方法 java A
我们可以限制 luigi 任务的吞吐量吗？

我们有一个 Luigi 任务它向第三方服务请求一条信息我们对该 API 调用每分钟可以执行的调用请求数量受到限制有没有办法在每个任务的基础上指定调度程序每单位时间必须运行多少个此类任务我们在任务中实施了自己的速率限制我们的 API
发送fulfillmentText并使用followupEventInput转移到另一个意图

我使用 Python Flask 设置了一个简单的 Webhook 来处理各种 Dialogflow 功能在这一点上一切都进展顺利该机器人通过 DialogFlow API V2 集成到 Facebook Messenger 问题是关
使用 scipy.io 将 python pandas dataframe 转换为 matlab 结构

我正在尝试使用 scipy io 将 pandas 数据帧保存到 matlab mat 文件我有以下内容 array1 np array 1 2 3 array2 np array a b c array3 np array 1 01 2
如何使用 google.oauth2 python 库？

我试图对谷歌机器学习项目的安全预测端点进行简单的休息调用但它找不到 google oauth2 模块这是我的代码 import urllib2 from google oauth2 import service account Cons
Python 和 Visual Studio Code - 如何在编辑器中运行特定文件？

我正在使用 Visual Studio Code 和 Python 编写一个小型应用程序我的应用程序有两个文件 Main py and MyCustomClass py Main py是应用程序的入口点 MyCustomClass py包
在python中读取证书（.crt）和密钥（.key）文件

因此我使用 JIRA Python 模块连接到我公司的 JIRA 实例它要求我为此传递证书和密钥但是使用 OpenSSL 模块我无法读取本地证书和密钥来将其传递给请求阅读代码如下 import OpenSSL crypto c
Python FFmpeg查询rtsp太慢

目前我正在尝试使用 python 和 FFmpeg 来查询原始格式为 h264 的 rtsp 数据直播流视频的信息为 fps 29 分辨率 1280 720 我希望我可以以相同的格式 h264 查询数据并将其放入python队列中以便将

随机推荐

如何将自定义数据加载到 keras Cyclegan 示例的 tfds 中？

按照中的示例https keras io examples generative cyclegan 已加载预先存在的数据集以供实施我正在尝试添加我的数据集 import tensorflow datasets as tfds data t
PyQt6：如何在 QImageReader 中设置分配限制？

我正在将应用程序从 PyQt5 更新到 PyQt6 该应用程序使用非常大的图像文件我已经更新了代码以使用 PyQt6 但是当我运行 Python 脚本时我现在收到错误 QImageIOHandler 拒绝图像因为它超出了当前分配限
如何在laravel中使用createMany方法插入多条记录

我想使用 createMany 创建多记录如何在没有数据复制的情况下将数组插入到此方法 public function update Request request Question question options request gt
将嵌入引号的 csv 文件读取到 R 中

我必须使用如下所示的 csv 文件 IDEA ID IDEA TITLE VOTE VALUE 56144 Net Present Value PLUS NPV 1 56144 Net Present Value PLUS NPV 1 如果
cakephp 表单验证

有谁知道 cakePHP 中的表单是否有 VALIDATE 函数并查看错误数组我检查了文档但我发现的唯一东西是 SAVE 功能我只需要知道我发送的数据是否有效并手动检查错误 Try this this gt ModelName gt
在函数调用的同一行获取哈希键/值

这是重现问题的代码 sub hello return h gt 1 n gt 1 print join values hello 我收到错误 arg 1 到值的类型必须是散列不是子程序入口在第 4 行靠近执行由于中止到编译错误
MVVM：绑定一个 ViewModel，它将构造函数参数传递给 UserControl

我的 WPF 应用程序有一个 MainWindow 其中包含一个名为 Tvshow GridView 的用户控件主窗口
多维 std::array [重复]

这个问题在这里已经有答案了在C 中如何创建多维std array 我试过这个 std array
如何创建“动态”WHERE 子句？

第一谢谢我完成了我的另一个项目并得到了很大的惊喜现在一切都按预期进行感谢一些有帮助的思想家所以我开始下一个项目我想要得到这样的东西 SELECT FROM tablename WHERE field1 content AND
通过传递输出迭代器从函数填充 std::[container]

我想通过传递输出迭代器从函数内部填充容器因为据我所知这是最有效的方法例如 template
SDL 事件处理不起作用

我目前正在通过阅读 Lazy foo 教程来学习 SDL 我在 Linux 上使用代码块 13 12 我无法使事件处理正常工作我基本上是在尝试显示图像效果很好但无论我单击关闭按钮多少次它都不会关闭 Code include
比较向量值：1 个元素与所有其他元素

我想知道如何将向量的 1 个元素与另一个向量中的所有元素进行比较举个例子假设 x lt c 1 10 y lt c 10 11 12 13 14 1 7 现在我可以逐个比较元素 x y 1 FALSE FALSE FALSE FALSE
计算集合列表中所有组合的交集

我有一套集合我想找到仅在每个集合组合的交集中找到的项目数我基本上想做与在维恩图中创建数字相同的事情一个基本的例子可能会更清楚 a set 1 2 5 10 12 b set 1 2 6 9 12 15 c set 1 2 7 8 15
如何分割 Tensorflow 数据集？

我有一个基于一个 tfrecord 文件的张量流数据集如何将数据集拆分为测试数据集和训练数据集例如 70 训练 30 测试 Edit 我的张量流版本 1 8 我已经检查过没有可能的重复项中提到的 split v 函数我也在使用 tf
Angular 2 - 如何有条件地向我的组件添加样式？

我有一个带有样式表的组件可以正确加载如下所示 Component selector open account styleUrls open account component scss templateUrl open account
如何从不同的模型/控制器渲染局部视图？

我有以下名为 Categories 的部分视图位于 Views Category Categories 中 model IEnumerable
如何将运行lwuit的j2me转换为android？

如何将使用 lwuit 库的 J2ME 应用程序转换为 Android apk 我尝试使用 mircoemulator 进行转换但是当我启动应用程序时它显示错误并退出读这篇文章适用于 Android 的 LWUIT 这里清楚地讲述了
ggplot2中仅显示一个文本值

我试图将文本打印限制为条形图中的一个变量我怎样才能只标记粉红色的条601 215 399 456 ggplot df aes Var1 value label value fill Var2 geom bar stat identity
cassandra 2.2 CQl Shell 支持 python 2.7

尝试启动 cql Shell 时出现错误 gt cqlsh CQL Shell supports only Python 2 7 gt 我已经安装了python2 7但它仍然给出相同的错误我必须设置一些路径吗我已经使用此命令从 data
Python - 使用 pandas 多重处理多个大尺寸文件

我有一个y csv文件文件大小为 10 MB 包含来自Jan 2020 to May 2020 我每个月还有一个单独的文件例如data 2020 01 csv 它包含详细的数据每个月文件的文件大小约为1 GB 我正在分割y csv按月

Python - 使用 pandas 多重处理多个大尺寸文件

Python - 使用 pandas 多重处理多个大尺寸文件 的相关文章

随机推荐

热门标签

Python - 使用 pandas 多重处理多个大尺寸文件的相关文章