在 Pandas 中使用多处理读取 csv 文件的最简单方法

2024-03-24

这是我的问题。
带有一堆 .csv 文件(或其他文件)。 Pandas 是读取它们并将其保存到的简单方法Dataframe格式。但是当文件量很大时,我想用多处理来读取文件以节省一些时间。

我的早期尝试

我手动将文件分成不同的路径。单独使用:

os.chdir("./task_1")
files = os.listdir('.')
files.sort()
for file in files:
    filename,extname = os.path.splitext(file)
    if extname == '.csv':
        f = pd.read_csv(file)
        df = (f.VALUE.as_matrix()).reshape(75,90)   

然后将它们结合起来。

如何运行它们pool来实现我的问题?
任何意见,将不胜感激!


Using Pool:

import os
import pandas as pd 
from multiprocessing import Pool

# wrap your csv importer in a function that can be mapped
def read_csv(filename):
    'converts a filename to a pandas dataframe'
    return pd.read_csv(filename)


def main():

    # get a list of file names
    files = os.listdir('.')
    file_list = [filename for filename in files if filename.split('.')[1]=='csv']

    # set up your pool
    with Pool(processes=8) as pool: # or whatever your hardware can support

        # have your pool map the file names to dataframes
        df_list = pool.map(read_csv, file_list)

        # reduce the list of dataframes to a single dataframe
        combined_df = pd.concat(df_list, ignore_index=True)

if __name__ == '__main__':
    main()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas 中使用多处理读取 csv 文件的最简单方法 的相关文章

随机推荐