在 Pandas 中使用多处理读取 csv 文件的最简单方法

2024-03-24

这是我的问题。
带有一堆 .csv 文件（或其他文件）。 Pandas 是读取它们并将其保存到的简单方法Dataframe格式。但是当文件量很大时，我想用多处理来读取文件以节省一些时间。

我的早期尝试

我手动将文件分成不同的路径。单独使用：

os.chdir("./task_1")
files = os.listdir('.')
files.sort()
for file in files:
    filename,extname = os.path.splitext(file)
    if extname == '.csv':
        f = pd.read_csv(file)
        df = (f.VALUE.as_matrix()).reshape(75,90)

然后将它们结合起来。

如何运行它们pool来实现我的问题？
任何意见，将不胜感激！

Using Pool:

import os
import pandas as pd 
from multiprocessing import Pool

# wrap your csv importer in a function that can be mapped
def read_csv(filename):
    'converts a filename to a pandas dataframe'
    return pd.read_csv(filename)


def main():

    # get a list of file names
    files = os.listdir('.')
    file_list = [filename for filename in files if filename.split('.')[1]=='csv']

    # set up your pool
    with Pool(processes=8) as pool: # or whatever your hardware can support

        # have your pool map the file names to dataframes
        df_list = pool.map(read_csv, file_list)

        # reduce the list of dataframes to a single dataframe
        combined_df = pd.concat(df_list, ignore_index=True)

if __name__ == '__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

pandas

multiprocessing

在 Pandas 中使用多处理读取 csv 文件的最简单方法的相关文章

python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

在光流路径场周围创建边界框

我用过cv calcOpticalFlowFarneback使用 openFrameworks 中的 ofxOpenCv 计算视频当前帧和前一帧中的光流然后我绘制顶部具有光流场的视频然后绘制显示高于特定阈值的区域中的运动流的矢量我现
Jetty 9 从 JDK1.8 迁移到 JDK11 - http://java.sun.com/jsp/jstl/fmt 无法在 JDK11 中解析 - fat exec jar

有关的 Jasper 异常 PWC6188 Jetty 无法将 javax servlet jstl fmt TLD 解析为项目内的 JSTL 类 https stackoverflow com questions 73475420 jas
有没有一种简单的方法可以查看 Elixir 宏扩展为什么？

在过去 18 个月左右的时间里 Elixir 一直是我的首选语言但有时我发现无魔法口头禅特别是在 Phoenix 与 Rails 中引用和宏的使用之间存在紧张关系虽然我现在在使用没有宏的语言时会怀念宏但我仍然希望能更容易地看到
如何从 Telegram Bot 接收图像[重复]

这个问题在这里已经有答案了无法从我的电报机器人接收图像尝试如下操作 import telegram from telegram ext import Updater from telegram ext import MessageHan
Xpath 仅选择具有匹配属性的直接兄弟姐妹

我有以下示例文档
如何使用协议缓冲区的扩展来维护“通用”消息

我的客户端服务器通信如下所示有一些所谓的公告它们是用于交换信息的单独消息这个想法是公告是每条消息的共同部分实际上我想这将是消息的类型类型决定内容是什么在 UML 类图中 Annoucement 是所有其他消息继承的类我想在两
找不到 com.android.tools.build:gradle:2.3.+ 的任何匹配项

当我尝试通过react native run android 构建我的应用程序时出现此错误昨天还好好的今天突然就报错了我已经检查过 React Native 矢量图标它看起来不错这也适用于 iOS 这是错误 What went
如何使用 playwright 通过网络应用程序捕获重定向

当你去到这个的时候link https scnv io 760y 页面将运行一些 javascript 然后自动重定向到pdf https qcg media s3 amazonaws com media uploads 72778 202
通过随机样本对列进行分箱和聚合数据，并替换迭代更大的分箱大小

下面是一个矩阵示例 mat lt matrix c 1 0 0 0 0 0 1 0 0 0 0 0 0 0 2 0 2 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0
使用“http-on-modify-request”和“http-on-examine-response”时如何将响应映射到请求？

使用 HTTP 观察器时如何将传入响应映射到传出请求 https developer mozilla org en Setting HTTP request headers Observers https developer mozilla
为什么 pthread_exit 会抛出省略号捕获的内容？

如果函数被调用pthread create具有以下结构 try code pthread detach pthread self pthread exit NULL catch std cout lt lt I am here lt
Python Shutil Copyfile - 缺少最后几行

我经常丢失尝试使用shutil copyfile复制的文件的最后几kb 我做了一些研究确实看到有人在这里询问类似的问题 python Shutil复制函数缺少最后几行 https stackoverflow com questions 1
如何在 vim 下突出显示 doxygen 中的 markdown？

较新版本的 doxygen 附带了 Markdown 支持有没有一种简单的方法可以将 Markdown 语法突出显示添加到 vim 中的 doxygen 注释块顺便说一句可以将 doxygen 语法添加到c文件通过使用set file
在 C++ 代码中释放 Python GIL

我有一个用 C 编写的库我使用 SWIG 对其进行包装并在 python 中使用一般来说只有一个类方法很少问题是调用这些方法可能很耗时它们可能会挂起我的应用程序调用这些方法时不会释放 GIL 所以我的问题是为这些方法调用释放
如何用plotly在卫星地图上绘制箭头

我正在尝试用绘图在卫星视图地图上可视化风向和强度使用 Python 工作但我想这个问题不是特定于平台的下面是以前用Matlab制作的风图的截图这可以通过情节实现吗我尝试查看注释但无法让它们在地图上工作我尝试了如下所示的操作但
cocos2d 屏幕上没有添加排行榜

我使用下面的代码来显示排行榜但我得到的只是控制台 cocos2d surface size 480x320 代码 void showLeaderboardForCategory NSString category Only execute
如何以闭包作为参数调用闭包

我有一个实现该特征的结构A它具有以下功能fn consume 我想传递一个回调给这个结构由fn consume 像这样的事情 pub type OnVirtualTunWrite Arc
使用 Javascript v3 API 添加多个点到 Google 地图

我已经被这个问题困扰了好几天了我在使用 Javascript API v3 向地图添加多个点时遇到问题 I read 这个线程 https stackoverflow com questions 3514152 adding points
在 dart 中使用 fromJson 进行扩展

我在 dart 中有一个 Identity 类它看起来简化像这样 class Identity final String phoneNumber Identity required this phoneNumber Identity
在 Pandas 中使用多处理读取 csv 文件的最简单方法

这是我的问题带有一堆 csv 文件或其他文件 Pandas 是读取它们并将其保存到的简单方法Dataframe格式但是当文件量很大时我想用多处理来读取文件以节省一些时间我的早期尝试我手动将文件分成不同的路径单独使用 os ch

在 Pandas 中使用多处理读取 csv 文件的最简单方法

我的早期尝试

在 Pandas 中使用多处理读取 csv 文件的最简单方法 的相关文章

随机推荐

热门标签

在 Pandas 中使用多处理读取 csv 文件的最简单方法的相关文章