python 多进程进行文件处理（一）

2023-11-19

在文件处理的时候，经常会遇见大文件数据，单进程处理速度太慢，可以通过多进程来提升效率

应用场景一：同时并行处理多个小文件，处理完成后写回多个文件

def read_wiki_data(infile,outfile,param1):
    """
    单个文件的处理逻辑
    """
    ngram_dict = defaultdict(int)
    localtime = time.asctime(time.localtime(time.time()))
    with open(infile,'r',encoding="utf-8") as fr,open(outfile,'w',encoding="utf-8") as fw:
        for i,line in enumerate(fr):
            fw.write('{}\t{}\n'.format(line,param1))

    print("end")



def pipeline_mult_processing(input_dir,output_dir):
    """
    :param input_dir:
    :param output_dir:
    :return:
    """
    # 假定参数固定为1
    param1 =1
    params = []
    for f in Path(input_dir).iterdir():
        if not Path(output_dir).joinpath(f.parent.name).is_dir():
            Path(output_dir).joinpath(f.parent.name).mkdir(parents=True)
        output_file = Path(output_dir).joinpath(f.parent.name, f.name)
        params.append((f,output_file,param1))
    
    # 开启20个线程
    with Pool(processes=20) as pool:
        pool.starmap(read_wiki_data,params)


# 调用方式
freeze_support()
pipeline_mult_processing(input_dir,output_dir)

主要使用了 pool.starmap 函数，特别强调，自定义传递参数并行写入并放到list里面即可以，params = [(inf1,outf1,param1),(inf1,outf1,param2)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

多进程

python 多进程进行文件处理（一）的相关文章

如何更改 FacetGrid 中的边距标题颜色

使用 Seaborn Facet Grids 如何仅更改边距标题的颜色注意g set titles color red 更改两个标题 p sns load dataset penguins sns displot data p x fli
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

计算机网络的两级子网指,计算机三级网络技术分类练习题_网络基本概念(一).doc...

您所在位置网站首页 gt 海量文档 nbsp gt nbsp资格认证考试 nbsp gt nbsp计算机等级考试计算机三级网络技术分类练习题网络基本概念一 doc6页本文档一共被下载次您可全文免费在线阅读后下载本文档下载提
高可用集群（1）- Pacemaker+Corosync实现负载均衡和高可用

1 问题引入计算机集群可用于提供高可用性服务或资源多台机器的冗余是用来防止多种类型的故障集群将使用Pacemaker和Corosync提供资源管理和消息传递下面将介绍所需的包和对其配置文件的修改以及使用Pacemaker命令行工具
循环的断点调试，指定第几次循环

循环的断点调试指定第几次循环右击断点添加条件断点要设置在条件之后例如本次想要i 3的时候的循环条件要设到i后边令i 3 回车再按F5即可
CSS 学习笔记（基础）

用来控制网页表现的语言 CSS Cascading Style Sheet 层叠样式表然后我们继续看看 W3C 标准结构 HTML 表现 CSS 行为 JavaScript CSS导入方式选择器属性由于网页的框架结构是由HTML实
pydantic学习与使用 ------ 基本模型(BaseModel)使用

前言在 pydantic 中定义对象的主要方法是通过模型模型继承 BaseModel pydantic主要是一个解析库而不是验证库验证是达到目的的一种手段建立一个符合所提供的类型和约束的模型换句话说 pydantic保证输出模型
Google FlatBuffers——开源、跨平台的新一代序列化工具

前段时间刚试用了一个序列化工具cereal 请看 cereal C 实现的开源序列化库打算再总结下我对google proto buf序列化库的使用呢结果还没动手大Google又出了一个新的开源跨平台的序列化工具 FlatBuff
ubuntu14 扩容的痛苦经历，在这里为大家献上我的过程（附带有gparted-live-0.25.0-3-i686下载地址）

参考文档 https www linuxidc com Linux 2015 08 121674 htm VMware11下对虚拟机Ubuntu14 10系统所在分区sda1进行磁盘扩容 http www nxpic org module
CSS 语法

CSS 规则集 rule set 由选择器和声明块组成选择器指向您需要设置样式的 HTML 元素声明块包含一条或多条用分号分隔的声明每条声明都包含一个 CSS 属性名称和一个值以冒号分隔多条 CSS 声明用分号分隔声明块用花括号
提高情商6步法

目录 1 识别与洞察 2 自制与表达 3 共情与共鸣 4 尊重与善意 5 认同与化解戈尔曼把情商概括为以下五个方面的能力认识自身情绪的能力妥善管理情绪的能力自我激励的能力认识他人情绪的能力管理人际关系的能力 1 识别与洞察感知
Linux环境 Mysql安装详解

Linux环境 Mysql安装详解前言 mysql作为被广泛使用的数据库安装的必要性是无需质疑的而本人在多次安装中遇到了情况各异的问题所以想以这篇文章记录一下安装配置的过程并且尽量详细介绍每一步的原因如果再遇到问题知其然且知其
Inno打包后开始运行前检查文件是否存在

Code function FileDoesNotExist file string Boolean begin if FileExists file then begin Result False end else begin Resul
Javascript高级程序设计——4.运算符

运算符 1 一元运算符 2 算术运算符 3 关系运算符 4 相等运算符全等运算符 5 逻辑运算符 6 位运算符省略不详细介绍 7 赋值运算符 8 其他运算符 9 运算符优先级在ECMAScript与众不同之处在于运算符可以适用于很
Centos7——MHA部署

目录基础操作 master操作 slave1操作 slave2操作 manager操作测试 MHA 故障转移连续漂移实现主宕机从切换为主保证业务正常运行环境准备 CentOS Linux release 7 5 1804 Co
TSI系统测量参数之：轴向振动

一 TSI系统测量参数 1 轴向位移 2 盖振或瓦振 3 偏心 4 键相 5 零转速 6 轴向振动 7 相对热膨胀胀差 8 绝对热膨胀缸胀二各参数作用 2 轴向振动测量的是大轴相对于轴瓦的X向振动和Y向振动反馈电压量程为 4V至
TikTok已达万粉，开通基金仍失败？--TK领航社TIKTOK运营变现最新干货分享

播神定期分享TikTok运营技巧教你从零快速掌握TikTok运营和商业变现今天与大家探讨下 TikTok已达万粉创作者基金依旧开通失败是为什么 TK领航社国内最大TIKTOK社群运营变现圈子 TikTok 创作者基金是为回馈优质
如何简单快速的探测民用无人机？

前言最近俄乌冲突搞得火热其中以DJI 无人机为代表的民用无人机表现尤为引人注意这不禁让人思考在此类无人机战争中步兵班应如何有效快速的感知民用无人机的存在提高生存能力一民用无人机在冲突中的优势从目前能搜集到的信息来看有以下几个
软件测试-金融银行项目怎么测？系统业务测试总结分析...

目录导读前言一 Python编程入门到精通二接口自动化项目实战三 Web自动化项目实战四 App自动化项目实战五一线大厂简历六测试开发DevOps体系七常用自动化测试工具八 JMeter性能测试九总结尾部小
计算机的保护模式与实模式

一背景 80386开始 CPU有三种工作方式实模式保护模式和虚拟8086模式只有在刚刚启动的时候是real mode 等到操作系统运行起来以后就切换到protected mode 实模式只能访问地址在1M以下的内存称为常规内存我们
java ssm常遇见的问题_ssm增删改查出现的问题总结

1 org springframework beans factory BeanCreationException Error creating bean with name org mybatis spring mapper Mapper
python 多进程进行文件处理（一）

在文件处理的时候经常会遇见大文件数据单进程处理速度太慢可以通过多进程来提升效率应用场景一同时并行处理多个小文件处理完成后写回多个文件 def read wiki data infile outfile param1 单个文件的

python 多进程进行文件处理（一）

python 多进程进行文件处理（一） 的相关文章

随机推荐

热门标签

python 多进程进行文件处理（一）的相关文章