python 多进程进行文件处理(一)

2023-11-19

在文件处理的时候,经常会遇见大文件数据,单进程处理速度太慢,可以通过多进程来提升效率

应用场景一:同时并行处理多个小文件,处理完成后 写回多个文件

def read_wiki_data(infile,outfile,param1):
    """
    单个文件的处理逻辑
    """
    ngram_dict = defaultdict(int)
    localtime = time.asctime(time.localtime(time.time()))
    with open(infile,'r',encoding="utf-8") as fr,open(outfile,'w',encoding="utf-8") as fw:
        for i,line in enumerate(fr):
            fw.write('{}\t{}\n'.format(line,param1))

    print("end")



def pipeline_mult_processing(input_dir,output_dir):
    """
    :param input_dir:
    :param output_dir:
    :return:
    """
    # 假定参数固定为1
    param1 =1
    params = []
    for f in Path(input_dir).iterdir():
        if not Path(output_dir).joinpath(f.parent.name).is_dir():
            Path(output_dir).joinpath(f.parent.name).mkdir(parents=True)
        output_file = Path(output_dir).joinpath(f.parent.name, f.name)
        params.append((f,output_file,param1))
    
    # 开启20个线程
    with Pool(processes=20) as pool:
        pool.starmap(read_wiki_data,params)


# 调用方式
freeze_support()
pipeline_mult_processing(input_dir,output_dir)


主要使用了 pool.starmap 函数,特别强调,自定义传递参数 并行写入并放到list里面即可以,params = [(inf1,outf1,param1),(inf1,outf1,param2)]

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python 多进程进行文件处理(一) 的相关文章

随机推荐

  • 计算机网络的两级子网指,计算机三级网络技术分类练习题_网络基本概念(一).doc...

    您所在位置 网站首页 gt 海量文档 nbsp gt nbsp资格 认证考试 nbsp gt nbsp计算机等级考试 计算机三级网络技术分类练习题 网络基本概念 一 doc6页 本文档一共被下载 次 您可全文免费在线阅读后下载本文档 下载提
  • 高可用集群(1)- Pacemaker+Corosync实现负载均衡和高可用

    1 问题引入 计算机集群可用于提供高可用性服务或资源 多台机器的冗余是用来防止多种类型的故障 集群将使用Pacemaker和Corosync提供资源管理和消息传递 下面将介绍所需的包和对其配置文件的修改 以及使用Pacemaker命令行工具
  • 循环的断点调试,指定第几次循环

    循环的断点调试 指定第几次循环 右击断点添加条件 断点要设置在条件之后 例如本次 想要i 3的时候的循环 条件要设到i后边 令i 3 回车 再按F5即可
  • CSS 学习笔记(基础)

    用来控制网页表现的语言 CSS Cascading Style Sheet 层叠样式表 然后我们继续看看 W3C 标准 结构 HTML 表现 CSS 行为 JavaScript CSS导入方式 选择器 属性 由于网页的框架结构是由HTML实
  • pydantic学习与使用 ------ 基本模型(BaseModel)使用

    前言 在 pydantic 中定义对象的主要方法是通过模型 模型继承 BaseModel pydantic主要是一个解析库 而不是验证库 验证是达到目的的一种手段 建立一个符合所提供的类型和约束的模型 换句话说 pydantic保证输出模型
  • Google FlatBuffers——开源、跨平台的新一代序列化工具

    前段时间刚试用了一个序列化工具cereal 请看 cereal C 实现的开源序列化库 打算再总结下我对google proto buf序列化库的使用呢 结果还没动手 大Google又出了一个新的 开源 跨平台的序列化工具 FlatBuff
  • ubuntu14 扩容的痛苦经历,在这里为大家献上我的过程(附带有gparted-live-0.25.0-3-i686下载地址)

    参考文档 https www linuxidc com Linux 2015 08 121674 htm VMware11下对虚拟机Ubuntu14 10系统所在分区sda1进行磁盘扩容 http www nxpic org module
  • CSS 语法

    CSS 规则集 rule set 由选择器和声明块组成 选择器指向您需要设置样式的 HTML 元素 声明块包含一条或多条用分号分隔的声明 每条声明都包含一个 CSS 属性名称和一个值 以冒号分隔 多条 CSS 声明用分号分隔 声明块用花括号
  • 提高情商6步法

    目录 1 识别与洞察 2 自制与表达 3 共情与共鸣 4 尊重与善意 5 认同与化解 戈尔曼把情商概括为以下五个方面的能力 认识自身情绪的能力 妥善管理情绪的能力 自我激励的能力 认识他人情绪的能力 管理人际关系的能力 1 识别与洞察 感知
  • Linux环境 Mysql安装详解

    Linux环境 Mysql安装详解 前言 mysql作为被广泛使用的数据库 安装的必要性是无需质疑的 而本人在多次安装中遇到了情况各异的问题 所以想以这篇文章记录一下安装配置的过程 并且尽量详细介绍每一步的原因 如果再遇到问题 知其然且知其
  • Inno打包后开始运行前检查文件是否存在

    Code function FileDoesNotExist file string Boolean begin if FileExists file then begin Result False end else begin Resul
  • Javascript高级程序设计——4.运算符

    运算符 1 一元运算符 2 算术运算符 3 关系运算符 4 相等运算符 全等运算符 5 逻辑运算符 6 位运算符 省略 不详细介绍 7 赋值运算符 8 其他运算符 9 运算符优先级 在ECMAScript与众不同之处在于 运算符可以适用于很
  • Centos7——MHA部署

    目录 基础操作 master操作 slave1操作 slave2操作 manager操作 测试 MHA 故障转移 连续漂移 实现主宕机 从切换为主 保证业务正常运行 环境准备 CentOS Linux release 7 5 1804 Co
  • TSI系统测量参数之:轴向振动

    一 TSI系统测量参数 1 轴向位移 2 盖振或瓦振 3 偏心 4 键相 5 零转速 6 轴向振动 7 相对热膨胀 胀差 8 绝对热膨胀 缸胀 二 各参数作用 2 轴向振动 测量的是大轴相对于轴瓦的X向振动和Y向振动 反馈电压量程为 4V至
  • TikTok已达万粉,开通基金仍失败?--TK领航社TIKTOK运营变现最新干货分享

    播神定期分享TikTok运营技巧 教你从零快速掌握TikTok运营和商业变现 今天与大家探讨下 TikTok已达万粉 创作者基金依旧开通失败 是为什么 TK领航社 国内最大TIKTOK社群 运营变现圈子 TikTok 创作者基金是为回馈优质
  • 如何简单快速的探测民用无人机?

    前言 最近俄乌冲突搞得火热 其中以DJI 无人机为代表的民用无人机表现尤为引人注意 这不禁让人思考 在此类无人机战争中步兵班应如何有效快速的感知民用无人机的存在 提高生存能力 一 民用无人机在冲突中的优势 从目前能搜集到的信息来看有以下几个
  • 软件测试-金融银行项目怎么测?系统业务测试总结分析...

    目录 导读 前言 一 Python编程入门到精通 二 接口自动化项目实战 三 Web自动化项目实战 四 App自动化项目实战 五 一线大厂简历 六 测试开发DevOps体系 七 常用自动化测试工具 八 JMeter性能测试 九 总结 尾部小
  • 计算机的保护模式与实模式

    一 背景 80386开始 CPU有三种工作方式 实模式 保护模式和虚拟8086模式 只有在刚刚启动的时候是real mode 等到操作系统运行起来以后就切换到protected mode 实模式只能访问地址在1M以下的内存称为常规内存 我们
  • java ssm常遇见的问题_ssm增删改查出现的问题总结

    1 org springframework beans factory BeanCreationException Error creating bean with name org mybatis spring mapper Mapper
  • python 多进程进行文件处理(一)

    在文件处理的时候 经常会遇见大文件数据 单进程处理速度太慢 可以通过多进程来提升效率 应用场景一 同时并行处理多个小文件 处理完成后 写回多个文件 def read wiki data infile outfile param1 单个文件的