记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法

2023-11-07

大量注释，小白一看就懂的多线程及参数使用

threadpool已经不再是主流，但是对于任务数量不断增加的程序，每有一个任务就生成一个线程，最终会导致线程数量的失控，例如，整站爬虫，假设初始只有一个链接a，那么，这个时候只启动一个线程，运行之后，得到这个链接对应页面上的b，c，d，，，等等新的链接，作为新任务，这个时候，就要为这些新的链接生成新的线程，线程数量暴涨。在之后的运行中，线程数量还会不停的增加，完全无法控制。所以，对于任务数量不端增加的程序，固定线程数量的线程池是必要的。
相比threading，该模块通过submit返回的是一个future对象，它是一个未来可期的对象
通过它可以获悉线程的状态，主线程或者主进程中可以获取某一个线程或进程执行的状态或者某一个任务执行的状态及返回值
主线程可以获取某一个线程或者任务的状态，以及返回值
当一个线程完成的时候，主线程能够立即知晓
让多线程和多进程的编码接口一致

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
import time


def spider(page):
    time.sleep(page)
    print(f"crawl task {page} finished")
    return page


# with ThreadPoolExecutor(max_workers=5) as t:  # 创建一个最大容纳量为5的线程池
#     task1 = t.submit(spider, 1)
#     task2 = t.submit(spider, 2)  # 通过submit提交执行的函数到线程池中
#     task3 = t.submit(spider, 3)
#
#     # 通过done来判断线程是否完成
#     print(f"task1: {task1.done()}")
#     print(f"task2: {task2.done()}")
#     print(f"task3: {task3.done()}")
#
#     time.sleep(2.5)
#
#     print(f"task1: {task1.done()}")
#     print(f"task2: {task2.done()}")
#     print(f"task3: {task3.done()}")
#     # 通过result()来获取返回值
#     print(task1.result())

# 使用with语句，通过ThreadPoolExecutor构造实例，
# 同时传入max_workers参数来设置线程池中最多能同时运行的线程数目

# 使用submit函数来提交线程需要执行的任务到线程池中，并返回该任务的句柄(类似文件、画图)，
# 注意submit()不是阻塞的，而是立即返回的

# 通过使用done()方法判断该任务是否结束，提交任务后立即判断任务状态，显示都是未完成，在显示2.5秒后
# task1和task2执行完毕，task3仍然在执行中

# 使用result()方法可以获取任务的返回值

# 方法和参数
# wait(fs, timeout=None, return_when=All_COMPLETED)
# fs 表示需要执行的序列
# timeout 等待的最大时间，如果超过这个时间
# return_when 表示wait返回结果的结果，默认为ALLP_COMPLETED全部执行完成后再返回结果

from concurrent.futures import ThreadPoolExecutor, wait, FIRST_COMPLETED, ALL_COMPLETED


def spider2(page):
    time.sleep(page)
    print(f"crawl task {page} finished")
    return page


# with ThreadPoolExecutor(max_workers=5) as t:
#     all_task = [t.submit(spider2, page) for page in range(1, 5)]
#     # 返回条件 FIRST_COMPLETED 当第一个任务完成的时候就停止等待，继续主线程任务，所以紧接着打印了“结束”
#     wait(all_task, return_when=FIRST_COMPLETED)
#     print("结束")
#     # 设置延时（等待）时间2.5秒
#     print(wait(all_task, timeout=2.5))
#     # 所以最后只有task4还在运行

# as_completed
# 虽然使用return_when=FIRST_COMPLETED判断任务是否结束，但是不能在主线程中一直判断
# 最好的办法是当某个任务结束来，就给主线程返回结果，而不是一直判断每个任务是否结束
# as_completed就是当子线程中的任务执行完成后，直接用result()获取返回结果

from concurrent.futures import as_completed


def spider3(page):
    time.sleep(page)
    print(f"crawl task {page} finished")
    return page


def main():
    with ThreadPoolExecutor(max_workers=5) as t:
        obj_list = []
        for page in range(1, 5):
            obj = t.submit(spider3, page)
            obj_list.append(obj)
        for future in as_completed(obj_list):
            data = future.result()
            print(f"main:{data}")


# main()    使用过后发现，这个多线程比上面的测试耗时都多一些
# as_completed()方法是一个生成器，在没有任务完成的时候就会一直阻塞，除非设置了timeout
# 当某个任务完成的时候，会yield这个任务，就能执行for循环下面的语句，然后继续阻塞程序，直到所有任务结束
# 同时，先完成的任务会先返回给主线程

# map
# map(fn, *iterables, timeout=None)
# fn 需要线程执行的函数
# iterables 接收一个可迭代对象
# 和wait()的timeout一样，用于延时，但是map是返回线程执行的结果，如果timeout小于线程执行时间会抛出TimeoutError

def spider4(page):
    time.sleep(page)
    print(f"crawl task {page} finished")
    return page


def main2():
    executor = ThreadPoolExecutor(max_workers=4)
    i = 1
    # 列表中的每一个元素都执行来spider4()函数，并分配各线程池   task1:2
    for result in executor.map(spider4, [2, 3, 1, 4]):
        print(f"task{i}:{result}")
        i += 1


main2()
# 使用map方法，无需提前使用submit方法，与Python高阶函数map含义相同，都是将序列中的每个元素都执行同一个行数
# 与as_completed()方法的结果不同，输出顺序和列表的顺序相同，
# 就算1秒的任务执行完成，也会先打印前面提交的任务返回的结果

# map可以保证输出的顺序, submit输出的顺序是乱的
# 如果你要提交的任务的函数是一样的，就可以简化成map。但是假如提交的任务函数是不一样的，
# 或者执行的过程之可能出现异常（使用map执行过程中发现问题会直接抛出错误）就要用到submit（）
# submit和map的参数是不同的，submit每次都需要提交一个目标函数和对应的参数，
# map只需要提交一次目标函数，目标函数的参数放在一个迭代器（列表，字典）里就可以。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法的相关文章

如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
Flask+Nginx+uWSGI：导入错误：没有名为站点的模块

我安装为http www reinbach com uwsgi nginx flask virtualenv mac os x html http www reinbach com uwsgi nginx flask virtualenv
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

Latex: 参考文献双栏对齐

参考 How to level columns in bibliography Latex 参考文献双栏对齐需要实现的效果方法1 在开头引用balance usepackage balance 在文末参考文献前加上 balance
Stream使用技巧(1)------数据处理技巧

Stream使用技巧 1 数据处理技巧一背景作为java8新特性之一的Stream API为开发者带来了极大的便利它可以对我们需要操作的集合进行非常复杂的操作以活的我们想要的结果本文不会告诉你什么是Stream 毕竟网上花里胡哨
双口ram 简介及Verilog实现

简介 RAM Random Access Memory 随机存储器是一种用来暂时存储中间数据的存储器掉电易失按照类型可以分为单口ram 双口ram 其中双口ram又有简单伪的ram 真双端口ram 在异步FIFO的内部就是一个双端
Networdx小案例学习

文章目录图的类型无向图小案例有向图的小案例参考资料图的类型无向图小案例 import networkx as nx import matplotlib pyplot as plt G nx DiGraph 0 1 1 2 2 3
couldn‘t find package required on the “npm“ registry

切换npm源就行 nrm use taobao
对Attention is all you need 的理解

本文参考的原始论文地址 https arxiv org abs 1706 03762 谷歌昨天在arxiv发了一篇论文名字教Attention Is All You Need 提出了一个只基于attention的结构来处理序列模型相关的问题
遗传算法与C++实现

1 遗传算法核心是达尔文优胜劣汰适者生存的进化理论的思想一个种群通过长时间的繁衍种群的基因会向着更适应环境的趋势进化适应性强的个体基因被保留后代越来越多适应能力低个体的基因被淘汰后代越来越少经过几代的繁衍进化留下来的少数
c++ vector

初始化 1 默认初始化 vector为空 size为0 表明容器中没有元素而且 capacity 也返回 0 意味着还没有分配内存空间这种初始化方式适用于元素个数未知需要在程序中动态添加的情况 vector
华为OD机试 Python 【最小循环子数组】

描述给定一个数字数组看看这个数组能否由一个子数组不断重复形成的请找出那个可能的最小子数组输入方式第一行数组里的数字数量记作 n 1 n 100000 第二行数组的数字用空格隔开每个数字都在 0 到 9 之间输出方式打
Pandas Excel Writer writer.book = book的原因

工作 from openpyxl import load workbook import pandas as pd file r YOUR PATH TO EXCEL HERE df1 pd DataFrame Data 10 20 30
having子句与where子句

1 相同点都是对记录进行筛选 2 不同点 2 1 where 不能放在group by后面 2 2 having 是跟group by连在一起用的放在group by 后面此时的作用相当于where 2 3 where 后面的条件中不
基于Python招聘爬虫可视化-招聘数据可视化

视频展示基于Python招聘爬虫可视化项目定制招聘数据可视化哔哩哔哩 bilibili
C++primer练习12.1.4

12 14 struct destination 连接的目的地 struct connection 使用连接所需的信息 connection connect destination 打开连接 void disconnect connecti
Ext智能提示 - Eclipse 3.2

Eclipse的Ext 2 0 2智能提示它提供了非常准确的Ext API提示如图下载地址 http www agpad com downloads spket 1 6 12 zip 引用方法方法來自會員 kittig 1 将下载回
【模拟电路】二极管分类

1 TVS二极管瞬态电压抑制器在电路中 TVS二极管都是反向接在电源端一旦瞬时电压超过电路正常工作电压后 TVS二极管便发生雪崩效应提供给瞬时电流一个超低电阻通路从而使得被保护器件或设备避免受到损毁图1 图2 找了个网上的图先
必看！区块链如何推动电商行业的发展？

区块链技术被认为是第四次工业革命中最具颠覆性的创新技术世界上还没有见过比区块链技术更强大的技术它可能会对所有经济部门产生潜在的影响给它们带来一流的效率近些年来区块链技术在金融服务行业能源行业物流行业供应链管理行业医疗行业等
ambari自动化Hadoop部署

20200922 0 引言几年前为了处理大量的日志简单学习了hadoop的内容之后就在自己的几台破PC上进行了实验当时安装的方式步骤大致如下利用expect脚本完成免密登陆利用clush进行集群管理比如传输文件或者文件及命令
软件测试风险清单

软件测试风险主要分为风险评估和风险控制软件测试风险大致可以从以下几个方面考虑一人力风险评估点 1 人力资源不够 2 测试用例未被完全执行 3 人员流动测试人员对业务不熟悉相对应的风险控制 1 按照项目计划测试计划准备好测试
Altium Designer 16 放置PCB禁止布线层步骤

放置PCB禁止布线层步骤菜单栏中的Place gt 子菜单项Keepout gt 有几种设置模式一般选用Track 直线绘制添加以后绘制线图不能超过禁止布线层所圈出的范围
记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法

大量注释小白一看就懂的多线程及参数使用 threadpool已经不再是主流但是对于任务数量不断增加的程序每有一个任务就生成一个线程最终会导致线程数量的失控例如整站爬虫假设初始只有一个链接a 那么这个时候只启动一个线程运行之

记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法

大量注释，小白一看就懂的多线程及参数使用

记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法 的相关文章

随机推荐

热门标签

记忆碎片之python线程池、submit()、done()、result()、wait()、as_completed()、map()方法的相关文章