Python中多线程和线程池的使用方法

2023-11-07

Python是一种高级编程语言，它在众多编程语言中，拥有极高的人气和使用率。Python中的多线程和线程池是其强大的功能之一，可以让我们更加高效地利用CPU资源，提高程序的运行速度。本篇博客将介绍Python中多线程和线程池的使用方法，并提供一些实用的案例供读者参考。

一、多线程

多线程是指在同一进程中，有多个线程同时执行不同的任务。Python中的多线程是通过threading模块来实现的。下面是一个简单的多线程示例：

import threading

def task(num):
    print('Task %d is running.' % num)

if __name__ == '__main__':
    for i in range(5):
        t = threading.Thread(target=task, args=(i,))
        t.start()

上述代码中，我们定义了一个task函数，它接受一个参数num，用于标识任务。在主程序中，我们创建了5个线程，每个线程都执行task函数，并传入不同的参数。通过start()方法启动线程。运行上述代码，可以看到输出结果类似于下面这样：

Task 0 is running.
Task 1 is running.
Task 2 is running.
Task 3 is running.
Task 4 is running.

由于多线程是并发执行的，因此输出结果的顺序可能会有所不同。

二、线程池

线程池是一种管理多线程的机制，它可以预先创建一定数量的线程，并将任务分配给这些线程执行。Python中的线程池是通过ThreadPoolExecutor类来实现的。下面是一个简单的线程池示例：

import concurrent.futures

def task(num):
    print('Task %d is running.' % num)

if __name__ == '__main__':
    with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
        for i in range(5):
            executor.submit(task, i)

上述代码中，我们使用了with语句创建了一个ThreadPoolExecutor对象，其中max_workers参数指定了线程池中最大的线程数量。在主程序中，我们创建了5个任务，每个任务都通过executor.submit()方法提交给线程池执行。运行上述代码，可以看到输出结果类似于下面这样：

Task 0 is running.
Task 1 is running.
Task 2 is running.
Task 3 is running.
Task 4 is running.

由于线程池中最大的线程数量为3，因此只有3个任务可以同时执行，其他任务需要等待线程池中的线程空闲后再执行。

三、使用案例

下面是一个实际的案例，展示了如何使用多线程和线程池来加速数据处理过程。假设我们有一个包含1000个元素的列表，需要对每个元素进行某种运算，并将结果保存到另一个列表中。我们可以使用单线程的方式来实现：

def process(data):
    result = []
    for item in data:
        result.append(item * 2)
    return result

if __name__ == '__main__':
    data = list(range(1000))
    result = process(data)
    print(result)

上述代码中，我们定义了一个process函数，它接受一个列表作为参数，对列表中的每个元素进行运算，并将结果保存到另一个列表中。在主程序中，我们创建了一个包含1000个元素的列表，并将其传递给process函数。运行上述代码，可以看到输出结果类似于下面这样：

[0, 2, 4, 6, 8, ..., 1996, 1998]

Python中的多线程和线程池可以提高爬虫的效率，本文将介绍一个爬取豆瓣电影Top250的案例，并通过多线程和线程池优化爬取过程。

单线程爬取

首先，我们先来看一下单线程爬取的代码：

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup


def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except Exception as e:
        print(e)


def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find(class_='grid_view').find_all('li')

    for movie in movie_list:
        title = movie.find(class_='title').string
        rating = movie.find(class_='rating_num').string
        print(title, rating)


def main():
    url = 'https://movie.douban.com/top250'
    html = get_html(url)
    parse_html(html)


if __name__ == '__main__':
    main()

这是一个简单的爬取豆瓣电影Top250的代码，首先通过requests库获取网页的HTML代码，然后使用BeautifulSoup库解析HTML代码，获取电影名称和评分。

但是，这种单线程爬取的方式效率较低，因为在获取HTML代码的时候需要等待响应，而在等待响应的过程中CPU会空闲，无法充分利用计算机的性能。

多线程爬取

接下来，我们通过多线程的方式来优化爬取过程。首先，我们需要导入Python中的threading库：

import threading

然后，我们将获取HTML代码的代码放在一个函数中，并将其作为一个线程来运行：

def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except Exception as e:
        print(e)


class GetHtmlThread(threading.Thread):
    def __init__(self, url):
        threading.Thread.__init__(self)
        self.url = url

    def run(self):
        html = get_html(self.url)
        parse_html(html)

在上面的代码中，我们首先定义了一个GetHtmlThread类，继承自threading.Thread类，然后在类的构造函数中传入需要爬取的URL。在run方法中，我们调用get_html函数获取HTML代码，并将其传入parse_html函数中进行解析。

接下来，我们通过循环创建多个线程来进行爬取：

def main():
    urls = ['https://movie.douban.com/top250?start={}'.format(i) for i in range(0, 250, 25)]
    threads = []

    for url in urls:
        thread = GetHtmlThread(url)
        thread.start()
        threads.append(thread)

    for thread in threads:
        thread.join()

在上面的代码中，我们首先定义了一个urls列表，包含了所有需要爬取的URL。然后通过循环创建多个GetHtmlThread线程，并将其加入到threads列表中。最后，通过循环调用join方法等待所有线程执行完毕。

通过多线程的方式，我们可以充分利用计算机的性能，提高爬取效率。

线程池爬取

在多线程的方式中，我们需要手动创建和管理线程，这样会增加代码的复杂度。因此，我们可以使用Python中的线程池来进行优化。

首先，我们需要导入Python中的concurrent.futures库：

import concurrent.futures

然后，我们将获取HTML代码的代码放在一个函数中，并将其作为一个任务来提交给线程池：

def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except Exception as e:
        print(e)


def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find(class_='grid_view').find_all('li')

    for movie in movie_list:
        title = movie.find(class_='title').string
        rating = movie.find(class_='rating_num').string
        print(title, rating)


def main():
    urls = ['https://movie.douban.com/top250?start={}'.format(i) for i in range(0, 250, 25)]
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        futures = [executor.submit(get_html, url) for url in urls]

    for future in concurrent.futures.as_completed(futures):
        html = future.result()
        parse_html(html)

在上面的代码中，我们首先定义了一个urls列表，包含了所有需要爬取的URL。然后通过with语句创建一个线程池，并设置最大线程数为5。接下来，我们通过循环将每个URL提交给线程池，并将返回的Future对象加入到futures列表中。最后，通过concurrent.futures.as_completed函数来等待所有任务执行完毕，并获取返回值进行解析。

通过线程池的方式，我们可以更加简洁地实现多线程爬取，并且可以更加灵活地控制线程的数量，避免线程过多导致系统负载过高的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Python中多线程和线程池的使用方法的相关文章

Keras model.summary() 结果 - 了解参数数量

我有一个简单的神经网络模型用于使用 Keras Theano 后端从用 python 编写的 28x28px 图像中检测手写数字 model0 Sequential number of epochs to train for nb ep
Json.dump 失败并显示“必须是 unicode，而不是 str”TypeError

我有一个 json 文件其中恰好有大量中文和日文以及其他语言字符我将其加载到我的 python 2 7 脚本中使用io open如下 with io open multiIdName json encoding utf 8 as j
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
按字符串子字符串的列过滤 Pandas 数据框

我正在尝试使用列中的字符串值是数据框外部字符串的子字符串的条件来过滤数据框下面的例子 df a b c hello bye hello reference str hello there output a c 一种方法可能是使用正则表达式
Python 中嵌套列表的排序和分组

我有以下数据结构列表的列表 4 21 1 14 2008 10 24 15 42 58 3 22 4 2somename 2008 10 24 15 22 03 5 21 3 19 2008 10 24 15 45 45 6 21 1 1
完全定制的Python帮助用法

我正在尝试使用 Python 创建完全自定义的帮助用法我计划将其导入到许多我想要具有风格一致性的程序中但遇到了一些麻烦我不知道为什么我的描述忽略换行符尝试过和我无法让出现在 ARGS 行的换行符之后显然它们坐在自己的行
如何从 Python 3.5 降级到 3.4

我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目但是当尝试使用 pip 安装它所依赖的包时
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件？

我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
如何使用 PyAudio 选择特定的输入设备

通过 PyAudio 录制音频时如何指定要使用的确切输入设备我的电脑有两个麦克风一个内置一个通过 USB 我想使用 USB 麦克风进行录音这流类 https people csail mit edu hubert pyaudio
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list

随机推荐

为什么java中类名要与文件名一致

学习java程序过程中碰到了文件名与类名不一致问题出现了报错后面查了一下资料才知道为什么文件名与类名要一致 Java是被解释执行的它在运行时并不是将所有的class文件全都放到内存中而是在遇到import的时候才去相应的文件目录找相
概率论与数理统计（3）--指数分布函数及其期望、方差

1 什么是指数分布设随机变量X具有如下形式的密度函数那么则称X服从参数为的指数分布记为X EXP 指数分布的分布函数为 2 指数分布的期望和方差数学期望如果X 服从参数为 gt 0 的指数分布那么指数分布X EXP 的数学期望
Conda 常用指令 (Mac)【下载安装环境配置查看创建激活配置cuda 拷贝环境】

本文旨在介绍用conda配置一个新的深度学习环境的全过程下载Anaconda 在官网中下载与python版本匹配的Anaconda Python与Anaconda版本匹配如下图片源自该博客在本例中我下载的 Anaconda3 2
12篇顶会论文，深度学习时间序列预测经典方案汇总

早期的时间序列预测主要模型是诸如ARIMA这样的单序列线性模型这种模型对每个序列分别进行拟合在ARIMA的基础上又提出了引入非线性引入外部特征等的优化然而 ARIMA类模型在处理大规模时间序列时效率较低并且由于每个序列分别独立拟
aistudio提示找不到包，通过直接下载整个PaddleNLP的repo文件执行

git clone https gitee com AI Mart PaddleNLP cd PaddleNLP python setup py install pip install regex nltk beautifulsoup4 当
mysql 同步失败_线上MYSQL同步报错故障处理方法总结

前言在发生故障切换后经常遇到的问题就是同步报错下面是最近收集的报错信息记录删除失败在master上删除一条记录而slave上找不到 Last SQL Error Could not execute Delete rows eve
C语言执行过程

系列1 C语言执行过程系列2 C程序方法调用系列3 CS IP 寄存器本文中涉及的代码地址 analyseExecutionOfC 文件结构 analyse execution of c compilePreProcessSource
[失败] 网易云音乐爬虫分析

网易云音乐js破解分析大家好我是W 最近在搞毕设相关的材料所以很久没有敲代码和写博客了刚好一个同学有个需求要获取网易云音乐的歌曲id和封面地址然后用外链播放相当于在他的系统里加一个小功能锦上添花所以来找到我刚开始我觉得
module xxx has no attribute

授人以鱼不如授人以渔希望这篇文章可以帮助大家解决一系列类似的问题大家耐心看下去肯定会有收获今天看见一篇博客解决问题的思路给了我很大的启发于是我就将他记录下来大家可以一起学习一下在文章的最后我也会挂出他的链接这里具体为具体错误
Python操作SQL中json格式的问题

1 json中的引号必须使用双引号在mysql中双引号和单引号可以互换但不可混合使用需成对出现 mysql支持存储json格式数据但是写入时json内容中引号必须使用双引号否则出现下述错误 pymysql err Operatio
超分辨率基础

超分辨率综述 Image Super resolution 的深度学习方法微信二维码引擎OpenCV开源微信扫码背后的图像超分辨率技术技术解析即构移动端超分辨率技术 DIV2K数据集下载 B100 Manga109 Set5 Set
firefly框架分析之netconnect package(一)

firefly下的目录结构如下里面的各个包将会一一的介绍今天先开始看看netconnect包该包下面这些模块从connection开始 Connection py 与客户端的连接对象通过其与客户端通讯向客户端发送封装过的数据还可
Qt源码解析1---D指针原理

D指针什么是d指针如果你已经看过到Qt源文件像QLablel QPicture QLabel picture const Q D const QLabel if d gt picture return d gt picture retu
ChatGPT的接口在哪

ChatGPT本身不是一个独立的接口而是一个预训练的自然语言处理模型如果您需要使用ChatGPT来实现某个自然语言处理任务例如文本生成问答等您可以使用Python中的深度学习框架如TensorFlow PyTorch 加载预训练
谈我对于ajax的理解

Ajax的全称是Asynchronous JavaScript and XML 中文名称定义为异步的JavaScript和XML Ajax是Web2 0技术的核心由多种技术集合而成使用Ajax技术不必刷新整个页面只需对页面的局部进行更新
qt 信号槽默认参数 toggled 和 trigger的区别

toggled和trigger区别 1 toggle 类似开关具有2个状态打开关闭使用这个信号是在这2个状态之间切换 2 trigger是一次性的点击后无法改变状态要么是打开要么是关闭参考 http blog csdn
c# 对txt文件的读取与写入

C txt文件分析读取与写入 c 中对txt文件的读取写入在工作中用到的很多今天写一个之前工作中用到的小demo 案例场景要求 txt文件中为很多条标记时间戳的报文需要计算出每条报文从开始接收到结束用了多长时间案例执行如txt文件
Java数据结构和算法（一）——简介

本系列博客我们将学习数据结构和算法为什么要学习数据结构和算法这里我举个简单的例子编程好比是一辆汽车而数据结构和算法是汽车内部的变速箱一个开车的人不懂变速箱的原理也是能开车的同理一个不懂数据结构和算法的人也能编程但是如果一个开车
apk文件 -- 反编译

源博客 https www cnblogs com mfrbuaa p 4588057 html 编译工具 apktool 资源文件获取能够提取出图片文件和布局文件进行使用查看 dex2jar 将apk反编译成java源代码 classe
Python中多线程和线程池的使用方法

Python是一种高级编程语言它在众多编程语言中拥有极高的人气和使用率 Python中的多线程和线程池是其强大的功能之一可以让我们更加高效地利用CPU资源提高程序的运行速度本篇博客将介绍Python中多线程和线程池的使用方法并提

Python中多线程和线程池的使用方法

Python中多线程和线程池的使用方法 的相关文章

随机推荐

热门标签

Python中多线程和线程池的使用方法的相关文章