【Python_requests学习笔记（九）】基于requests和threading模块实现多线程爬虫

2023-11-17

基于requests和threading模块实现多线程爬虫

前言

此篇文章中介绍基于 requests 和 threading 模块实现多线程爬虫，并以 抓取Cocos中文社区中：热门主题下的帖子名称及id数据 为例进行讲解；因主要介绍如何使用多线程，所以爬取网页数据的方法可以参考：【Python_requests学习笔记（七）】基于requests模块实现动态加载数据的爬取，下面直接进入正文。

正文

直接以代码为例进行讲解

1、程序实现

初始化函数

    def __init__(self):
        self.url = "https://forum.cocos.org/top.json?page={}&per_page=50"  # url地址
        self.q = Queue()  # 创建队列
        self.lock = Lock()  # 创建线程锁

a、创建队列，是为了存放需要爬取网页的 url 地址；
b、创建线程锁，是为了防止多个线程在同时操作队列时，即 self.q 出现异常。

队列函数

    def url_in(self):
        """
        function:  url地址入队列函数
              in:  None
             out:  None
          return:  int >0 ok, <0 some wrong
          others:  url Queue Func
        """
        for page in range(10):  # 爬取10页
            url = self.url.format(page)  # 创建所有需要抓取的url地址
            self.q.put(url)  # 入队列

多线程事件函数

    def pares_html(self):
        """
        function:  线程的事件函数：获取url，请求，解析，处理数据
              in:  None
             out:  None
          return:  int >0 ok, <0 some wrong
          others:  The Event Function Of The Thread
        """
        while True:
            self.lock.acquire()  # 上锁
            if not self.q.empty():  # 判断队列是否为空
                url = self.q.get()  # 出队列
                self.lock.release()  # 释放锁
                headers = {"User-Agent": UserAgent().random}  # 构造随机请求头
                html = requests.get(url=url, headers=headers).json()  # 获取响应内容
                item = {}  # 定义一个空字典
                for dic in html["topic_list"]["topics"]:
                    item["id"] = dic["id"]
                    item["名称"] = dic["title"]
                    print(item)
                print("**********")
            else:  # 当队列为空时，已经上锁未释放，所以需要释放锁
                self.lock.release()  # 释放锁
                break

a、while循环是为了元素出队列的操作，当队列为空时，说明需要爬取的网页已经爬取完成，即可终止循环；
b、上锁和释放锁在元素出队列前后，每进行一次循环前要上锁，防止两个线程同时操作队列，当元素出队列后立即释放锁，让其他线程从队列中取 ur l地址；
c、注意：当队列为空时也需要释放锁，不然会造成堵塞。

程序入口函数

    def run(self):
        """
        function:  程序入口函数
              in:  None
             out:  None
          return:  None
          others:  Program Entry Func
        """
        self.url_in()  # 先让url地址入队列
        t_list = []  # 创建多线程
        for i in range(1):  # 创建3个线程
            t = Thread(target=self.pares_html)  # 线程实例化
            t_list.append(t)
            t.start()  # 线程开启
        for t in t_list:
            t.join()  # 线程同步

创建线程实例后，要开启线程。

2、完整代码

import time
import requests
from queue import Queue
from threading import Thread, Lock
from fake_useragent import UserAgent


class CocosSpiderThread:
    """
    基于requests和threading实现多线程爬虫：
    多线程爬取Cocos中文社区中：热门主题下的帖子名称及id数据
    """

    def __init__(self):
        self.url = "https://forum.cocos.org/top.json?page={}&per_page=50"  # url地址
        self.q = Queue()  # 创建队列
        self.lock = Lock()  # 创建线程锁

    def url_in(self):
        """
        function:  url地址入队列函数
              in:  None
             out:  None
          return:  int >0 ok, <0 some wrong
          others:  url Queue Func
        """
        for page in range(10):  # 爬取10页
            url = self.url.format(page)  # 创建所有需要抓取的url地址
            self.q.put(url)  # 入队列

    def pares_html(self):
        """
        function:  线程的事件函数：获取url，请求，解析，处理数据
              in:  None
             out:  None
          return:  int >0 ok, <0 some wrong
          others:  The Event Function Of The Thread
        """
        while True:
            self.lock.acquire()  # 上锁
            if not self.q.empty():  # 判断队列是否为空
                url = self.q.get()  # 出队列
                self.lock.release()  # 释放锁
                headers = {"User-Agent": UserAgent().random}  # 构造随机请求头
                html = requests.get(url=url, headers=headers).json()  # 获取响应内容
                item = {}  # 定义一个空字典
                for dic in html["topic_list"]["topics"]:
                    item["id"] = dic["id"]
                    item["名称"] = dic["title"]
                    print(item)
                print("**********")
            else:  # 当队列为空时，已经上锁未释放，所以需要释放锁
                self.lock.release()  # 释放锁
                break

    def run(self):
        """
        function:  程序入口函数
              in:  None
             out:  None
          return:  None
          others:  Program Entry Func
        """
        self.url_in()  # 先让url地址入队列
        t_list = []  # 创建多线程
        for i in range(3):  # 创建3个线程
            t = Thread(target=self.pares_html)  # 线程实例化
            t_list.append(t)
            t.start()  # 线程开启
        for t in t_list:
            t.join()  # 线程同步


if __name__ == '__main__':
    start_time = time.time()  # 记录开始时间
    spider = CocosSpiderThread()
    spider.run()
    end_time = time.time()  # 记录结束时间
    print("time:%.2fs" % (end_time - start_time))  # 打印总用时

3、实现效果

3个线程爬取：用时1.60s
在这里插入图片描述
1个线程爬取：用时3.98s

可以看到爬取的时间是有所缩短的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

requests学习笔记

python学习笔记

python

爬虫

requests

【Python_requests学习笔记（九）】基于requests和threading模块实现多线程爬虫的相关文章

使用 InlineKeyboardButton python telegram bot 发送命令

在Python电报机器人中是否有可能InlineKeyboardButton发送类似命令 cancel当它被按下时例如当用户按下取消按钮时他们将自动发送 cancel 命令然后由机器人处理从这里的例子来看 https githu
使用单个文件的 Python 日志记录（函数名、文件名、行号）

我正在尝试了解应用程序的工作原理为此我将调试命令插入作为每个函数主体的第一行目的是记录函数的名称以及向日志输出发送消息的行号代码内最后由于这个应用程序由许多文件组成我想创建一个日志文件以便我可以更好地理解应用程序的控制流这
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
如何在 QTableView 标题中单击鼠标右键单击上下文菜单？

下面的示例代码很大程度上受到here http www saltycrane com blog 2007 12 pyqt 43 qtableview qabstracttablemodel 有一个右键单击上下文菜单当用户单击表中的单元格
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
Django Web 应用程序中的 SMTP 问题

我被要求向使用 Django Python 框架实现的现有程序添加一个功能此功能将允许用户单击一个按钮该按钮将显示一个小对话框表单以输入值我确实编写了一些代码显示电子邮件已发送的消息但实际上它没有发送 My code from
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Django 1.7 应用程序配置导入错误：没有名为 appname.apps 的模块

我正在尝试按照以下文档为我的一个名为文章的 Django 应用程序设置自定义应用程序配置https docs djangoproject com en dev ref applications https docs djangoproj
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
python 日志记录替代方案 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案蟒蛇记录模块 http docs python org library logging html使用起来
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过

随机推荐

java.io.IOException: read failed, socket might closed or timeout, read ret: -1

好吧重要的事情说三遍连接蓝牙前关闭蓝牙搜索连接蓝牙前关闭蓝牙搜索连接蓝牙前关闭蓝牙搜索
补码加减运算及判断溢出方法

一补码加减运算二判断溢出方法 1 符号位判溢出方法对于加减运算两个异号数相加或者两个同号数相减结果的绝对值一定比任何一个数的绝对值要小不会发生上溢出两个异号数相减或者两个同号数相加的绝对值肯定比任何一个数要大可能发生溢出
UE4的视频播放（Media Player）

1 视频播放Begining 首先将需要播放的视频拖入创建Media Player和Media Texture 创建Material 将材质改为User Interface 在UI界面创建Image 将这个材质装入在人物Pawn界面添
FriendlyDesktop系统烧写，SOM-RK3399/NanoPC T4烧录系统

SOM RK3399 SOM RK3399 V2 NanoPC T4的系统是通用的由于Type C烧写有蛮大的概率会识别不成功实测所以建议使用SD卡脱机烧写友善之臂提供了几种系统支持 android7 8 10 FriendlyCo
Redis概述与安装

Redis简介首先简单了解一下NoSQL Not only sql 不要错误的理解为没有SQL 而是不仅仅是SQL NoSQL工具也是一种简易的数据库它主要是基于内存的数据库并提供一定的持久化功能现在有很多这种技术如 memca
VS2022·初尝试评测（非专业测评）

阅文时长 0 59分钟字数统计 956 8字符主要内容 1 引言背景 2 载入界面 UI图标等细节 3 加载项目时间对比 4 编译项目时间对比 5 声明与参考资料 VS2022 初尝试评测非专业测评编写人 SCscHero
Python3快速入门（六）——Python3面向对象

Python3快速入门六 Python3面向对象一面向对象技术简介 1 面向对象简介面向对象编程 Object Oriented Programing OOP 是一种编程思想 OOP把对象当成程序的一个基本单元一个对象包含数据和操
springboot配置RabbitMQ时,本地正常,远程连接RabbitMQ却无法生成Queue,Exchange

RabbitMQ 在springboot中无法正确操作远程服务器的问题问题描述如果你已经确定你的IP正确端口号也是5672 账号没有使用默认的guest账号但是还是没有连接上远程的RabbitMQ 可能是你的springboot配
int8，FLOPS，FLOPs，TOPS 等具体含义

1 定义算力的计量单位FLOPS Floating point operations per second FLOPS表示每秒浮点的运算次数具体使用时 FLOPS前面还会有一个字母常量例如TFLOPS PFLOPS 这个字母T P代表
翻页特效原理

http www open open com lib view 1326265166952 实现真实的翻页效果为了能在翻页的过程中看到下一页的内容在翻页之前必须准备两张页面一张是当前页另一张是下一页翻页的过程就是对这两张页面的剪切
SAGE(SAGEMATH)密码学基本使用方法

求逆元 inv inverse mod 30 1373 print 30 inv 1373 1 扩展欧几里得算法 d u v xgcd 20 30 print d 0 u 1 v 2 format d u v d 10 u 1 v 1 孙子
win10系统显示打印机未连接到服务器,解决win10提示“Windows无法连接到打印机”的方法...

打印机是我们办公室中必备的设备如今各种打印方式也是层出不穷最近有用户在使用win10系统进行打印的时候遇到了这样的提示信息 windows 无法连接到打印机在更详细的信息提示界面中已经告诉我们是由于本地打印店额后台服务程序没有启用导致
void、void 的使用

void的使用 1 对函数返回值的限定函数无返回值 void test int a int num a 2 void 限定函数的返回值为任意类型的指针 void test int a 5 int p a return p 3 对函数参数的
ASCII unicode utf8 编码、解码的那些事

ASCII unicode gbk utf8 编码解码的那些事对应编码这块一直处于一种懵懵懂懂的状态有的时候去查了资料当下理解了过一段时间又遗忘了今天又重新查阅了一番资料记录一下所感所悟阮一峰老师关于编码的总结 1 ASC
【学一点儿前端】box-sizing以及flex:1的解释

box sizing box sizing 是一种用于控制CSS盒子模型行为的CSS属性它的作用是指定元素的宽度和高度的计算方式以确定元素的总尺寸具体来说 box sizing 可以有两个可能的取值 1 content box 默认值
hive加载数据权限报错

前提上传数据至hdfs 的 user root 下创建了hive的orc表准备load数据创建了临时的ordertmp的textfile格式表后面用insert overwrite进目标表执行load data 从 user r
2020-06-07

Arcgis engine实现栅格运算功能有大佬能帮助一下吗 arcgis是10 2版本的环境是vs2015
linux的-Mtime 命令

我在写shell脚本的时候定时删除一些文件的时候也经常用得到 mtime这个参数所以打算好好看看把它弄明白一下 man find里的解释 mtime n File s data was last modified n 24 hour
java ee 运行环境_EE质量检查：为我们的网站开发和运行自动测试

java ee 运行环境 Introduction 介绍 This article is the last of three articles that explain why and how the Experts Exchange QA
【Python_requests学习笔记（九）】基于requests和threading模块实现多线程爬虫

基于requests和threading模块实现多线程爬虫前言此篇文章中介绍基于 requests 和 threading 模块实现多线程爬虫并以抓取Cocos中文社区中热门主题下的帖子名称及id数据为例进行讲解因主要介绍如何