爬虫从入门到精通(8)

2023-10-29

在这里插入图片描述

文章目录

一、多进程和多线程介绍
二、普通爬虫
三、多线程爬虫
- 1.普通方法调用
- 2.线程类调用
四、多进程爬虫
- 1.普通方法调用
- 2.进程类写法
五、gevent协程爬虫

一、多进程和多线程介绍

二、普通爬虫

看一个简单的代码，访问100次百度的耗时

# coding: utf-8
import time

import requests


def get_response():
    try:
        url = 'https://www.baidu.com/'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400',
        }
        response = requests.get(url, headers=headers, timeout=2)
        print(response.status_code)

    except Exception as e:
        print(e)


if __name__ == '__main__':
    a = time.time()
    for i in range(100):
        get_response()
    print(time.time() - a)

在这里插入图片描述
如果使用多线程或者多进程进行并发抓取，那么速度会不会很快

三、多线程爬虫

1.普通方法调用

# coding: utf-8
import time
import threading
import requests


def get_response():
    try:
        url = 'https://www.baidu.com/'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400',
        }
        response = requests.get(url, headers=headers, timeout=2)
        print(response.status_code)

    except Exception as e:
        print(e)


def fun():
    for i in range(10):
        get_response()


if __name__ == '__main__':
    for i in range(10):
        threading.Thread(target=fun).start()

windows环境下100次10个线程：耗时7s

2.线程类调用

# coding: utf-8
import time
import threading
import requests
import multiprocessing


class Spider(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)

    def get_response(self):
        try:
            url = 'https://www.baidu.com/'
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400',
            }
            response = requests.get(url, headers=headers, timeout=2)
            print(response.status_code)

        except Exception as e:
            print(e)

    def run(self):
        for i in range(10):
            self.get_response()


if __name__ == '__main__':
    for i in range(10):
        Spider().run()

四、多进程爬虫

1.普通方法调用

# coding: utf-8

import requests
import multiprocessing


def get_response():
    try:
        url = 'https://www.baidu.com/'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400',
        }
        response = requests.get(url, headers=headers, timeout=2)
        print(response.status_code)

    except Exception as e:
        print(e)


def fun():
    for i in range(25):
        get_response()


if __name__ == '__main__':
    for i in range(4):
        multiprocessing.Process(target=fun).start()

windows环境下100次并发4个进程：耗时12秒

2.进程类写法

# coding: utf-8
import requests
import multiprocessing


class Spider(multiprocessing.Process):
    def get_response(self):
        try:
            url = 'https://www.baidu.com/'
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3883.400 QQBrowser/10.8.4559.400',
            }
            response = requests.get(url, headers=headers, timeout=2)
            print(response.status_code)

        except Exception as e:
            print(e)

    def run(self):
        for i in range(25):
            self.get_response()


if __name__ == '__main__':
    for i in range(4):
        s = Spider()
        s.start()

五、gevent协程爬虫

1.gevent模块简介

Python通过yield提供了对协程的基本支持，但是不完全。而第三方的gevent为Python提供了比较完善的协程支持。
gevent是第三方库，通过greenlet实现协程，其基本思想是：当一个greenlet遇到IO操作时，比如访问网络，就自动切换到其他的greenlet，等到IO操作完成，再在适当的时候切换回来继续执行。由于IO操作非常耗时，经常使程序处于等待状态，有了gevent为我们自动切换协程，就保证总有greenlet在运行，而不是等待IO。
总结：gevent：协程解决网络阻塞实例，实现并发

注意：使用gevent，可以获得极高的并发性能，但gevent只能在Unix/Linux下运行，在Windows下不保证正常安装和运行。

2.安装和依赖

依赖于greenlet 、library
支持python 2.6+ 、python 3.3+

pip install gevent

3.gevent协程爬虫示例

# coding: utf-8 
# 在导入其他库和模块前，先把monkey模块导入进来，并运行monkey.patch_all()。这样，才能先给程序打上补丁。
from gevent import monkey  # 从gevent库里导入了monkey模块，这个模块能将程序转换成可异步的程序

monkey.patch_all()  # 它的作用其实就像你的电脑有时会弹出“是否要用补丁修补漏洞或更新”一样。它能给程序打上补丁，让程序变成是异步模式，而不是同步模式。它也叫“猴子补丁”。
import gevent
import requests
import time


def get_response(url):  # 定义一个函数，用来执行解析网址和爬取内容
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

    res = requests.get(url, headers=headers)  # 发出请求
    print(res.status_code)


if __name__ == '__main__':
    start = time.time()  # 开始时间
    # 构建100个请求任务
    url_list = []
    for i in range(100):
        url = 'https://www.baidu.com/'
        url_list.append(url)
    # 使用协程
    tasks_list = []
    for url in url_list:
        # 用gevent.spawn()创建任务，此任务可以调用cra(url)函数，参数1函数名，后边为该函数需要的参数，按顺序写
        task = gevent.spawn(get_response, url)
        tasks_list.append(task)  # 将任务加入列表
    # 调用gevent库里的joinall方法，能启动执行tasks_list所有的任务。
    gevent.joinall(tasks_list)

    end = time.time()  # 结束时间
    print(end - start)

另外我们可以配合多进程+协程使用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python网络爬虫入门

爬虫

python

开发语言

爬虫从入门到精通(8) 的相关文章

Python groupby 无法按预期工作[重复]

这个问题在这里已经有答案了我正在尝试读取一个 Excel 电子表格其中包含以下格式的一些列 column1 column1 AccountName column1 SomeOtherFeature column2 blabla colu
Python：并行修改数组的简单方法

这个问题可能听起来很简单但作为 Python 并行化的新手我肯定会遇到困难我处理了 OpenMP for C 中的并行化问题这要容易得多我需要做的是并行修改矩阵的条目就是这样问题是我无法使用简单的 joblib 库来做到这一
具有动态特性的 Python 嵌套作用域

需要帮助理解以下句子PEP 227 http www python org dev peps pep 0227 和Python 语言参考 http docs python org reference executionmodel html
类型错误：不支持的操作数类型 -：“int”和“list”

我正在尝试用 python 创建一个程序它会使用 Zeller 算法告诉你你出生在星期几http en wikipedia org wiki Zeller 27s congruence http en wikipedia org wiki
从可变长度字符串中解析值的最佳方法是什么？

假设我有一个由可变长度的逗号分隔的整数字符串分割字符串并用值更新变量如果存在的最佳方法是什么目前我有以下内容 a b c 10 10 1 default values mylist int x for x in input spl
Python 删除额外的特殊 unicode 字符

我正在 python 中处理一些文本它内部已经采用 unicode 格式但我想删除一些特殊字符并用更标准的版本替换它们我目前有一条看起来像这样的线路但它变得越来越复杂我发现它最终会带来更多麻烦 tmp infile lower r
Scikit-learn：如何获得 True Positive、True Negative、False Positive 和 False Negative

我的问题我有一个数据集它是一个很大的 JSON 文件我读取它并将其存储在trainList多变的接下来我对其进行预处理以便能够使用它完成后我开始分类我用kfold交叉验证方法以获得平均值准确性并训练分类器我做出预测并获
如何将返回列表的 Celery 任务链接到一个组中？

我想从 Celery 任务返回的列表创建一个组以便对于任务结果集中的每一项一个任务将添加到该组中这是一个简单的代码示例来解释用例这应该是上一个任务的结果 celery task def get list amount In rea
Python NameError，变量“未定义”

它返回的错误是 NameError name lives is not defined 我知道代码并不是尽可能高效这是我的第一个项目但是无论我尝试做什么都会弹出这个错误我尝试为其创建一个全局变量但这没有帮助我真的很感激一些帮助
这个 Python 字符串切片语句中的两个冒号的用途是什么？

例如 str hello str 1 3 我在 Python 文档中哪里可以找到它 in 序列描述 http docs python org library stdtypes html index 510 s i j k slice of
是否有像 python 的 issubclass 这样的东西，如果第一个参数不是类，它将返回 False？

我想要issubclass 1 str 返回 false 1不是的子类str 因为它根本不是一个类所以我收到了 TypeError 有没有一个好的方法来测试这个而不诉诸try except try if issubclass value
在包含缺失值的 Pandas 数据框列上使用 apply 和 lambda 函数

这是这个问题的后续如何根据 pandas 数据框中其他列中的子字符串创建新列 https stackoverflow com questions 70086559 how to create new column based on sub
在Python中，如何将“datetime”对象转换为秒？

我有一堆日期时间对象我想计算每个对象自过去固定时间以来的秒数例如自 1970 年 1 月 1 日以来 import datetime t datetime datetime 2009 10 21 0 0 这似乎只是区分具有不同日期的日期
django 创建多类型用户的最佳方法

我想在 django 中创建多个用户我想知道哪种方法是最好的 class Teachers models Model user models ForeignKey User is teacher models BooleanField d
Django 模型表单中的必填字段

我有一个表格当我也不想要它们时会根据需要显示几个字段这是来自 models py 的表格 class CircuitForm ModelForm class Meta model Circuit exclude lastPaged d
pytest 看不到正在测试的函数的日志

我有一个像这样的烧瓶应用程序 from flask import Flask import logging app Flask name app route def catch all logging warning I m a warni
Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

使用 BeautifulSoup 从几个网页使用 URL 列表中抓取文本的最简单方法是什么有可能吗最好的乔治娜 import urllib2 import BeautifulSoup import re Newlines re c
从多个 .csv 文件创建混淆矩阵

我有很多具有以下格式的 csv 文件 338 800 338 550 339 670 340 600 327 500 301 430 299 350 284 339 284 338 283 335 283 330 283 310 282 3
无法让我的脚本自动生成一些值以在有效负载中使用

我创建了一个脚本通过随后发送两个 https 请求来从目标页面获取 html 元素我的脚本可以完美地完成这件事但是我必须从 chrome 开发工具复制四个值来填充其中的四个键payload为了发送最终的http请求到达目标页面这是
类型错误：“生成器”对象没有属性“__getitem__”

我编写了一个应该返回字典的生成函数但是当我尝试打印字段时出现以下错误 print row2 SearchDate TypeError generator object has no attribute getitem 这是我的代码 fro

随机推荐

题目 2659:蓝桥杯2022年第十三届省赛真题-统计子矩阵

题目描述给定一个 N M 的矩阵 A 请你统计有多少个子矩阵最小 1 1 最大 N M 满足子矩阵中所有数的和不超过给定的整数 K 输入格式第一行包含三个整数 N M 和 K 之后 N 行每行包含 M 个整数代表矩阵 A 输出格式
【CNN时序预测】基于混合卷积神经网络和循环神经网络 CNN - RNN 实现时间序列预测附Matlab代码

作者简介热爱科研的Matlab仿真开发者修心和技术同步精进 matlab项目合作可私信个人主页 Matlab科研工作室个人信条格物致知更多Matlab仿真内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号
解决电脑无法访问某些网站的问题

解决电脑无法访问某些网站的问题参考文章 1 解决电脑无法访问某些网站的问题 2 https www cnblogs com chy18883701161 p 10863879 html 备忘一下
RUN apt-get 慢

RUN apt get 慢在docker 的RUN apt get XXX上一行加上 RUN echo gt etc apt sources list RUN echo deb http mirrors ustc edu cn debia
js前端实现简单模糊匹配

实现功能如图所示 Input框中输入要查询字段包含的字符即可查出想要的结果图例 Input中输入QA333 即可查粗出相关结果代码展示 var queryCondition var data projectdata map obj
ABIs [armeabi] are not supported for platform 的解决

解决方法在app的build gradle的ndk标签下将armeabi 删除掉修改前 ndk abiFilters armeabi armeabi v7a 修改后 ndk abiFilters armeabi v7a 附详细出错lo
matlab textscan读结构化.txt文件

要用 matlab 读之前处理的 COCO 的 ID map 1 将 sample ID 映射去 image name 用来读图片 ID map 文件每一行的形如 0 9 000000000009 jpg 空格间开第一列是 sample
（安装pclpy）pclpy+windows+anaconda

pclpy 0 12 0版本支持windows的python3 6和3 7版本但pclpy 0 12 0移除了可视化模块即看不到点云效果了安装方法进入对应python版本的虚拟环境然后输入 pip install pclpy 0
kylin在hadoop 中的架构图_kylin跨集群配置实现读写分离

社区提供的读写分离架构图如下通过架构图可以看到Kylin会访问两个集群的HDFS 建议两个集群的NameService务必不能相同尤其是集群启用NameNode HA时相同的NameService会导致组件在跨集群访问HDFS时因无法
nginx配置ssl证书https解决公网ip可以访问但是域名不行的问题

进入nginx文件夹将下载得到的crt和key文件放到这个目录下以下来自腾讯云官方 https cloud tencent com document product 400 35244 server SSL 访问端口号为 443 lis
警告：[SetPropertiesRule]Setting property 'source' to xxx did not find a matching property.的消除

启动JSP页面时报错全文如下九月 25 2016 7 47 39 下午 org apache tomcat util digester SetPropertiesRule begin 警告 SetPropertiesRule Serve
Python（练习七）

一 max 0 count 0 while True num int input Enter a number 0 for end of input if num 0 break if num gt max max num count 1
mongodb如何使用授权登录

前言 mongodb默认是不需要授权登录的这样在实际生产环境中是非常危险的一件事情接下来就来讲一下如何开启安全授权访问 1 第一次登录不启动授权默认就是不启动我们先来创建admin和root账号他们是用来开启授权后操作用户创建数
PWNHUB 一场新鲜赛事速达【六月内部赛】 web - login game + Misc - 伏羲八卦

PWNHUB 一场新鲜赛事速达六月内部赛 web login game Misc 伏羲八卦 web login game Misc 伏羲八卦本文来自csdn的 shu天平时会记录ctf 取证和渗透相关的文章欢迎大家来我的主页 shu
thinkpad笔记本如何进bios设置u盘启动步骤

thinkpad笔记本从u盘启动有两种方法一种是使用u盘启动快捷键直接进入u盘装系统另一种则需要进bios设置u盘为第一启动项但首先要下载个u盘启动盘制作工具制作成启动u盘在进行下面详细为大家介绍如何操作方法一使用u盘启动快捷键
脚本一：编写一个脚本要求检测文件类型(简化版）

要求 1 命名为check file sh 2 检测判断它是否存在 3 判断它是否为普通文件 4 判断其是否为目录 5 判断其是否为软链接 6 如没有文件名则报错编写脚本如下验证文件如下可见如果文件不存在直接报错如果符合条件直接给
《Web安全基础》05. XSS · CSRF · SSRF · RCE

web 1 XSS 1 1 简介 1 2 防护与绕过 1 2 1 HttpOnly 1 2 2 WAF 绕过 1 3 相关资源 2 CSRF 3 SSRF 4 RCE 本系列侧重方法论各工具只是实现目标的载体命令与工具只做简单介绍其使
行人属性识别的一个调研

行人属性识别的一个调研知乎前言我感觉我掌握了财富密码从知乎的后台数据来看大家貌似更喜欢看综述多一点因此这次给大家整个行人属性识别 PAR 的综述同样的这次的综述比较老是19年的大家酌情看适合入门用首先还是保命时刻
【会议分享】2022年智能车国际会议(ICoIV 2022)

2022年智能车国际会议 ICoIV 2022 重要信息会议网址 www icoiv org 会议时间 2022年10月14 16日召开地点中国成都截稿时间 2022年8月30日录用通知投稿后2周内收录检索 EI Scopus
爬虫从入门到精通(8)

文章目录一多进程和多线程介绍二普通爬虫三多线程爬虫 1 普通方法调用 2 线程类调用四多进程爬虫 1 普通方法调用 2 进程类写法五 gevent协程爬虫 1 gevent模块简介 2 安装和依赖 3 gevent协程爬虫

爬虫从入门到精通(8)

文章目录

一、多进程和多线程介绍

二、普通爬虫

三、多线程爬虫

1.普通方法调用

2.线程类调用

四、多进程爬虫

1.普通方法调用

2.进程类写法

五、gevent协程爬虫

1.gevent模块简介

2.安装和依赖

3.gevent协程爬虫示例

爬虫从入门到精通(8) 的相关文章

随机推荐

热门标签