Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥

2023-11-19

中间件

作用：批量拦截请求和响应
爬虫中间件
下载中间件(推荐)
- 拦截请求：
  - 篡改请求url
  - 伪装请求头信息
    - UA
    - Cookie
  - 设置代理（重点）
- 拦截响应：
  - 篡改响应数据

详解：

我们创建个工程middlePro,爬取百度和搜狗。

import scrapy

class MiddleSpider(scrapy.Spider):
    name = 'middle'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.baidu.com/', 'https://www.sogou.com']

    def parse(self, response):
        print(response)

然后我们看下中间件这个文件middlewares.py

在这里插入图片描述

这里我们不需要爬虫中间件，把它删除。主要看下载中间件里的内容:

下载中间件MiddleproDownloaderMiddleware中也有一个不需要的方法和注释，删除掉，只需留下下面三个需要重写的方法：

在这里插入图片描述

# 拦截所有(正常&异常)的请求
# 参数：request就是拦截到的请求，spider就是爬虫类实例化的对象
def process_request(self, request, spider):
    return None

# 拦截所有的响应对象
# 参数：respone拦截到的响应对象,request响应对象对应的请求对象
def process_response(self, request, response, spider):
    return response

# 拦截异常的请求
# 参数：request就是拦截到的发生异常的请求
# 作用：想要将异常的请求进行修正，将其变成正常的请求，然后对其进行重新发送
def process_exception(self, request, exception, spider):
  	pass

打印之前，需要在配置文件settings.py中设置中间件：

# 打开下载中间件
DOWNLOADER_MIDDLEWARES = {
    'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
}

在这里插入图片描述

管道也打开。但这里先不设置UA和ROBOTSTXT_OBEY = True。

运行下：

在这里插入图片描述

我们看到网页被请求中间件和响应中间件正常拦截了（不然不会打印）。其中搜狗没有异常拦截，百度有异常拦截。

我们设置ROBOTSTXT_OBEY = False,再去运行下：

在这里插入图片描述

这时，因为我们忽略了robots协议，就都没有异常拦截了

举例：

process_exception:

    # 代理的话，需要写在process_exception方法中
  def process_exception(self, request, exception, spider):
        # 请求的ip被禁掉，该请求就会变成一个异常单 请求
        # request.meta['proxy']='http://ip:port' # 设置代理
        print('process_exception()')
        return  request # 将异常单 请求修正后将其进行重新发送

process_response:

def process_response(self, request, response, spider):
    print('process_response()')
    # 请求头伪装,一般不用，只是举例
    request.headers['User-Agent']='xxx'
    request.headers['Cookie'] = 'xxx'
    return response

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

C语言在线代码运行编译工具推荐

C语言在线运行编译是一款可在线编程编辑器在编辑器上输入C语言代码点击运行可在线编译运行C语言 C语言代码在线运行调试 C语言在线编译可快速在线测试您的C语言代码在线编译C语言代码发现是否存在错误如果代码测试通过将会输出编译后
V2017+CMake+DCMTK编译安装帮助文档

转载自https blog csdn net annjeff article details 80899762 一前言最近由于项目需要开始接触DCMTK库作为一个小白在网上一顿狂搜看了几天的CSDN博客终于有了一点头绪在这个过
rpc、gRPC快速入门，python调用，protobuf协议

什么是rpc grpc又是什么什么是RPC 远程过程调用协议RPC Remote Procedure Call Protocol RPC是指远程过程调用也就是说两台服务器A B 一个应用部署在A服务器上想要调用B服务器上应用提供的函数
JavaScript 记录易错点

1 判断是否是数组的方法 Array isArray 2 获取数组长度用属性 length 不是 length 3 数组添加或删除元素 arrayObject splice index howmany item1 itemX index 必
docker 部署springboot(成功、截图)

1 新建sringboot工程并打包 2 编写Dockerfile文件基础镜像使用java FROM openjdk 8 作者 MAINTAINER feng VOLUME 指定了临时文件目录为 tmp 其效果是在主机 var lib d
出行者信息服务器,出行者信息服务系统解析.ppt

出行者信息服务系统解析 ppt ppt 制作陈倩 ppt 审查侯湘怡讲解人张怀韧引言出行者信息服务系统一出行者信息服务系统综述二出行者信息系统的系统构成及结构框架三出行者信息系统的作用特点与效果四出行者信息系统
Databend 存储架构总览

目的通过本篇文章带大家理解一下 Databend 的存储结构 Databend 内置的 Table 引擎为 Fuse table engine 也是接下来要花重点篇幅要讲的另外 Databend 还支持外置的 Hive table 及
win10病毒和威胁防护无法重新启动解决方法

1 检查电脑中是否安装了任何的第三方反病毒软件例如 360 腾讯电脑管家等如果有的话麻烦您将其卸载卸载完毕后重启设备再看一下病毒和威胁防护能否正常启动 2 按 Windows 徽标键 X 启动 Windows PowerShell
nofollow标签的作用 nofollow标签添加方法

nofollow标签的作用 nofollow标签添加方法 nofollow标签是seo优化常用的一个标签它的作用是告诉搜索引擎不要追踪这个链接也就是阻止搜索引擎向这个网页或链接传递权重 nofollow有两种写法 1 将 nofollo
第三章. Pandas入门—索引设置

第三章 Pandas入门 3 8 索引设置 1 索引的作用 1 更方便的查询数据 2 使用索引可以提升查询性能如果索引是唯一的 Pandas会使用哈希表优化查找数据的时间复杂度为O 1 如果索引不是唯一的但是有序 Pandas会使用二
梯度下降函数理解

r d 可以理解为有d的参数进行约束或者 D 向量有d个维度咱们将楼主的给的凸优化结构细化一点别搞得那么抽象不好解释其中咱们可以令 f ok 这个先介绍到这里至于f x 为什么用多项式的方式去模拟相信也是很多人的疑问很简单
组织关系图谱

div style width 100 height 800px div
git强制提交本地分支覆盖掉远程分支

语法比较简单命令如下 git push origin 分支名 force 举个栗子 git push origin V2 2 3 force 运行结果 Total 0 delta 0 reused 0 delta 0 To http 19
golang-bufio 缓冲扫描

前面两篇博客介绍了 bufio 包中的缓冲读和写 bufio go 下面再来介绍一下缓冲扫描 scan go 这个扫描的是用来对缓存读的更高级封装提供了一些更易用的方法缓冲扫描 Scanner 提供了一个方便的接口来读取数据例如使用
flask-会话机制

使用flask bootstrap 步骤 1 pip install flask bootstrap 2 进行配置 from flask bootstrap import Bootstrap bootstrap Bootstrap 在 in
kafka 监控工具--CMAK

CMAK previously known as Kafka Manager is a tool for managing Apache Kafka clusters See below for details about the name
二分法总结（超级详细）附带图解

文章目录 1 二分法 2 时间复杂度 3 二分法的套路 3 1 整数的二分 3 2 实数的划分四相关习题 4 1 数的范围 4 2 数的三次方根 1 二分法二分查找是一个时间效率极高的算法尤其是面对大量的数据时其查找效率是极高时
python读取npy文件时，太大不能完全显示，其解决方法

python读取npy文件时太大不能完全显示其解决方法当用python读取npy文件时会遇到npy文件太大用print函数打印时不能完全显示如以下情况其解决办法是添加一行代码 np set printoptions thre
2023汽车行业数字化转型报告

目前汽车行业正经历百年未有之大变局在新一轮科技革命以及减碳能源形势变革智能化变革推动下汽车产业正由功能时代向智能时代演进由以车为中心向以用户为中心转变汽车的产品属性产业价值链和生态结构都面临被颠覆新的汽车市场格局正在
Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥

中间件作用批量拦截请求和响应爬虫中间件下载中间件推荐拦截请求篡改请求url 伪装请求头信息 UA Cookie 设置代理重点拦截响应篡改响应数据详解我们创建个工程middlePro 爬取百度和搜狗 import sc

Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥

中间件

Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥 的相关文章

随机推荐

热门标签

Python爬虫从入门到精通:（33）scrapy中间件_Python涛哥的相关文章