Scrapy源码分析之Dupfilters模块(第二期)

2023-11-12

大家好，我是TheWeiJun，欢迎来到我的公众号。今天给大家带来Scrapy源码分析之Dupfilters模块源码详解，希望大家能够喜欢。如果你觉得我的文章内容有价值，记得点赞+关注！

特别声明：本公众号文章只作为学术研究，不用于其它用途。

① 问题思考

② 案例分享

③ 源码分析

④ 源码重写

⑤ 总结分享

一、问题思考

Question

①我们在使用Scrapy框架的时候，一直在好奇Scrapy是如何对每一个请求进行指纹过滤的？

Question

②基于Scrapy原来的去重机制，如果要实现一个增量式爬虫。我们该如何实现呢？此刻默认的去重机制肯定无法满足我们的需求！

Question

③如果我不用Scrapy-Redis分布式做爬虫抓取，采用Scrapy，每次抓取完成后，指纹全部丢失，我们该如何将指纹和Scrapy-Redis一样进行持久化存储呢？当下一次再启动的时候，它依然存在每一个请求的指纹？

Question

④scrapy.Request请求参数设置为dont_filter=True,即可忽略去重，这个机制是如何触发的？

那么带着这些问题，我们对Scrapy的源码进行分析吧，我相信这篇文章会让大家受益匪浅！

二、案例分析

1. 源码分析前，我们还是和以往一样，构建一个小的demo。代码结构如何：

spiders目录下代码：

# -*- coding: utf-8 -*-import scrapyclass BaiduSpider(scrapy.Spider):    name = "baidu"    allowed_domains = ["baidu.com"]    start_urls = ['http://baidu.com/', 'http://baidu.com/']    def start_requests(self):        for index, url in enumerate(self.start_urls):            yield scrapy.Request(url=url, callback=self.parse, meta={"index": index})    def parse(self, response):        print(response.meta["index"], "-------------")

说明：为了更好的了解源代码，我们需要做一个简单的测试，如上图代码所示。启动爬虫后，输出如下：

结论：index为1并没有被打印出来，是因为触发了scrapy默认的去重机制导致，这个时候我们会发现scrapy的stats中间件将dupefilter/filtered的值设置为1。

2. 接下来换个思路进行B轮测试。测试方案为将：dont_filter=True，代码如下：

# -*- coding: utf-8 -*-import scrapyclass BaiduSpider(scrapy.Spider):    name = "baidu"    allowed_domains = ["baidu.com"]    start_urls = ['http://baidu.com/', 'http://baidu.com/']    def start_requests(self):        for index, url in enumerate(self.start_urls):            yield scrapy.Request(url=url, callback=self.parse, meta={"index": index}, dont_filter=True)    def parse(self, response):        print(response.meta["index"], "-------------")

输出如下：

结论：开启dont_filter=True,则不会对请求url进行去重，并且不会触发去重统计的信息。

探索：通过这个小的实验，带着好奇心，接下来我们需要对scrapy的源码进行分析了。

三、源码分析

1. 查看官网文档，搜索指定的模块dupefilter，搜索结果如下：

通过阅读文档，我们可以确定scrapy默认使用的去重机制：

1. scrapy.dupefilters.RFPDupefilter在settings.py模块中默认是开启状态！默认RFPDupeFilter基于使用该scrapy.utils.request.request_fingerprint函数的请求指纹进行过滤。

2. 为了更改检查重复项的方式，您可以子类化RFPDupeFilter并覆盖其request_fingerprint方法。此方法应接受scrapyRequest对象并返回其指纹。

2. 源码阅读及分析

先定位到scrapy默认配置去重机制的参数，如下：

搜索指定关键字，附上源码如下：

import loggingimport osfrom typing import Optional, Set, Type, TypeVarfrom twisted.internet.defer import Deferredfrom scrapy.http.request import Requestfrom scrapy.settings import BaseSettingsfrom scrapy.spiders import Spiderfrom scrapy.utils.job import job_dirfrom scrapy.utils.request import referer_str, request_fingerprintBaseDupeFilterTV = TypeVar("BaseDupeFilterTV", bound="BaseDupeFilter")class BaseDupeFilter:    @classmethod    def from_settings(cls: Type[BaseDupeFilterTV], settings: BaseSettings) -> BaseDupeFilterTV:        return cls()    def request_seen(self, request: Request) -> bool:        return False    def open(self) -> Optional[Deferred]:        pass    def close(self, reason: str) -> Optional[Deferred]:        pass    def log(self, request: Request, spider: Spider) -> None:        """Log that a request has been filtered"""        passRFPDupeFilterTV = TypeVar("RFPDupeFilterTV", bound="RFPDupeFilter")class RFPDupeFilter(BaseDupeFilter):    """Request Fingerprint duplicates filter"""    def __init__(self, path: Optional[str] = None, debug: bool = False) -> None:        self.file = None        self.fingerprints: Set[str] = set()        self.logdupes = True        self.debug = debug        self.logger = logging.getLogger(__name__)        if path:            self.file = open(os.path.join(path, 'requests.seen'), 'a+')            self.file.seek(0)            self.fingerprints.update(x.rstrip() for x in self.file)    @classmethod    def from_settings(cls: Type[RFPDupeFilterTV], settings: BaseSettings) -> RFPDupeFilterTV:        debug = settings.getbool('DUPEFILTER_DEBUG')        return cls(job_dir(settings), debug)    def request_seen(self, request: Request) -> bool:        fp = self.request_fingerprint(request)        if fp in self.fingerprints:            return True        self.fingerprints.add(fp)        if self.file:            self.file.write(fp + '\n')        return False    def request_fingerprint(self, request: Request) -> str:        return request_fingerprint(request)    def close(self, reason: str) -> None:        if self.file:            self.file.close()    def log(self, request: Request, spider: Spider) -> None:        if self.debug:            msg = "Filtered duplicate request: %(request)s (referer: %(referer)s)"            args = {'request': request, 'referer': referer_str(request)}            self.logger.debug(msg, args, extra={'spider': spider})        elif self.logdupes:            msg = ("Filtered duplicate request: %(request)s"                   " - no more duplicates will be shown"                   " (see DUPEFILTER_DEBUG to show all duplicates)")            self.logger.debug(msg, {'request': request}, extra={'spider': spider})            self.logdupes = False        spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

分析：和官方文档的说明一致，RFPDupeFilter类继承了BaseDupeFilter，实现了去重机制。接下来对源码进行内容拆分讲解。

__init__函数：

def __init__(self, path: Optional[str] = None, debug: bool = False) -> None:    self.file = None        self.fingerprints: Set[str] = set() # 用python set做去重    self.logdupes = True     self.debug = debug # 是否开启DUPEFILTER_DEBUG    self.logger = logging.getLogger(__name__)        if path: # 将本地化保存的requests.seen文件中的fp指纹加载到set中。        self.file = open(os.path.join(path, 'requests.seen'), 'a+')        self.file.seek(0)        self.fingerprints.update(x.rstrip() for x in self.file)

from_settings函数：

@classmethoddef from_settings(cls: Type[RFPDupeFilterTV], settings: BaseSettings) -> RFPDupeFilterTV:    debug = settings.getbool('DUPEFILTER_DEBUG')    return cls(job_dir(settings), debug)"""默认情况下，RFPDupeFilter仅记录第一个重复请求。设置DUPEFILTER_DEBUG为True将使其记录所有重复的请求。ob_dir(settings)为读取本地path路径，JOBDIR = "路径地址"，代码如下："""def job_dir(settings: BaseSettings) -> Optional[str]:    path = settings['JOBDIR']    if path and not os.path.exists(path):        os.makedirs(path)    return path

其他方法：

def request_seen(self, request: Request) -> bool:    fp = self.request_fingerprint(request) # 计算指纹    if fp in self.fingerprints: # 判断指纹是否在set中。        return True    self.fingerprints.add(fp) # 不存在就添加指纹    if self.file: # 持久化指纹        self.file.write(fp + '\n')    return Falsedef request_fingerprint(self, request: Request) -> str:    return request_fingerprint(request) # 调用封装好的指纹方法，此刻两个方法名一致，注意：不是调用的同一个方法    # 下面会单独分析此方法def close(self, reason: str) -> None:    if self.file: # 如果有文件，关闭文件        self.file.close()def log(self, request: Request, spider: Spider) -> None:    # 输出日志，默认情况下，RFPDupeFilter仅记录第一个重复请求。设置DUPEFILTER_DEBUG为True将使其记录所有重复的请求。    if self.debug:        msg = "Filtered duplicate request: %(request)s (referer: %(referer)s)"        args = {'request': request, 'referer': referer_str(request)}        self.logger.debug(msg, args, extra={'spider': spider})    elif self.logdupes:        msg = ("Filtered duplicate request: %(request)s"               " - no more duplicates will be shown"               " (see DUPEFILTER_DEBUG to show all duplicates)")        self.logger.debug(msg, {'request': request}, extra={'spider': spider})        self.logdupes = False    # 记录重复的请求个数    spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

request_fingerprint(request)函数：

"""由于代码过多，我只粘贴部分核心源码"""def request_fingerprint(    request: Request,    include_headers: Optional[Iterable[Union[bytes, str]]] = None,    keep_fragments: bool = False,) -> str:    """    Return the request fingerprint.    """    headers: Optional[Tuple[bytes, ...]] = None    if include_headers:        headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers))    cache = _fingerprint_cache.setdefault(request, {})    cache_key = (headers, keep_fragments)    if cache_key not in cache:        fp = hashlib.sha1()        fp.update(to_bytes(request.method))        fp.update(to_bytes(canonicalize_url(request.url, keep_fragments=keep_fragments)))        fp.update(request.body or b'')        if headers:            for hdr in headers:                if hdr in request.headers:                    fp.update(hdr)                    for v in request.headers.getlist(hdr):                        fp.update(v)        cache[cache_key] = fp.hexdigest()    return cache[cache_key]  # 读取request：method、url、body or ""、headers进行sha1加密 # 加密后的内容放到cache字典中，然后最后返回fp。 # request_seen函数最后将fp添加到set()中。 # 默认不去重headers。

在scrapy中，当一个请求被spider发起时，它会先经过去重器校验，校验的过程大致如下：

1.对发起的请求的相关信息，通过特定的算法(sha1)，生成一个请求指纹2.判断这个指纹是否存在于指纹集合中.3.如果在指纹集合，则表示此请求曾经执行过，舍弃它.4.如果不在，则表示此为第一次执行，将指纹加入到指纹集合中，并将请求加入到请求队列中，等待调度.

scrapy默认的调度器是scrapy.core.scheduler.Scheduler，其中主要的去重代码都在enqueue_request这个方法里，代码如下：

def enqueue_request(self, request):    if not request.dont_filter and self.df.request_seen(request):        self.df.log(request, self.spider)        return False    dqok = self._dqpush(request)    if dqok:        self.stats.inc_value('scheduler/enqueued/disk', spider=self.spider)    else:        self._mqpush(request)        self.stats.inc_value('scheduler/enqueued/memory', spider=self.spider)    self.stats.inc_value('scheduler/enqueued', spider=self.spider)    return True"""scrapy的Request对象如果设置dont_filter=True,则不会去重。我们知道request传入dont_filter=True时会不去重，这个逻辑就是在这里判断的。self.df.request_seen(request)在上面中我们已经提到。"""

四、源码重写

# settings.py自定自定义模块DUPEFILTER_CLASS = 'scrapy_demo.dupfilters.RFPDupeFilter'# 假设对首页域名不去重,可以这样设置,直接重写request_seen即可。def request_seen(self, request: Request) -> bool:    fp = self.request_fingerprint(request)    path = furl(request.url).pathstr    if path and len(path) == 1:        return False    if fp in self.fingerprints:        return True    self.fingerprints.add(fp)    if self.file:        self.file.write(fp + '\n')    return False

五、总结分享

总结：如果为了自定义某些功能，建议大家从scrapy运行流程图去入手，即可定位到需要重写的模块范围，然后查看官网文档进行阅读即可。

作者简介

我是TheWeiJun，有着执着的追求，信奉终身成长，不定义自己，热爱技术但不拘泥于技术，爱好分享，喜欢读书和乐于结交朋友，欢迎扫我微信与我交朋友

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

python

爬虫

Scrapy源码分析之Dupfilters模块(第二期) 的相关文章

使用请求验证 SSL 证书

我正在尝试验证 SSL 但它不起作用我在浏览器上访问了我想要访问的机密网站在 Chrome 上我单击了储物柜 gt 证书 gt 详细信息 gt 复制到文件 gt base64 gt cert cer 我的代码是 test reques
翠儿。让流永远运行

我对 tweepy python 库比较陌生我想确保我的流 python 脚本始终在远程服务器上运行因此如果有人能够分享如何实现这一目标的最佳实践那就太好了现在我正在这样做 if name main while True try
将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
在Python3.6中调用C#代码

由于完全不了解 C 编码我希望在我的 python 代码中调用 C 函数我知道有很多关于同一问题的问答但由于一些奇怪的原因我无法从示例 python 模块导入简单的 c 类库以下是我所做的事情 C 类库设置我使用的是 VS 20
一次将Python dict的内容分配给多个变量？

我想做这样的事情 def f return a 1 b 2 c 3 a b f or a b f IE 这样 a 被分配为 1 b 被分配为 2 并且 c 是未定义的这与此类似 def f return 1 2 a b f 依赖于变量名称
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

linux sed -i replace text/sed 跟expression替换文本

1 生成测试文本 peng peng cat gt aa txt aa bb cc dd ee C 2 原本的方案用vi替换文本 aa替换成abc s aa abc 3 用sed命令替换文本 replace aa with abc at
交换两个变量的值(包括字符串的交换)

例交换两个变量的值输入两个整型变量a和b 设计一个交换函数将其交换后再输出注意不能直接输出b和a 错误代码 include
适配任何数据结构的异步Excel生成(企业级开发)

文章目录前言一 Java操作Excel的基础知识二测试准备三实现源码四功能测试总结源码前言背景由于公司的excel生成过于缓慢有时生成一个excel文件需要等待几十秒甚至几分钟在等待的时候用户不能跳转其他页面
YOLOv4：目标检测的最佳速度和精度

YOLOv4 目标检测的最佳速度和精度摘要随着深度学习的发展目前已经出现了很多算法或者训练技巧 tricks 来提升神经网络的准确率在实际测试中评价一个算法的好坏优劣主要看两点一是能否在大规模的数据集中起作用 work 二是是否
机器人教育培养孩子的逻辑思维

孩子拥有好的思维逻辑是每个父母梦寐以求的怎样锻炼孩子的思维逻辑能力也是每个父母头疼的事情格物斯坦小坦克想说其实培养孩子的思维能力是有迹可循的了解顺序概念事物按照大小硬软胖瘦等会有一个顺序如小朋友们有时候会按高矮站队这些
华为OD机试-机器人走迷宫

题目描述机器人走一个迷宫给出迷宫的x和y x y的迷宫并且迷宫中有障碍物输入k表示障碍物有k个并且会将障碍物的坐标挨个输入机器人从0 0的位置走到x y的位置并且只能向x y增加的方向走不能回退如代码类注释展示的样子表示可
因果4-因果模型

上一章我们从统计学角度学习了贝叶斯网络中点与点的关系并没有真正涉及因果的重要内容因为基于的都是条件概率没有牵扯到干预而干预是因果很重要的操作这一章我们从干预开始进一步学习如何识别因果图中的因果量首先让我们回顾并正式定义第一章中
【2021】最新的ECMAScript标准定义了8种数据类型

最新的ECMAScript标准定义了8种数据类型一七种基本数据类型 Boolean Null Undefined Number String Symbol ES6新增一种实例是唯一且不可改变的数据类型 Bigint 任意精度的整数可
CiteSpace可视化出图：制作聚类图、时间线图、时区图、Landscape视图、地理可视化图等多种可视化绘制。

CiteSpace 是一款优秀的文献计量学软件能够将文献之间的关系以科学知识图谱的方式可视化的展现在操作者面前科研人员多多少少都会用到一些但是 CiteSpace 是基于 Java 开发旧版本需要安装 Java 运行环境才能使用
ADC误差

本文转载自 http blog csdn net tianhen791 article details 38736217 动态测试关注的是器件的传输和性能特征即采样和重现时序变化信号的能力相比之下线性测试关注的则是器件内部电路的误差
IntelliJ IDEA和Eclipse快捷键对比总结

IntelliJ IDEA和Eclipse快捷键对比总结 Eclipse Oxygen Release 4 7 0 IntelliJ IDEA 2017 3 4 Ultimate Edition 提醒一点需要注意和其他软件的热键冲突比如
opencore 启动总是在win_刷黑苹果之后无法进入BIOS设置opencore

子方有话子方的配置是是华硕B450MK AMD R5 2600 GT710 在完成子方黑苹果系统的安装后子方把引导转到了硬盘没几次后子方发现无法进入BIOS设置不过可以通过F8键进入启动设置选择启动windows 但不管通过什么
SpringBoot集成redis（3）

SpringBoot集成redis 3 Redisson方式实现分布式锁文章目录 SpringBoot集成redis 3 Redisson方式实现分布式锁 TOC 前言一 Redisson是什么二集成步骤 1 依赖引入 2 文件配置
mysql的流程控制if与case

mysql中常用的流程控制有两种 1 if语句基本语法 IF expr v1 v2 如果表达式 expr 成立返回结果 v1 否则返回结果 v2 用法跟三目运算符类似适用只有两种结果案例 SELECT IF 1 gt 0 正确错
疯壳AI语音及人脸识别教程2-4串口

目录 1 1寄存器 1 1 2实验现象 17 视频地址 https fengke club GeekMart su f9cTSxNsp jsp 串口官方QQ群 457586268 串行接口分为异步串行接口和同步串行接口两种异步串行接口统
这100套毕设项目，是给计算机系学弟学妹在毕业季的一波镇定剂！练手收藏

又到了一年一度的毕业季了有憧憬社会的也有怀念校园生活的不管如何我们都要努力向前迎接变化这次小编整理的100套Java毕设项目给正在发愁的你和将来要项目练手的你一波助力具体内容目录给大家看看希望可以帮到你需要更多学习方式和资
[论文阅读] (28)李沐老师视频学习——1.研究的艺术·跟读者建立联系

娜璋带你读论文系列主要是督促自己阅读优秀论文及听取学术讲座并分享给大家希望您喜欢由于作者的英文水平和学术能力不高需要不断提升所以还请大家批评指正非常欢迎大家给我留言评论学术路上期待与您前行加油前一篇文章介绍AAAI20腾
depends工具查看exe和dll依赖关系

应用场景在使用QT等图形用户界面应用程序开发框架开发Windows程序时通常需要将写到的程序发布到其它计算机中进使用在使用Qt发布程序时虽然使用windeployqt工具能够自动打包好大部分依赖库但还是难免会漏掉一些第三方库导致发
C#学习05-类简介与派生继承

基本概念类是一种数据结构它可以包含数据成员函数成员以及嵌套类型 C 中类的声明 C 中类的声明即定义不同于c 中声明与定义是分开的 C 类构造函数类的构造函数是类的一个特殊的成员函数当创建类的新对象时执行构造函数的名称与类
Scrapy源码分析之Dupfilters模块(第二期)

大家好我是TheWeiJun 欢迎来到我的公众号今天给大家带来Scrapy源码分析之Dupfilters模块源码详解希望大家能够喜欢如果你觉得我的文章内容有价值记得点赞关注特别声明本公众号文章只作为学术研究不用于其它用途

Scrapy源码分析之Dupfilters模块(第二期)

Scrapy源码分析之Dupfilters模块(第二期) 的相关文章

随机推荐

热门标签