scrapy中如何根据url过滤重复请求

2024-02-28

我正在使用 scrapy 和 CrawlSpider 为网站编写一个爬虫。

Scrapy 提供了一个内置的重复请求过滤器，可以根据 url 过滤重复请求。另外，我可以使用过滤请求rules爬行蜘蛛成员。

我想做的是过滤请求，例如：

http:://www.abc.com/p/xyz.html?id=1234&refer=5678

如果我已经访问过

http:://www.abc.com/p/xyz.html?id=1234&refer=4567

NOTE:refer 是一个不会影响我得到的响应的参数，所以我不关心该参数的值是否发生变化。

现在，如果我有一组累积所有ids我可以在回调函数中忽略它解析项（这是我的回调函数）来实现这个功能。

但这意味着当我不需要时，我至少仍在获取该页面。

那么我可以通过什么方式告诉 scrapy 它不应该根据 url 发送特定请求呢？

您可以编写自定义中间件来删除重复项并将其添加到设置中

import os

from scrapy.dupefilter import RFPDupeFilter

class CustomFilter(RFPDupeFilter):
"""A dupe filter that considers specific ids in the url"""

    def __getid(self, url):
        mm = url.split("&refer")[0] #or something like that
        return mm

    def request_seen(self, request):
        fp = self.__getid(request.url)
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + os.linesep)

然后你需要在settings.py中设置正确的DUPFILTER_CLASS

DUPEFILTER_CLASS = 'scraper.duplicate_filter.CustomFilter'

之后应该可以工作

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

Scrapy

scrapy中如何根据url过滤重复请求的相关文章

从终端调用时 uvicorn 不工作

我尝试通过 pip3 在系统上安装 uvicorn 这有效但是我无法从命令行运行相同的命令有关如何解决此问题的任何指示 Requirement already satisfied uvicorn in home vhawk19 loca
对 Python DataFrame 进行子集化

我正在从 R 过渡到 Python 我刚刚开始使用 Pandas 我有一个可以很好地子集化的 R 代码 k1 lt subset data Product p id Month lt mn Year yr select c Time Pro
Python 按文件夹模块导入

我有一个目录结构 example py templates init py a py b py a py and b py只有一个类名称与文件相同因为它们是猎豹模板纯粹出于风格原因我希望能够在中导入和使用这些类example py像
Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
WTForms 中的小数字段舍入

我有一个包含价格小数字段的表单如下所示 from flask ext wtf import Form import wtforms from wtforms validators import DataRequired from deci
更改Python pylab玫瑰/极坐标图中图例标题的字体大小

我正在尝试更改玫瑰图或极地图上现有图例标题的字体大小大部分代码是由不在的其他人编写的我已经添加 ax legend title legend title setp l get title fontsize 8 添加标题 legend
如何使用泛型类型的构造函数

如何使用 python 泛型类型的构造函数 T typing TypeVar T class MyClass typing Generic T def init self initialValue typing Iterable self
numpy 数组最快的保存和加载选项

我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作然而这些函数对于每个数组都需要几秒钟的时间是否有更快的方法来保存和加载
字母表中的加密和解密 - Python GCSE

我目前正在尝试为学校编写一个程序以便加密和解密输入的消息我需要加密或解密的消息仅在字母表中没有其他符号或密钥例如使用消息车加密输入的偏移量为 5 我希望它输出 afs 有人可以帮忙吗这是我目前的代码 def find offse
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
Python argparse store_true 并将可选选项存储在一个参数中[重复]

这个问题在这里已经有答案了我需要识别是否单独给出参数或带有可选字符串或两者都没有 parser add argument options parser parse args so prog py arg 应该存储进入选项 arg pro
图像堆栈的最大强度投影

我正在尝试重新创建该功能 max array 3 来自 MatLab 它可以获取 N 个图像的 300x300px 图像堆栈我在这里说图像因为我正在处理图像实际上这只是一个大的双数组 300x300xN 并创建一个 300x300
import numpy 和 import numpy as np 之间的区别

我明白如果可能的话应该使用 import numpy as np 这有助于避免由于命名空间引起的任何冲突但我注意到虽然下面的命令有效 import numpy f2py as myf2py 以下不 import numpy as np
具有条件的重复行 pandas dataframe python

我的数据框有问题我的 df 是 product power brand product 1 3 x 1500W brand A product 2 2x1000W 1x100W product 3 1x1500W 1x500W brand
在Python中引用不带换行符的长字符串

我正在尝试在 Python 中编写一个长字符串该字符串显示为 OptParser 选项的帮助项在我的源代码 py 文件中我想放置换行符以便我的代码不会花费新行但是我不希望这些换行符影响代码运行时该字符串的显示方式例如我想写
Tornado websocket handler ， self.close() 正在关闭连接而不触发 on_close() 方法

我是 python stackoverflow tornado 的新手所以请耐心等待纠正我我正在使用龙卷风开发实时应用程序当我在 Websocket 处理程序类中调用 self close 时 on close 方法不会启动这次我
从 sublime_plugin.WindowCommand 获取当前文件名

我开发插件sublime text 3 并想要获取当前打开的文件路径 absolute1 self window view file name 在哪里self is sublime plugin WindowCommand 但失败了 Att
检测图像是否损坏或损坏

我需要以编程方式检查用户在我的应用程序上选择作为壁纸的图像是否已损坏或损坏基本上我为用户提供了选择自己的图像作为壁纸的选项现在当图像加载时我只想检查它是否已损坏如果您正在寻找 PHP 解决方案而不是 javascript 解决方案
python 函数返回 javascript date.getTime()

我正在尝试创建一个简单的 python 函数它将返回与 javascript 相同的值new Date getTime 方法如所写here http www w3schools com js js dates asp javascrip
Python请求401错误但url在浏览器中打开

我正在尝试从这个位置提取 json https www nseindia com api option chain indices symbol BANKNIFTY https www nseindia com api option cha

随机推荐

在 postgresql 中连接两个 int 值

我有 7 个整数值分别为 3 1 3 4 4 5 4 位我必须将它们连接到一个整数即 24 位数字我试着这样做 create or replace function gen id int int int int int int in
Paypal REST API：无法将登录页面设置为计费

我正在使用 Paypal REST API 和 PHP SDK 为慈善机构构建捐赠功能我一直在尝试将登陆页面类型设置为结算但似乎没有任何变化这是我用于定义网络体验配置文件的代码根据http paypal github io Pay
如果代码覆盖率报告百分比较小，构建应该失败

我编写了一个 build xml 用于通过 phing 生成报告我在 build xml 中添加了以下命令来生成代码覆盖率报告
简单：如何用 php 替换“all Between”？ [复制]

这个问题在这里已经有答案了 string
SF：从 UTM 到纬度/经度

我有一组 UTM 度量点我想使用 sf 环境将其转换为纬度和经度小数点我的数据集如下所示 df lt data frame longitude c 4585434 4588904 4586694 latitude c 430060 8
如何从 github 拉取我的项目？

我在github上有一个项目我之前一直在做但是我清理了我的计算机我想知道我应该在我的用户名下调用哪个 git 命令来再次签出我的项目以便我可以将最新更改推送到我的帐户下的 github Git clone 是您正在寻找的命令 gi
Swift：仅返回类型不同的方法重载

我不断看到 Swift 类中定义了两种仅返回类型不同的方法我不习惯使用允许这样做的语言 Java C 等因此我寻找描述其在 Swift 中如何工作的文档我在任何地方都没有发现任何东西我本以为 Swift 书中会有完整的章节来介绍它
WPF - 当 ItemsSource 更改时重置 ListBox 滚动位置

我当前有一个 ListBox 其 ItemsSource 集合绑定到我的视图模型上的 IEnumerable 类型的属性当该 preoprty 的引用更改时列表框会按预期更新但是我有一个问题如果我有大量项目集合并滚动到列表框的底部
禁用 Laravel 中的速率限制器？

有没有办法禁用 Laravel 中每个单个路由的速率限制我正在尝试测试接收大量请求的端点但 Laravel 会随机开始响应 status 429 responseText Too Many Attempts 数百个请求使得测试变得非常
KeyVault 为何比标准存储更安全？

我试图了解 Azure Key Vault 或同样的 AWS KMS 提供的安全优势我了解密钥管理的好处即能够轻松轮换更改审核密钥访问但让我有点困惑的是它如何更安全据我了解如果我开发一个 Web 应用程序并想要保护我的连接字符
使用 cakephp 3 上传文件并将其存储在 blob 中

我知道在数据库中存储文件有点脏但我需要上传文件并将其存储到数据库 BLOB 中并且我没有找到任何有关它的文档也没有找到任何线索所以有关的任何帮助我们将不胜感激提前致谢大卫您不需要做任何特别的事情只需将要存储在适当的实体属性
在 $_POST 值中不使用引号、单引号和双引号[重复]

这个问题在这里已经有答案了可能的重复我应该对单引号使用 php 引号转义还是在数组中使用双引号 https stackoverflow com questions 2317959 should i use php quote escap
要上传到 Google 云端硬盘的 URL

有没有可以用来直接上传到 Google 云端硬盘的 URL 例如我的服务器上有一个文件http example com file doc我想将其上传到 Google Drive 如下所示 http google com upload ht
检查是否有元素包含特定的 css 样式

我想知道元素包含任何 css 样式的检查过程我有以下 html 代码 ul li text 1 li li text 2 li li text 3 li ul 我想找出样式左侧为 0px 的 li 然后想对该 li 应用更多样式 Than
Subsonic - 如何使用 SQL 架构/所有者名称作为命名空间的一部分？

我刚刚开始使用 Subsonic 2 2 到目前为止印象深刻认为它会节省我一些认真的编码时间在我开始全职使用它之前尽管有些事情困扰着我我想解决一下在我当前的数据库 SQL2008 数据库中我已按架构所有者名称将表视图 sp
是否可以通过插件在 Firefox 上设置配置设置

我正在寻找一种从网络打印而不提示打印对话框的方法我刚刚提出了问题 https stackoverflow com questions 5809102 how to print from web without prompting a pr
如何进行函数复合？

在相当不耐烦地等待 Java 8 发布并阅读精彩文章之后Brian Goetz 的 Lambda 状态文章 http cr openjdk java net briangoetz lambda lambda state final htm
操作必须使用可更新查询/SQL - VBA

我正在尝试创建一个非常动态的宏它将根据用户的选择更新数据库中的不同表当然每个表都有不同的标题和信息我在更新时遇到问题当用户将新记录添加到旧表时这是代码的一部分问题是当它到达 update 时我收到操作必须使用可更新查询错
Hibernate：为什么 FetchType.LAZY 注释的集合属性急切加载？

我尝试实现简单的one to many协会使用调试模式检查项目对象后我发现List
scrapy中如何根据url过滤重复请求

我正在使用 scrapy 和 CrawlSpider 为网站编写一个爬虫 Scrapy 提供了一个内置的重复请求过滤器可以根据 url 过滤重复请求另外我可以使用过滤请求rules爬行蜘蛛成员我想做的是过滤请求例如 http ww

scrapy中如何根据url过滤重复请求

scrapy中如何根据url过滤重复请求 的相关文章

随机推荐

热门标签

scrapy中如何根据url过滤重复请求的相关文章