在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？

2023-11-22

这是一个简单的 scrapy 蜘蛛

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["https://www.dmoz.org"]
    start_urls = ('https://www.dmoz.org/')

    def parse(self,response):
        yield scrapy.Request(self.start_urls[0],callback=self.parse2)

    def parse2(self, response):
        print(response.url)

当您运行程序时，parse2方法不起作用，并且不打印response.url。然后我在下面的线程中找到了解决方案。

为什么我的第二个请求没有在我的 scrapy 蜘蛛的解析方法中被调用

只是我需要在请求方法中添加 dont_filter=True 作为参数才能使 parse2 函数工作。

yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)

但在 scrapy 文档和许多 youtube 教程中给出的示例中，他们从未在 scrapy.Request 方法中使用 dont_filter = True 参数，并且他们的第二个解析函数仍然有效。

看看这个

def parse_page1(self, response):
    return scrapy.Request("http://www.example.com/some_page.html",
                      callback=self.parse_page2)

def parse_page2(self, response):
    # this would log http://www.example.com/some_page.html
    self.logger.info("Visited %s", response.url)

为什么我的蜘蛛不能工作，除非添加 dont_filter=True ？我究竟做错了什么？我的蜘蛛在第一个示例中过滤了哪些重复链接？

附：我可以在上面发布的 QA 线程中解决这个问题，但除非我有 50 的声誉，否则我不允许发表评论（可怜的我！！）

简短回答：您正在提出重复的请求。 Scrapy 内置了重复过滤，默认情况下处于打开状态。这就是为什么parse2没有被叫到。当你添加它时dont_filter=True，scrapy不会过滤掉重复的请求。那么这次请求就被处理了。

更长的版本：

在Scrapy中，如果你设置了start_urls或者有方法start_requests()定义后，蜘蛛会自动请求这些 url 并将响应传递给parsemethod 这是用于解析请求的默认方法。现在你可以从这里产生新的请求，这些请求将再次被 Scrapy 解析。如果你没有设置回调，parse方法将再次使用。如果您设置了回调，则将使用该回调。

Scrapy 还有一个内置的过滤器，可以阻止重复的请求。也就是说，如果 Scrapy 已经抓取了一个站点并解析了响应，即使您使用该 url 生成另一个请求，scrapy 也不会处理它。

在你的情况下，你有网址start_urls。 Scrapy 以该 url 开头。它抓取该网站并将响应传递给parse。里面那个parse方法，您再次向同一个 url（scrapy 刚刚处理过的）发出请求，但这次使用parse2作为回调。当产生此请求时，scrapy 会将其视为重复项。因此它会忽略该请求并且从不处理它。所以没有电话parse2被制成。

如果您想控制应处理哪些网址以及要使用哪个回调，我建议您覆盖start_requests()并返回一个列表scrapy.Request而不是使用单个start_urls属性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

Scrapy

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？的相关文章

每个 start_url 已抓取多少个项目

我使用 scrapy 抓取 1000 个 url 并将抓取的项目存储在 mongodb 中我想知道每个网址找到了多少个项目从 scrapy 统计数据我可以看到 item scraped count 3500但是我需要分别对每个 sta
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
Javascript 链接在 selenium excel vba 中没有响应

我正在尝试做这样一行点击 javascript 链接的操作 FindElementById ctl00 ContentPlaceHolder1 LinkButton4 WaitDisplayed True 3000 Click 这条线没有任
BaseSpider 和 CrawlSpider 的区别

我一直在尝试理解在网页抓取中使用 BaseSpider 和 CrawlSpider 的概念我已阅读docs http doc scrapy org en latest topics spiders html但没有提及BaseSpider
在 Mac OS x 10.7.5 中运行 Scrapy 所需的文件，使用 Python 2.7.3 IEPD_free（32 位）

我是第一次测试 scrapy 使用命令安装后 sudo easy install U scrapy 一切似乎都运行正常但是当我运行时 scrapy startproject tutorial 我得到以下信息 luismacbookpro
Golang 网络爬虫 NTLM 身份验证

Golang 网络抓取工具需要从经过 NTLM 验证的网页中提取信息有了有效的用户名和密码网络抓取工具如何与服务器进行 NTLM 4 次握手以获得对后面受保护网页的访问权限 url username password http www
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
Scrapy：在调用之间保存cookie

有没有办法在 scrapy 爬虫的调用之间保留 cookie 目的网站需要登录然后通过 cookie 维持会话我宁愿重复使用会话也不愿每次都重新登录请参阅有关 cookie 的文档常见问题解答入口 http doc scrapy
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
Puppeteer 的行为与开发者控制台不同

我正在尝试使用 Puppeteer 提取此页面的标题 https www nordstrom com s zella high waist studio pocket 7 8 leggings 5460106 https www nords
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
如何从 ISI Web of Knowledge 检索有关期刊的信息？

我正在从事一些预测文章引用计数的工作我遇到的问题是我需要 ISI Web of Knowledge 中有关期刊的信息他们逐年收集这些信息期刊影响因子特征因子但无法一次下载所有一年期期刊信息只有标记全部选项该选项始终标记列表
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class

随机推荐

如何将WebView设置为非全屏？

我正在尝试在我的 Android 应用程序中使用 WebView 我正在代码端而不是 XML 创建我的 webview 我的问题是当我调用 webview 的 loadUrl 方法时 webview 进入全屏模式如何保持 webvie
尝试编译此代码是否会导致 IDE 终止或编译器无法运行？

提防Exit内联函数中的命令用法我这里一直使用Delphi XE3 Symptom 在某些情况下当调用包含以下内容的内联函数时Exit命令以及返回值使用内联函数的directly in WriteLn 编译器报告错误消息 dcc 退出
二进制 XML 文件第 8 行：膨胀类片段时出错，Google 地图

在此应用程序中我尝试添加功能性 V2 谷歌地图我已经查看了大多数关于创建活动获取地图密钥以及创建 xml 文件的教程以尝试看看我是否错过了任何步骤我已经完成了 4 次但事实并非如此好像我错过了任何一步 Here是我使用的网站当
“SecretKeyFactory 不可用”是什么意思？

这有什么问题吗 for Object obj java security Security getAlgorithms Cipher System out println obj javax crypto SecretKeyFactory
如何将颜色条位置向右移动

I draw a scatter chart as below 代码是 sc plt scatter x y marker o s size r c clr vmin lb vmax ub cmap mycm alpha 0 65 cbar
在sql存储过程中传递表名

是否可以将表名作为输入参数传递给存储过程例如 create procedure test tablename char 10 as begin select from tablename end go 我知道这行不通那么如果我想将表名
iOS 实时确定名片的角点

我想实现像这个应用程序这样的名片检测功能 https scanbot io 相机应检测到名片并自动拍摄它的照片仅名片我的想法是使用BradLarson s GPUImage库检测角点使用 Harris 角点检测算法计算获得的角点的
使用 ClosedXML C# 库，在尝试保存时如何找出导致此错误的数据

我有一个 C 应用程序可以使用以下命令导出到 Excel封闭XML 它工作正常但遇到了一个问题当我点击时 var ms new MemoryStream workbook SaveAs ms 我得到一个例外 hexadecimal v
名为 Tuple 的 C# 可以用作 MVC 页面模型类型吗？

在 C 7 中您可以命名元组 var foo Name Joe Age 42 如果我使用以下方法将其传递给 MVC 模型 return View foo 那么cshtml文件中应该使用什么语法来声明模型呢虽然这不起作用但类似 mode
有人可以解释一下 Big-Oh 如何与求和一起使用吗？

我知道这严格来说不是一个编程问题但它is一个计算机科学问题所以我希望有人能帮助我 I ve been working on my Algorithms homework and figuring out the Big Oh Big O
如何通过另一个计算列使用一个计算列

我在 Sqlite 中有一个查询涉及复杂的列计算比方说 SELECT 1 1 AS a 我想将此计算选择为a 但我还需要将其用作另一个计算的组成部分 SELECT 1 1 AS a a 2 AS b 不幸的是这会产生错误 Error no
是否可以使用 Oboe 库同时在 Android 中打开 2 个麦克风？

我正在尝试使用 google 打开 2 个麦克风流Oboe对于每个麦克风像这样的库 oboe AudioStreamBuilder builder builder setChannelCount channelCount gt setDi
Android Studio 中的 Gradle 错误

我将一个 Android 项目从 Eclipse 导入到 Android Studio 但是当我编译时出现这些错误他们的意思是什么 Gradle org gradle api plugins PluginInstantiationExc
将“IDisposable”嵌套在单个“using”语句中

关于在单个 using 语句中使用嵌套一次性的快速问题我应该写出每个一次性的 using 语句还是可以将它们嵌套到一个语句中例子 using FileStream inFile new FileStream myFile txt Fi
div 上的选项卡索引

请参阅下面的表单 HTML 代码
为什么 codeigniter 不记录错误！

由于某种原因我无法让错误日志记录正常工作我遇到了死机白屏我希望错误日志能够阐明这种情况我的index php有错误报告 E ALL 我还确保 system logs 目录具有适当的权限如果页面无法加载就像发生的情况一样甚至会
setOnEditorActionListener 不适用于软键盘提交按钮，但适用于笔记本电脑的 Enter 键？

有人可以提供一个解决方案来获得软键盘的工作侦听器吗DONE按钮和或解释我当前的方法做错了什么我的 Xml 和 Java 设置在 Xml 中有一个简单的 EditText 设置为android imeOptions actionDo
如何将由多个文件组成的 Shiny 应用程序转换为易于共享和可复制的 Shiny 示例？

有关于如何创建最小完整且可验证的示例一般在 Stack Overflow 上以及如何制作一个出色的 R 可重现示例但目前还没有类似的指导方针shiny提出问题同时遵守某些标准更有可能给出高质量的答案从而解决您的问题然而提出一
使用 JFXPanel Swing 互操作防止 JavaFX 线程死亡？

我嵌入了几个JFXPanels当 JFXPanel 不再可见时 JavaFX 线程就会终止这是有问题的因为创建另一个JFXPanelJavaFX 线程死亡后不会启动另一个 JavaFX 线程因此JFXPanel将是空白的据我所知 J
在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？

这是一个简单的 scrapy 蜘蛛 import scrapy class ExampleSpider scrapy Spider name dmoz allowed domains https www dmoz org start url

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？ 的相关文章

随机推荐

热门标签

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用？的相关文章