Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作

2023-12-07

我使用 scrapy 1.0.3，无法发现 CLOSESPIDER 扩展是如何工作的。对于命令： scrapy 抓取domain_links --set=CLOSESPIDER_PAGECOUNT=1 正确的是一个请求，但对于两页计数： scrapy 抓取domain_links --set CLOSESPIDER_PAGECOUNT=2 是无限的请求。

所以请用简单的例子解释一下它是如何工作的。

这是我的蜘蛛代码：

class DomainLinksSpider(CrawlSpider):
    name = "domain_links"
    #allowed_domains = ["www.example.org"]
    start_urls = [ "www.example.org/",]

    rules = (

        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(LinkExtractor(allow_domains="www.example.org"), callback='parse_page'),
    )

    def parse_page(self, response):
        print '<<<',response.url
        items = []
        item = PathsSpiderItem()

        selected_links = response.selector.xpath('//a[@href]')

        for link in LinkExtractor(allow_domains="www.example.org", unique=True).extract_links(response):
            item = PathsSpiderItem()
            item['url'] = link.url
            items.append(item)
        return items

甚至不适用于这个简单的蜘蛛：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class ExampleSpider(CrawlSpider):
    name = 'example'
    allowed_domains = ['karen.pl']
    start_urls = ['http://www.karen.pl']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).


        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    Rule(LinkExtractor(allow_domains="www.karen.pl"), callback='parse_item'),
    )

    def parse_item(self, response):
        self.logger.info('Hi, this is an item page! %s', response.url)
        item = scrapy.Item()

        return item

但不是无穷大：

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=1 '下载者/request_count': 1,

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=2 '下载者/request_count'：17，

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=3 “下载者/请求计数”：19，

也许是因为并行下载。是的，对于 CONCURRENT_REQUESTS = 1，CLOSESPIDER_PAGECOUNT 设置适用于第二个示例。我会检查第一个 - 它也有效。这对我来说几乎是无限的，因为带有许多网址（我的项目）的站点地图被抓取为下一页:)

CLOSESPIDER_PAGECOUNT是由控制CloseSpider扩展，它对每个响应进行计数，直到达到其限制，此时它告诉爬虫进程开始结束（完成请求并关闭可用插槽）。

现在，当您指定时，您的蜘蛛会结束的原因CLOSESPIDER_PAGECOUNT=1是因为在那一刻（当它得到第一个响应时）没有pending请求，它们是在第一个请求之后创建的，因此爬虫进程已准备好结束，而不考虑以下请求（因为它们将在第一个请求之后诞生）。

当您指定CLOSESPIDER_PAGECOUNT>1，您的蜘蛛被发现正在创建请求并填充请求队列。当蜘蛛知道何时完成时，仍然有待处理的请求，这些请求作为closing蜘蛛。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作的相关文章

scrapy LinkExtractors 最终会得到唯一的链接吗？

所以我有一个包含很多文章和页码的页面现在如果我想提取一篇文章我会使用 Rule LinkExtractor allow article html callback parse article 对于页面我使用这个规则规则 LinkE
Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

音频播放无法开始

NSError err Initialize audio player audioPlayer AVAudioPlayer alloc initWithContentsOfURL url error err audioPlayer dele
在Go中，删除指针映射的条目会导致内存泄漏吗？

第一次来到这里首先NOTE in 切片技巧表明在剪切或删除指针切片中的元素时存在潜在的内存泄漏问题地图也是如此吗例如 https play golang org p 67cN0JggWY 在从地图中删除之前我们应该清零该条目吗就像这
android.app.Application 无法转换为 android.app.Activity

我正在尝试改变一个LinearLayout来自另一个类但是当我运行此代码时 public class IRC extends PircBot ArrayList
如何响应演员调用的结果？

我们正在考虑使用 Akka HTTP Java API 使用路由 DSL 不清楚如何使用路由功能来响应 HttpRequest 使用无类型 Akka Actor 例如在匹配 Route 路径后我们如何将请求传递给处理程序 ActorR
实体框架-使其只读？ [复制]

这个问题在这里已经有答案了可能的重复如何使实体框架数据上下文只读是否有配置设置或简单的方法使实体只读我有一个数据访问层该层与作为 CRM 解决方案后端的数据库相对应我们不想无意或故意写入 CRM UI 之外的数据库但我们
如何将 int[] 类型转换为 int?[]

我正在使用 linq 查询来输出 int 数组但我需要将其传递给仅接受 int 的方法因此在搜索了将 int 转换为 int 的方法之后我发现了一些似乎可行的方法here 以下代码是一个简化的示例显示了哪些内容有效哪些无效 us
如何以编程方式在 Windows 8 开始屏幕上放置磁贴？

我正在构建一个 Windows 商店应用程序我希望该应用程序的磁贴位于我的开始屏幕的特定位置是否有任何 API 可以对我的图块在开始屏幕上的位置进行编码提前致谢不您无法控制图块的移动位置这由用户决定 Windows 8 环境设计
如何将heroku 上回形针的上传目录更改为/tmp？

我需要上传文件然后使用回形针解析它们目前它上传到 system文件夹中这在heroku中是不允许的我不需要持久上传我解析它然后存储它们所以我希望能够保存到 tmp 中然后解析然后让它稍后被吹走关于如何做到这一点的想法如果我
如何在R中两个单词之间的文本上进行gsub？

EDIT 我想放置一个 n在我的文本中特定的未知单词之前我知道这个未知词第一次出现在我的文本中将会在树和湖之间前任文本 text 1 TreeRULakeSunWater 2 A B C D EDIT 树和湖永远不会改变
地图不适用于加载的 Obj

这是我之前的问题的延续here 我只是尝试向该对象的每一侧应用不同的纹理但什么也没有出现没有控制台错误我相信我正在按正确的顺序应用事物这应该很简单但过去一个小时我一直在努力解决这个问题下面是一个代码示例 function onL
Google Apps - 使用昵称发送电子邮件

我在 google apps u 中有一个电子邮件帐户电子邮件受保护它有一个昵称电子邮件受保护我可以从发送电子邮件吗电子邮件受保护多谢确实 Google Apps 支持从您拥有的任何电子邮件地址包括昵称发送邮件登录您的
了解多重索引

所以我在 csv 中有一个这样的示例数据集 name team date score John A 3 9 12 100 John B 3 9 12 99 Jane B 4 9 12 102 Peter A 9 9 12 103 Josie
如何使用 Ember Data 查找模型？

相当于什么 App Person find age 30 in the 新的 Ember 数据 IE 如何根据属性获取记录数组 ember data 1 0 0 beta2 中的等效方法现在是 this store find person
Java 中的 Context 到底是什么？ [复制]

这个问题在这里已经有答案了我用 Google 搜索了这个并阅读了 Java 文档但我有点困惑有人可以解释一下什么是Context是简单的英语吗用编程术语来说它是较大的周围部分可以具有any对当前工作单元的行为的影响例如使用的
不处理条件渲染组件中的表单提交

我有一个带有表单的自定义标记文件
如何解码gzip数据？

我有一个变量data 变量的类型为 TIdBytes 变量包含一些用 gzip 编码的数据如何解码这些数据如果您想手动解码数据请查看DecompressGZipStream 的方法TIdCompressorZLib组件或TDecom
分子测试似乎忽略了ansible.cfg的remote_tmp设置

我正在尝试使用molecule测试一个非常基本的角色 venv red jumphost docker ops cat roles fake role tasks main yml tasks file for fake role name
在 ruby 中从自身获取实例变量名称

我有一个实例变量 foo我想写一些代码来获取字符串 foo 有什么提示吗如果您拥有的只是对该对象的引用那么您就无法真正干净利落地完成它 def foo bar something end def bar value value no c
DATA 和 IMAGE 填充在两行中。我想将它们绑定在一行中

我要第二次问这个问题我会把它说清楚这样你就可以帮助我好吧让我们开始吧我有一个注册流程我把这个过程分成了两页第一页仅用于个人信息然后当我单击下一步按钮时将出现下一页 postbackURL 此页面用于上传照片页面他
Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作

我使用 scrapy 1 0 3 无法发现 CLOSESPIDER 扩展是如何工作的对于命令 scrapy 抓取domain links set CLOSESPIDER PAGECOUNT 1 正确的是一个请求但对于两页计数 scrap

Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作

Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作 的相关文章

随机推荐

热门标签

Scrapy CLOSESPIDER_PAGECOUNT 设置无法正常工作的相关文章