scrapy-redis程序不会自动关闭

2024-03-23

scrapy-redis框架，redis存储的xxx: requests已经爬取完毕，但是程序还在运行，如何自动停止程序，而不是一直在运行？
运行代码：

2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-08-07 09:18:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

我用scrapy-redis爬取一个网站，scrapy-redis不会自动关闭，仍然要询问url，但是没有url。所以永远都会scraped 0 items (at 0 items/min)

scrapy-redis将始终等待新的 url 被推送到 redis 队列中。当队列为空时，蜘蛛就进去idle状态并等待新的 url。这就是我在队列为空时用来关闭蜘蛛的方法。

当蜘蛛进来的时候idle（当它什么都不做时），我检查 redis 队列中是否还有剩余的东西。如果没有，我会关闭蜘蛛close_spider。以下代码位于spider class:

@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
    from_crawler = super(SerpSpider, cls).from_crawler
    spider = from_crawler(crawler, *args, **kwargs)
    crawler.signals.connect(spider.idle, signal=scrapy.signals.spider_idle)
    return spider


def idle(self):
    if self.q.llen(self.redis_key) <= 0:
        self.crawler.engine.close_spider(self, reason='finished')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Redis

Scrapy

webcrawler

scrapy-redis程序不会自动关闭的相关文章

Celery计划任务中的打印语句不会出现在终端中

当我跑步时celery A tasks2 celery worker B我想看到每秒打印芹菜任务目前没有打印任何内容为什么这不起作用 from app import app from celery import Celery from
帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
无法在 mysql 表中的值中使用破折号（-）[重复]

这个问题在这里已经有答案了我一直在尝试从 python 将数据插入 MYSQL 表我的sql表中的字段是id token start time end time和no of trans 我想存储使用生成的令牌uuid4在令牌栏中但由于
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
使用信号时出现 django TransactionManagementError

我有一个与 django 的用户和 UserInfo 一对一的字段我想订阅用户模型上的 post save 回调函数以便我也可以保存 UserInfo receiver post save sender User def saveUse
十六进制数的按位异或

我们如何在 Python 中对十六进制数进行异或例如我想要异或 ABCD and 12EF 答案应该是 B922 我使用了下面的代码但它给出了错误的结果 xor two strings of different lengths def
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
在ansible中合并字典

我目前正在构建一个使用 ansible 安装 PHP 的角色并且在合并字典时遇到一些困难我尝试了多种方法来做到这一点但我无法让它像我想要的那样工作 A vars file my default values key value my
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
为 Python 2.4 改进“with”语句的直接替换

您能否建议一种方法来编写可在 Python 2 4 中使用的 with 语句的直接替换代码这将是一个 hack 但它可以让我更好地将我的项目移植到 Python 2 4 EDIT 删除了不相关的元类草图只需使用 try finally
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
Jinja2中获取请求参数

如何检索请求参数a在 Jinja2 模板中 http foo bar a 1 我这个答案有点晚了但其他解决方案并没有真正考虑到您对 Flask 的使用事实上您将 Flask 与 Jinja2 一起使用这使得您的情况与其他框架有点不同

随机推荐

删除属性文件java中的注释

当我更新属性文件时注释也会随着数据而更新是否有任何可能的方法来删除注释或更新没有注释的数据在这里每次将日期时间戳作为注释附加时我都会更新文件 4 次 Thu May 19 17 53 42 GMT 05 30 2011 Key 1
无法使用意图在android中以编辑模式打开word文件

这是我用来打开word文件的意图 Intent intent new Intent intent setAction Intent ACTION EDIT intent setFlags Intent FLAG ACTIVITY NEW T
尽管临时目录存在，但无法在 PHP 中创建临时文件

我正在制作一个允许用户上传图像的网站当我调用 FILE 变量以便将图像移动到另一个目录时它什么也不做使用 print r 检查 FILE 显示以下信息 pic1 gt Array name gt pic1 type gt tmp na
电子邮件翻译如何与 django allauth 一起使用？

我正在使用最优秀的 django allauth 来处理身份验证一切都很好但我对电子邮件翻译有疑问首先 allauth 肯定使用的是我的模板我跑了 django admin py makemessages l ir i settin
如何在启用 --target 选项的情况下为 pip install 指定 bin 目录

举个例子如果我运行命令 sudo pip install gunicorn 现在有一个文件 usr local bin gunicorn 和一个文件夹 usr local lib python2 7 site packages gunic
查找 SVG 元素在视口中是否可见

假设我有一些如下所示的 SVG canvas将应用一些变换
浮点比较[重复]

这个问题在这里已经有答案了 int main float a 0 7 float b 0 5 if a lt 0 7 if b lt 0 5 printf 2 are right else printf 1 is right else pr
更新 React Native 后安装 pod 时出现问题

我最近尝试将我的 React Native 从 0 62 更新到 0 63 执行此操作后我通过 cd iOS 进入我的 iOS 文件夹并运行 pod install 执行此操作时我在终端中收到以下错误消息我已尝试按照错误所述运行命令
如何在main.ts中手动实例化Http服务

我需要在 main ts 中手动实例化 Http 我使用 HTTP PROVIDERS 找到了一些答案如下所示但看起来 HTTP PROVIDERS 已被弃用知道我该怎么做吗 const injector ReflectiveInje
Angular 动态表单嵌套字段

在的帮助下https angular io guide dynamic form https angular io guide dynamic form 我正在制作一个动态表单我需要首先显示两个字段 new TextboxQuestio
如何将 ASP.NET 隐藏字段值分配给 JavaScript 变量？

以下是摘自的代码片段http pietschsoft com post 2011 09 09 Tag Editor Field using jQuery similar to StackOverflow aspx http pietschs
调整 UITextField 的宽度以填充横向工具栏

In a UIToolbar 我添加了一个UITextField到栏的中间它被添加为UIBarButtonItem 和另外一个UIBarButtonItem 操作按钮在它旁边我在最左边和最右边添加了灵活的空格键按钮项目它在纵向上看起
页面命令栏与分割视图窗格重叠

在我的页面中我有底部命令栏如果该命令栏打开并且用户单击 SplitView 菜单则命令栏会覆盖菜单下面是splitview页面的xaml
如何使用“pdftk”指定附件的描述？

PDFTK的文档中没有提到如何做到这一点命令 pdftk file pdf attach files attachDoc pdf to page 2 output 将在原件的第 2 页附加一个文件file pdf并将结果输出到
子查询或 leftjoin 与 group by 哪个更快？

i have to show running total with the total column in my application so i have used the following queries for finding th
ElementNotInteractableException：元素不可交互：自升级到 chromedriver 83 后出现元素大小为零

我使用以下 docker 映像来运行我的黄瓜测试 https hub docker com r selenium standalone chrome https hub docker com r selenium standalone ch
检测浏览器上的用户不活动 - 纯粹通过 javascript [重复]

这个问题在这里已经有答案了在构建监视器时它将监视用户在浏览器上的任何活动例如单击按钮或在文本框中键入而不是鼠标悬停在文档上因此如果用户长时间没有活动会话就会超时我们需要在没有 jQuery 或类似的东西的情况下做到这一点我
Node Sequelize 查找 $like 通配符

我正在尝试向 Node Sequelize findAll 添加一个 where like 子句以类似于 sql 查询select from myData where name like Bob 用下面的代码 let data Array
WPF 选项卡控件防止选项卡更改

我正在尝试为我的应用程序开发一个系统维护屏幕其中有几个选项卡每个选项卡代表不同的维护选项即维护系统用户等一旦用户单击编辑新建来更改现有记录我想防止离开当前选项卡直到用户单击保存或取消经过一番谷歌搜索后我找到了一个
scrapy-redis程序不会自动关闭

scrapy redis框架 redis存储的xxx requests已经爬取完毕但是程序还在运行如何自动停止程序而不是一直在运行运行代码 2017 08 07 09 17 06 scrapy extensions logstats

scrapy-redis程序不会自动关闭

scrapy-redis程序不会自动关闭 的相关文章

随机推荐

热门标签

scrapy-redis程序不会自动关闭的相关文章