如何基于Scrapy构建一个永远运行的网络爬虫？

2024-05-05

我想基于Scrapy构建一个网络爬虫，从多个新闻门户网站抓取新闻图片。我希望这个爬虫是：

永远奔跑

意味着它将定期重新访问一些门户页面以获取更新。
安排优先事项。

为不同类型的 URL 赋予不同的优先级。
多线程获取

我已经阅读了Scrapy文档，但没有找到与我列出的内容相关的内容（也许我不够仔细）。这里有人知道该怎么做吗？或者只是给出一些想法/例子。谢谢！

Scrapy 是一个用于网站抓取的框架，因此，它旨在支持您的标准，但它不会开箱即用地为您跳舞；对于某些任务，您可能需要相对熟悉该模块。

永远运行取决于调用 Scrapy 的应用程序。你告诉蜘蛛 http://doc.scrapy.org/topics/spiders.html去哪里以及何时去那里。
确定优先顺序是调度程序中间件 http://doc.scrapy.org/experimental/scheduler-middleware.html您必须创建它并将其插入 Scrapy 中。关于此的文档似乎参差不齐，我没有查看代码 - 原则上该函数就在那里。
Scrapy 本质上是，本质上是异步的 http://doc.scrapy.org/topics/architecture.html#event-driven-networking这很可能正是您所期望的：请求 B 可以得到满足，而请求 A 仍然未完成。底层连接引擎不会阻止您善意多线程，但Scrapy不提供线程服务。

Scrapy 是一个库，而不是一个应用程序。该模块的用户需要完成大量的工作（代码）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

Scrapy

如何基于Scrapy构建一个永远运行的网络爬虫？的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以

随机推荐

如何使用 lambda 表达式调试stream().map(...)？

在我们的项目中我们正在迁移到 java 8 并且正在测试它的新功能在我的项目中我使用 Guava 谓词和函数来过滤和转换一些集合Collections2 transform and Collections2 filter 在这次迁移中
Android：焦点时改变样式

我有这个自定义布局 LinearLayout FrameLayout ImageView TextView 此布局对点击事件做出反应使用LinearLayout setOnClickListener 并使用可聚焦android focus
使用 JMS Serializer 将 XML 反序列化为具有嵌套节点的实体

我想使用 JMS Serializer 将 XML 文件反序列化为实体它对于直接属性非常有效但是当涉及到嵌套属性时如果不创建相关实体我就无法使其工作例如
使用 Documents4j 将 Doc 转换为 PDF

我想尝试使用 Documents4j 将文档转换为 PDF 我按照此处的说明进行操作http documents4j com develop http documents4j com develop 当我打字时mvn package然后按回
在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
Eslint：警告文件默认被忽略。使用否定忽略模式

我是 Eslint 的新手到目前为止我已经在本地项目中安装了 Eslint 并进行了配置 eslintrc js 文件包含 module exports env node true commonjs true es6 true moch
横向推荐的材料设计工具栏高度是多少

对于全息设计根据 Jake Wharton 的说法景观期间建议的操作栏高度为 40dp https stackoverflow com a 7181591 72437 https stackoverflow com a 7181591
找出某个日期时间自unix纪元以来的时间？

我想找出 2009 年 10 月 1 日 9 00 BST 的 UNIX 时间即自 Unix 纪元以来的秒数我如何在 Linux 命令行上执行此操作我知道你可以使用date UNIXTIME someformat 但是unix时间是我
Linux Mint 20.x 基于 Ubuntu / 无法安装 pgadmin4

我已经安装了postgres 好吧但我尝试安装 pgadmin4 大约 2 小时但就是做不到我在互联网上尝试了很多指南但他们都得到相同的结果 Package pgadmin4 has no installation candidat
将无限范围的值映射到 10 种颜色？

我有以下 10 种颜色的列表 public static readonly IList
在 Delphi 7 中使用 TScreen

我的 Delphi 7 应用程序显示 Screen DesktopWidth Screen DesktopHeight Screen Monitors 0 Width Screen Monitors 0 Height 并且如果选择了第二台
为什么我的 FragmentTransacton() 或 FragmentManager.beginTransaction() 会遇到空指针异常

我收到 nullPointerException java lang RuntimeException Unable to start activity ComponentInfo private java lang NullPointer
GDB错误：“进程记录：当前架构不支持记录功能”

我正在尝试在 GDB 中进行反向执行特别是target record按照说明在 gdb 中运行我的程序后here https stackoverflow com questions 1206872 go to previous line
检查 2 个数组是否至少有 1 个相等的值 [重复]

这个问题在这里已经有答案了目前我有2个数组 array 1 2 3 4 array 4 5 6 7 我如何检查它们是否至少有一个相等的值上面的示例有 1 个相等值 gt 4 因此该函数应返回 true 数组相交 http php net
#ifdef MACRO 相当于注释吗

假设 MACRO 没有定义这些是等价的 ifdef MACRO Not valid C or C code endif Not valid C or C code 在 GCC 4 7 1 中它似乎是等效的但是否有预处理器可以做更多的事
如何应用着色器并仅生成图像一次？

我正在尝试将像素化着色器应用于我的纹理并且我只需要将其应用一次之后我可以一遍又一遍地重复使用我的着色器生成的图像作为纹理而不必每次都进行计算那么我如何拍摄一些图像 gt 应用着色器并在每次游戏加载时仅渲染它们一次 gt 并将它们用作
Javascript-CSS 显示和隐藏表单元素

通过使用 Javascript 如何显示和隐藏表格的某些部分例如 TR 或 TD 这应该取决于从数据库获取的数据我在我的应用程序中使用 CakePHP 框架并使用单个视图文件进行添加和编辑在编辑模式下根据获取的数据我需要显示和隐
更改的默认按钮标签

我在用
如何使用 msw 有条件地模拟错误响应

我正在处理的 UI 根据收到的响应以不同的方式呈现我想测试用户界面4xx and 5xx收到答复我的 api 处理程序看起来像 import rest from msw import items from apiValues expor
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档

如何基于Scrapy构建一个永远运行的网络爬虫？

如何基于Scrapy构建一个永远运行的网络爬虫？ 的相关文章

随机推荐

热门标签

如何基于Scrapy构建一个永远运行的网络爬虫？的相关文章