如何基于Scrapy构建一个永远运行的网络爬虫?

2024-05-05

我想基于Scrapy构建一个网络爬虫,从多个新闻门户网站抓取新闻图片。我希望这个爬虫是:

  1. 永远奔跑

    意味着它将定期重新访问一些门户页面以获取更新。

  2. 安排优先事项。

    为不同类型的 URL 赋予不同的优先级。

  3. 多线程获取

我已经阅读了Scrapy文档,但没有找到与我列出的内容相关的内容(也许我不够仔细)。这里有人知道该怎么做吗?或者只是给出一些想法/例子。谢谢!


Scrapy 是一个用于网站抓取的框架,因此,它旨在支持您的标准,但它不会开箱即用地为您跳舞;对于某些任务,您可能需要相对熟悉该模块。

  1. 永远运行取决于调用 Scrapy 的应用程序。你告诉蜘蛛 http://doc.scrapy.org/topics/spiders.html去哪里以及何时去那里。
  2. 确定优先顺序是调度程序中间件 http://doc.scrapy.org/experimental/scheduler-middleware.html您必须创建它并将其插入 Scrapy 中。关于此的文档似乎参差不齐,我没有查看代码 - 原则上该函数就在那里。
  3. Scrapy 本质上是,本质上是异步的 http://doc.scrapy.org/topics/architecture.html#event-driven-networking这很可能正是您所期望的:请求 B 可以得到满足,而请求 A 仍然未完成。底层连接引擎不会阻止您善意多线程,但Scrapy不提供线程服务。

Scrapy 是一个库,而不是一个应用程序。该模块的用户需要完成大量的工作(代码)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何基于Scrapy构建一个永远运行的网络爬虫? 的相关文章

随机推荐