小册介绍
Scrapyd 是业内最优秀的爬虫框架之一 Scrapy 官方出品的部署管理平台。有了它,你就可以通过 API 向指定的爬虫发起指令,并且可以通过 Web 页面来查看爬虫的运行记录与状态等信息。
将爬虫部署到服务器是大部分爬虫工程师必备的技能,这个技能可以为你的职业价值锦上添花。
然而网上关于 Scrapyd 的资料比较少,除了官方文档之外,只有一些零散的教程文章。这远远无法满足很多爬虫工程师的学习需求。所以你需要这本小册。
而且 Scrapyd 并不提供访问控制功能,意味着只要你部署到服务器上,任何人都可以访问它并且控制你的爬虫。它也不提供数据统计的功能,你不可能知道你部署的爬虫有多少,也不知道它们运行了多少次,谁的运行时间最长,也无法对爬虫日志进行排序或者筛选过滤。
别慌,笔者写这本小册就是为了解决那些问题。
最终的实战成果如下所示:
Web 界面及功能演示