解决方法一、
问题:刚开始爬取有,但是后面都是Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。
解决:可能是里面没有设置 yield scrapy.Request(dont_filter=True),dont_filter=True,默认的去重将一些网页去除了,导致没有数据。
解决方法二
问题:分布式爬虫一直都是显示Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。
解决:你使用的肯定是window的redis数据库,而且lpush时,使用的是redis。windos那个文件,这样插入的redis_key,在你爬虫服务器上是查不到这个值的。
使用 redis-cli -h redis的ip -p 6379 这样链接数据,再lpush值进去才行。