我想知道Scrapy是如何过滤那些爬取的url的?它是否存储所有以类似方式爬行的网址crawled_urls_list
,当它得到一个新的 url 时,它会查找列表以检查该 url 是否存在?
这个过滤部分的代码在哪里爬行蜘蛛(/path/to/scrapy/contrib/spiders/crawl.py)?
多谢!
默认情况下,scrapy 保留所见请求的指纹。该列表保存在Python集中的内存中,并在JOBDIR变量定义的目录中附加一个文件调用requests.seen。
如果重新启动 scrapy,该文件将重新加载到 python 集中。
控制这个的类在 scrapy.dupefilter 中
如果您需要不同的行为,您可以重载此类。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)