我有一百万个 URL 列表需要获取。我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们。但是,我发现 Nutch 会自动获取不在列表中的 URL。我确实将爬网参数设置为-深度1 -topN 1000000。但它不起作用。有谁知道如何做到这一点?
将此属性设置为nutch-site.xml
。 (默认情况下为 true,因此它将外链添加到crawldb)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)