我正在尝试获取网络服务器上某些文件的准确下载数量。我查看了用户代理,其中一些显然是机器人或网络爬虫,但对于许多人来说,我不确定,它们可能是也可能不是网络爬虫,并且它们导致了许多下载,因此对我来说了解这一点很重要。
是否有已知网络爬虫的列表以及一些文档,例如用户代理、IP、行为等?
我对官方的不感兴趣,比如谷歌、雅虎或微软的。这些人通常表现良好并且自我认同。
我在用着http://www.user-agents.org/ http://www.user-agents.org/通常作为参考,希望对您有所帮助。
你也可以尝试http://www.robotstxt.org/db.html http://www.robotstxt.org/db.html or http://www.botsvsbrowsers.com http://www.botsvsbrowsers.com.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)