我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制Google Webmasters中的抓取速度(Google bot抓取网站的速度)。我想知道是否可以通过robots.txt限制爬虫活动
我的意思是接受机器人抓取页面,但按时间、页面或大小限制它们的存在!
您可以在 robots.txt 中使用一项指令,它是“爬行延迟”。
Crawl-delay: 5
这意味着机器人每 5 秒爬行的页面数不应超过一页。
但据我所知,robots.txt 并未正式支持该指令。
还有一些机器人根本不真正接受 count robots.txt 文件。
因此,即使您禁止访问某些页面,它们仍然可能会被一些机器人抓取,当然不是像谷歌这样最大的机器人。
例如,百度可能会忽略 robots.txt,但这并不确定。
我没有这个信息的官方来源,所以你可以谷歌一下。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)