如何防止未经授权的蜘蛛抓取

2024-03-09

我想防止从我们的网站之一自动抓取 html,同时不影响合法的蜘蛛抓取(googlebot 等)。是否已经存在可以实现此目的的东西?我是否使用了正确的术语?

编辑:我主要是为了防止人们恶意这样做。 IE。他们不会遵守 robots.txt

EDIT2:如果检测到自动化并且流量不是来自合法(google、yahoo、msn 等)IP,那么如何通过“使用率”阻止使用……即验证码继续浏览。


这是很难甚至不可能实现的。许多“流氓”蜘蛛/爬行程序不通过用户代理字符串来识别自己,因此很难识别它们。您可以尝试通过 IP 地址阻止他们,但很难跟上将新 IP 地址添加到阻止列表的步伐。如果使用 IP 地址,也有可能阻止合法用户,因为代理使许多不同的客户端显示为单个 IP 地址。

在这种情况下使用 robots.txt 的问题是蜘蛛可以选择忽略它。

EDIT:速率限制是一种可能性,但它也遇到了识别(和跟踪)“好”和“坏”用户代理/IP 的一些相同问题。在我们编写的进行一些内部页面浏览/会话计数的系统中,我们根据页面浏览率消除会话,但我们也不担心消除“好”蜘蛛,因为我们也不希望将它们计入数据中。我们不会采取任何措施阻止任何客户实际查看页面。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何防止未经授权的蜘蛛抓取 的相关文章

随机推荐