谷歌的 state
允许搜索机器人在没有会话 ID 或跟踪其网站路径的参数的情况下抓取您的网站。这些技术对于跟踪个人用户行为很有用,但机器人的访问模式完全不同。使用这些技术可能会导致网站索引不完整,因为机器人可能无法消除看起来不同但实际上指向同一页面的 URL。
我的 ASP.NET 1.1 站点使用自定义身份验证/授权,并且非常依赖会话 guid(类似于这种方法 http://www.15seconds.com/Issue/021119.htm)。我担心允许非会话跟踪流量会破坏我现有的代码或引入安全漏洞。
允许非会话跟踪机器人抓取正常会话跟踪的网站有哪些最佳实践?除了检查用户代理之外,还有什么方法可以检测搜索机器人(我不希望人们欺骗自己为 googlebot 来绕过我的会话跟踪)?
检测机器人的正确方法是通过主机条目(Dns.GetHostEntry
)。一些蹩脚的机器人要求您通过 IP 地址进行跟踪,但流行的机器人通常不需要。 Googlebot 请求来自 *.googlebot.com。获得主机条目后,您应该签入IPHostEntry.AddressList
以确保它包含原始 IP 地址。
甚至不look验证机器人时在用户代理处。
也可以看看http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)