令我惊讶的是,让 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少。
我知道 Apache Nutch 目前可能无法(但显然希望 http://wiki.apache.org/nutch/HttpPostAuthentication) 支持 Http POST 身份验证。
然而,我们真正想做的就是能够向 Nutch 机器人标头添加一个 cookie,以允许它以这种方式访问网站的这些部分(而不是将用户名和密码发布到表单,然后接收 cookie) 。
因此,我花了很多时间进行搜索,令我惊讶的是,大多数关于此问题的讨论都可以追溯到 2005 年或 2008 年:here http://web.archiveorange.com/archive/v/bhVEvThyYNqvmgycVlKM#0N7zAPMhbM3xOnX, there http://lucene.472066.n3.nabble.com/httpclient-and-cookies-td616513.html, 到处 http://lucene.472066.n3.nabble.com/How-to-authenticate-with-cookies-td614810.html.
这么多年过去了,有没有办法解决这个限制,或者仍然没有办法通过给 Nutch 一个“预烘焙”cookie 来进行身份验证,以便它可以访问我们网站的仅限会员的部分?
我已将自定义代码添加到 nutch protocol-httpclient 插件来解决该问题。
在下面的链接中分享了更改
http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)