使用Nutch如何抓取使用ajax的网页的动态内容?

2024-03-03

我正在使用 apache Nutch 1.10 来抓取网页并提取页面中的内容。一些链接包含在调用 ajax 时加载的动态内容。 Nutch无法抓取和提取ajax的动态内容。我该如何解决这个问题?有什么解决办法吗?如果是,请帮助我回答。

提前致谢。


大多数网络爬虫库不提供开箱即用的 JavaScript 渲染。您通常必须插入另一个提供 js 渲染的库或产品,例如 Selenium 或 PhantomJS。

这里有一个使用 nutch 和 Selenium 的教程 http://soryy.com/blog/2014/ajax-javascript-enabled-parsing-apache-nutch-selenium/.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用Nutch如何抓取使用ajax的网页的动态内容? 的相关文章

随机推荐