我正在开发一个项目,我需要进行大量的屏幕抓取以尽快获取大量数据。我想知道是否有人知道任何好的 API 或资源来帮助我。
顺便说一下,我正在使用java。
到目前为止,我的工作流程如下:
- 连接到网站(使用 Apache 中的 HTTPComponents)
- 网站包含一个包含一堆我需要访问的链接的部分(使用内置的 java HTML 解析器来找出我需要访问的所有链接是什么,这是令人讨厌且混乱的代码)
- 访问我找到的所有链接
- 对于我访问的每个链接,我需要提取更多数据,这些数据分布在多个页面上,因此我可能需要访问更多链接
想法:
- 有谁知道比内置 java 解析器更高级别/更智能的 html 解析器吗?
- 基本上这是深度优先搜索。我想我想在某个时候将其设为多线程,这样我就可以并行访问其中一些链接。
- 也许我真正想要的是一个多线程网络爬行库
如果你还没弄清楚,这是我第一次搞这个,所以我很难准确地表达出我的需求是什么。我非常感谢以前做过这件事的人提供的任何意见。
我发现了JSoup http://jsoup.org/非常适合 HTML 解析。
如需更多指导,请查看这篇文章:如何编写多线程网络爬虫 http://andreas-hess.info/programming/webcrawler/index.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)