只是想知道是否有人知道一个利用 Scala 简洁语法的网络抓取库。到目前为止,我已经找到了Chafe https://github.com/ofrasergreen/chafed,但这似乎记录和维护都很差。我想知道是否有人使用 Scala 进行过抓取并提供建议。 (我正在尝试集成到现有的 Scala 框架中,而不是使用用 Python 等语言编写的爬虫。)
首先,JVM 中有大量的 HTML 抓取库,您需要做的就是为其中之一拉皮条(为我的图书馆模式拉皮条) http://www.decodified.com/scala/2010/12/02/the-quickpimp-pattern.
我用过的四种是:
- HtmlUnit - 将模拟浏览器甚至运行 Javascript
- Jericho - 保留格式,如果您想编辑抓取的 HTML,这是理想的选择
- NekoHtml
- JSoup -- 不适用于 Scala https://issues.scala-lang.org/browse/SI-3809罢工>。可能有用 https://stackoverflow.com/questions/14745634/web-scraping-with-scala/14759873#comment20659065_14759873
我使用过 Selenium,但从未用于刮擦。Scala 有一个 Selenium 包装器 http://www.scalatest.org/user_guide/using_selenium.
我建议使用现有的 Java 库,而不是一些半成品的 Scala 库。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)