我希望能够获取网页的 html 并将其保存到String
,这样我就可以对其进行一些处理。另外,我如何处理各种类型的压缩。
我将如何使用 Java 来做到这一点?
我会使用像样的 HTML 解析器Jsoup http://jsoup.org。那么就很简单:
String html = Jsoup.connect("http://stackoverflow.com").get().html();
它完全透明地处理 GZIP 和分块响应以及字符编码。它也提供了更多优点,如 HTML穿越 http://jsoup.org/cookbook/extracting-data/selector-syntax and 操纵 http://jsoup.org/cookbook/modifying-data/set-html通过 CSS 选择器,就像 jQuery 一样。你只需要把它抓住Document
,不作为String
.
Document document = Jsoup.connect("http://google.com").get();
你真的don't http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html想要在 HTML 上运行基本的 String 方法甚至正则表达式来处理它。
也可以看看:
- Java 中领先的 HTML 解析器的优缺点是什么? https://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)