可以解析 HTML 文档并构建 DOM 树(java)

2023-11-30

是否可能以及可以使用哪些工具将 html 文档解析为字符串或文件,然后构建 DOM 树,以便开发人员可以通过某些 API 遍历该树。

例如:

DomRoot = parse("myhtml.html");

for (tags : DomRoot) {
}

注意:这是一个 HTML 文档,而不是 XHtml。


您可以使用TagSoup- 它是一个符合 SAX 的解析器,可以将格式错误的内容(例如 HTML)从通用网页中清除为格式良好的 XML。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text

gets correctly rewritten as:

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

可以解析 HTML 文档并构建 DOM 树(java) 的相关文章