是否可能以及可以使用哪些工具将 html 文档解析为字符串或文件,然后构建 DOM 树,以便开发人员可以通过某些 API 遍历该树。
例如:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注意:这是一个 HTML 文档,而不是 XHtml。
您可以使用TagSoup- 它是一个符合 SAX 的解析器,可以将格式错误的内容(例如 HTML)从通用网页中清除为格式良好的 XML。
This is <B>bold, <I>bold italic, </b>italic, </i>normal text
gets correctly rewritten as:
This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)