从 Java 验证 HTML 的快速而简单的方法是什么?我正在寻找一个开源/PD 类(或一组类)来描述 100 多个 HTML 标签的各种属性,例如:
- 标签是可选的吗?空的?省略其结束标签是否合法?
- 该标签还可以包含哪些其他标签(如果有)?
- 哪些属性对于该标签是合法的,它们的类型是什么? (不是必需的,但很高兴拥有)
我希望对 HTML 文档进行逐个标记的分析,因此我对整个文档是否有效不太感兴趣,而是对每种类型标记的具体要求是什么感兴趣。
我可以根据 W3C 规范对规则进行编码,但想看看首先可以使用哪些现成的解决方案。
如果您想验证某些标签是否遵循某些规范,基于 Java 的 HTML 解析器似乎永无止境:
Java 中的开源 HTML 解析器 http://java-source.net/open-source/html-parsers
换句话说,您可以解析 HTML,然后检查生成的文档中是否有您要查找的标签,并确定它们是否符合您所需的规范。如果他们不这样做,你就可以抛出一个错误。
我认为您不会找到一个完全根据您的要求编写的 HTML 分析工具,主要是因为这些要求尚未明确表达并且可能有点模糊。
如果解析器不能立即执行您想要的操作,至少此列表是开源的,因此只要您发布更改,您就可以破解解析器。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)