可能的重复:
使用 NSXMLParser 解析 HTML https://stackoverflow.com/questions/8866376/using-an-nsxmlparser-to-parse-html
我用过NSXMLParser
解析 xml 文件和 RSS feed。我感到困惑的是,是否NSXMLParser
仅适用于 xml,或者我们也可以用它来解析 html。通过在互联网上的一些搜索,我假设有些人使用它来解析 html。
但是使用有什么限制或缺点吗?NSXMLParser
与 html ?
如果您的 HTML 文档是格式良好的 xhtml,那么它就可以工作。据猜测,您将不会使用格式良好的 xhtml,因为它在现实世界中很少见。
HTML(包括 HTML 4 和 5)不是格式良好的 XML,因此 XML 解析器无法成功解析。
考虑以下示例:
<HTML>
<HEAD>
<META http-equiv=content-type content="text/html; charset=UTF-8">
<TITLE>Sample Document</TITLE>
</HEAD>
<BODY>
<H1>Sample Document</h1>
<P>This document will <strong><em>fail</strong></em> as XML.
</BODY>
</HTML>
在上面的文档中,内容类型没有用引号括起来(<META http-equiv=content-type …
), <H1>
and </h1>
是不同的情况,<P>
没有结束标记,并且strong
and em
没有正确嵌套。这是有效的 HTML,但无效的 XML。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)