我正在尝试用Python 解析一些html。以前有一些方法确实有效……但现在,如果没有解决方法,我实际上无法使用任何方法。
- SGMLParser 消失后 beautifulsoup 出现问题
- html5lib 无法解析“外面”的一半内容
- lxml 试图对于典型的 html 来说“太正确”(属性和标签不能包含未知的名称空间,否则会抛出异常,这意味着几乎无法解析具有 Facebook connect 的页面)
如今还有哪些其他选择? (如果他们支持xpath,那就太好了)
确保您使用html
解析 HTML 时使用的模块lxml
:
>>> from lxml import html
>>> doc = """<html>
... <head>
... <title> Meh
... </head>
... <body>
... Look at this interesting use of <p>
... rather than using <br /> tags as line breaks <p>
... </body>"""
>>> html.document_fromstring(doc)
<Element html at ...>
所有错误和异常都会消失,您将得到一个速度惊人的解析器,它通常比 BeautifulSoup 更好地处理 HTML soup。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)