因为正则表达式让我害怕,所以我试图找到一种方法来删除所有 HTML 标签并从 Python 中的字符串解析 HTML 实体。
Use lxml http://lxml.de/这是 python 最好的 xml/html 库。
import lxml.html
t = lxml.html.fromstring("...")
t.text_content()
如果你只是想清理 html,请查看 lxml.html.cleanmodule http://lxml.de/lxmlhtml.html#cleaning-up-html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)