过滤掉 HTML 标签并解析 python 中的实体

2024-02-29

因为正则表达式让我害怕,所以我试图找到一种方法来删除所有 HTML 标签并从 Python 中的字符串解析 HTML 实体。


Use lxml http://lxml.de/这是 python 最好的 xml/html 库。

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果你只是想清理 html,请查看 lxml.html.cleanmodule http://lxml.de/lxmlhtml.html#cleaning-up-html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

过滤掉 HTML 标签并解析 python 中的实体 的相关文章