我有一个字符串,其中可能包含 br 或 span.../span 标签或其他 HTML 字符/实体。我想要一种强大的方法来剥离所有这些并获取剩余的 UTF-8 字符。理想情况下,这应该是跨平台的。
像这样的东西是理想的:
http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/ http://snipplr.com/view/15261/python-decode-and-strip-html-entites-to-unicode/
但这也会删除标签。
您的要求到底有多严格?一个简单的两国 FSA 应该可以做到。以 READCHAR 状态启动。每当您在该状态下读取“”时,都会转换回 READCHAR 状态。
Edit:哎呀。错过了关于实体的部分。您还需要一个 READENTITY 状态。当您转换出它时,您还可以将代码转换为相应的 UTF-8 字符。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)