是否有一个标准的,最好是 Pythonic 的方法来转换&#xxxx;
正确的 unicode 字符串的表示法?
例如,
מפגשי
应转换为:
מפגשי
使用字符串操作可以很容易地完成它,但我想知道是否有一个标准库可以实现这一点。
Use HTMLParser.HTMLParser() http://docs.python.org/2/library/htmlparser.html:
>>> from HTMLParser import HTMLParser
>>> h = HTMLParser()
>>> s = "מפגשי"
>>> print h.unescape(s)
מפגשי
它是的一部分标准库 http://docs.python.org/2/library/, too.
但是,如果您使用的是 Python 3,则必须从html.parser
:
>>> from html.parser import HTMLParser
>>> h = HTMLParser()
>>> s = 'מפגשי'
>>> print(h.unescape(s))
מפגשי
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)