我的字符串是Niệm Bồ Tát (Thiá»n sÆ° Nhất Hạnh)
我想将其解码为Niệm Bồ Tát (Thiền sư Nhất Hạnh)
。我在那个网站上看到可以做到这一点http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx
我开始尝试用Python
mystr = '09. Bát Nhã Tâm Kinh'
mystr.decode('utf-8')
但实际上它是不正确的,因为原始字符串是 utf-8 但字符串显示不是我期望的结果。
注意:这是越南语字符。
该案如何解决?这是 Windows Unicode 还是什么?这里如何检测编码。
唯一能帮助我解决断断续续的西里尔字母字符串的事情 -https://github.com/LuminosoInsight/python-ftfy https://github.com/LuminosoInsight/python-ftfy
该模块几乎修复了所有问题,并且比在线解码器工作得更好。
>>> from ftfy import fix_encoding
>>> mystr = '09. Bát Nhã Tâm Kinh'
>>> fix_encoding(mystr)
'09. Bát Nhã Tâm Kinh'
它可以使用轻松安装pip install ftfy
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)