我有一个带有 windows-1256 编码的文本。现在我想将文本从阿拉伯语(windows-1256)转换为utf-8
示例文本 :
Óæí Ïæã ÈíåÞí
result :
سوي دوم بيهقي
我用这个代码来解码和编码为utf-8
# -*- coding: utf-8 -*-
data = "Óæí Ïæã ÈíåÞí"
print data.decode("windows-1256", "replace")
print data.encode("windows-1256")
该代码返回此结果:
أ“أ¦أ أڈأ¦أ£ أˆأأ¥أأ
Traceback (most recent call last):
File "mohmal2.py", line 5, in <module>
print data.encode("windows-1256")
File "/usr/lib/python2.7/encodings/cp1256.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_table)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
我找到了一个可以转换此文本的网站:
您似乎不小心将输入解码为 Windows-1252。
>>> "Óæí Ïæã ÈíåÞí".encode('cp1252').decode('cp1256')
'سوي دوم بيهقي'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)