我正在使用 scrapy,我抓取了一些网站并将抓取页面中的项目存储到 json 文件中,但其中一些包含以下格式。
l = ["Holding it Together",
"Fowler RV Trip",
"S\u00e9n\u00e9gal - Mali - Niger","H\u00eatres et \u00e9tang",
"Coll\u00e8ge marsan","N\u00b0one",
"Lines through the days 1 (Arabic) \u0633\u0637\u0648\u0631 \u0639\u0628\u0631 \u0627\u0644\u0623\u064a\u0627\u0645 1",
"\u00cdndia, Tail\u00e2ndia & Cingapura"]
我可以预期该列表由不同的格式组成,但我想对其进行转换并将字符串以其原始名称存储在列表中,如下所示
l = ["Holding it Together",
"Fowler RV Trip",
"Lines through the days 1 (Arabic) سطور عبر الأيام 1 | شمس الدين خ | Blogs" ,
"Índia, Tailândia & Cingapura "]
提前致谢...........
您有包含 unicode 转义符的字节字符串。您可以使用以下命令将它们转换为 unicodeunicode_escape
codec:
>>> print "H\u00eatres et \u00e9tang".decode("unicode_escape")
Hêtres et étang
您可以将其编码回字节字符串:
>>> s = "H\u00eatres et \u00e9tang".decode("unicode_escape")
>>> s.encode("latin1")
'H\xeatres et \xe9tang'
您可以过滤和解码非 unicode 字符串,例如:
for s in l:
if not isinstance(s, unicode):
print s.decode('unicode_escape')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)