在 Python 3 中,如何将字节字符串插入到常规字符串中并获得与 Python 2 相同的行为(即:仅获取转义码,而不获取转义码)b
前缀或双反斜杠)?
e.g.:
Python 2.7:
>>> x = u'\u041c\u0438\u0440'.encode('utf-8')
>>> str(x)
'\xd0\x9c\xd0\xb8\xd1\x80'
>>> 'x = %s' % x
'x = \xd0\x9c\xd0\xb8\xd1\x80'
Python 3.3:
>>> x = u'\u041c\u0438\u0440'.encode('utf-8')
>>> str(x)
"b'\\xd0\\x9c\\xd0\\xb8\\xd1\\x80'"
>>> 'x = %s' % x
"x = b'\\xd0\\x9c\\xd0\\xb8\\xd1\\x80'"
请注意,使用 Python 3,我得到了b
我的输出中的前缀和双下划线。我想要得到的结果是我在 Python 2 中得到的结果。
在 Python 2 中你有类型str
and unicode
. str
表示一个简单的字节字符串,而unicode
是一个 Unicode 字符串。
对于 Python 3,这发生了变化:现在str
是什么unicode
在Python 2和byte
是什么str
在Python 2中。
所以当你这样做时("x = %s" % '\u041c\u0438\u0440').encode("utf-8")
你实际上可以省略u
前缀,因为它是隐式的。 python 中未显式转换的所有内容都是 unicode。
这将产生 Python 3 中的最后一行:
("x = %s" % '\u041c\u0438\u0440').encode("utf-8")
现在我如何编码after最终结果,这是您应该始终执行的操作:获取传入对象,将其解码为 unicode(无论您如何执行),然后在生成输出时,以您选择的编码对其进行编码。不要尝试处理原始字节字符串。这只是丑陋且不赞成的行为。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)