python raw_input 带有包含字符串的重音符号的奇怪行为

2024-04-30

我正在编写一个程序，要求用户输入包含重音符号的输入。测试用户输入字符串以查看其是否与程序中声明的字符串匹配。如下所示，我的代码无法正常工作：

code

# -*- coding: utf-8 -*-

testList = ['má']
myInput = raw_input('enter something here: ')

print myInput, repr(myInput)
print testList[0], repr(testList[0])
print myInput in testList

使用 pydev 在 eclipse 中输出

enter something here: má
m√° 'm\xe2\x88\x9a\xc2\xb0'
má 'm\xc3\xa1'
False

空闲时输出

enter something here: má
má u'm\xe1'
má 'm\xc3\xa1'

Warning (from warnings module):
  File "/Users/ryanculkin/Desktop/delete.py", line 8
    print myInput in testList
UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
False

在比较两个字符串时如何让我的代码打印 True ？

此外，我注意到在相同输入上运行此代码的结果会有所不同，具体取决于我使用的是 eclipse 还是 IDLE。为什么是这样？我的最终目标是将我的程序放到网络上；由于结果似乎如此不稳定，有什么我需要注意的吗？

你遇到的是raw_input给你一个字节字符串，但你要比较的字符串是一个 Unicode 字符串。 Python 2 尝试将它们转换为通用类型进行比较，但这失败了，因为它无法猜测字节字符串的编码 - 因此，您的解决方案是显式进行转换。

通常，您应该将程序中的所有字符串作为 unicode 字符串浮动 - 您以字节形式读入的任何内容都会立即转换为 unicode；程序中作为文字的任何内容，请将其设为 unicode 文字，除非由于某种原因明确需要为字节串。这导致统一码三明治 http://nedbatchelder.com/text/unipain/unipain.html#35，这通常会让您的生活更轻松。

对于文字，您要么想要将字符串声明为u'má'，或者有：

from __future__ import unicode_literals

靠近脚本顶部的位置'un-prefixed strings'统一码。您收到的错误意味着您已经完成了这一点。

要读取 unicode 字符串，您需要意识到raw_input给你一个字节串 - 所以，你需要使用它的转换它.decode方法。你需要通过.decodeSTDIN 的编码 - 可以作为sys.stdin.encoding（不要只是假设这是 UTF8 - 它经常会，但并非总是如此） - 所以，整行将是：

string = raw_input(...).decode(sys.stdin.encoding)

但到目前为止，解决这个问题最简单的方法是升级到 Python 3（如果可以的话）——在那里，input()（其行为类似于 Py2raw_input否则）给你一个unicode字符串（它调用.decode对于你来说，你不必记住它），并且默认情况下，无前缀的字符串是 unicode 字符串。这一切都使得使用重音字符变得更加容易 - 它本质上意味着您尝试的逻辑将只是工作在 Py3 中，因为它做了正确的事情。

但请注意，您看到的错误仍然会在 Py3 中出现 - 但由于它默认执行正确的操作，因此您必须努力工作才能遇到它。但如果你这样做，比较将只是 False，没有警告 - Py3 不会尝试在字节和 unicode 字符串之间隐式转换，因此任何字节字符串总是与任何 unicode 字符串比较不相等，并且尝试对它们进行排序将抛出异常。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)