我在 Mac 上使用 python 2.7.10。
表情符号中的标志由一对表示区域指示符号 https://en.wikipedia.org/wiki/Regional_Indicator_Symbol。我想编写一个 python 正则表达式来在一串表情符号标志之间插入空格。
我想在任意一对区域指示符符号之间插入空格。像这样的东西:
re.sub(re.compile(u"([\U0001F1E6-\U0001F1FF][\U0001F1E6-\U0001F1FF])"),
r"\1 ",
u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7")
...这将导致:
u"\U0001F1E7\U0001F1F7 \U0001F1E7\U0001F1F7 "
...但是该代码给了我一个错误:
sre_constants.error: bad character range
(我认为)出现问题的提示如下,它表明 \U0001F1E7 正在正则表达式中变成两个“字符”:
re.search(re.compile(u"([\U0001F1E7])"),
u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7").group(0)
这导致:
u'\ud83c'
遗憾的是我对 unicode 的理解太薄弱,无法取得进一步的进步。
我相信您在 Windows 或 Mac 中使用 Python 2.7,它具有窄 16 位 Unicode 版本 - Linux/Glibc 通常具有 32 位完整 Unicode,Python 3.5 在所有平台上也具有宽 Unicode。
您看到的是一个代码被分成一对代理对。不幸的是,这也意味着您无法轻松地使用单个字符类来完成此任务。不过,这仍然是可能的。的 UTF-16 表示U+1F1E6 (????) http://www.fileformat.info/info/unicode/char/1f1e6/index.htm is \uD83C\uDDE6
,以及U+1F1FF (????) http://www.fileformat.info/info/unicode/char/1f1ff/index.htm is \uD83C\uDDFF
.
我什至根本无法访问此类 Python 构建,但你可以尝试
\uD83C[\uDDE6-\uDDFF]
作为单一的替代品[\U0001F1E6-\U0001F1FF]
,因此你的整个正则表达式将是
(\uD83C[\uDDE6-\uDDFF]\uD83C[\uDDE6-\uDDFF])
字符类不起作用的原因是它尝试创建从第一个代理对的后半部分到第二个代理对的前半部分的范围 - 这失败了,因为范围的开头按字典顺序大于结束。
然而,这个正则表达式在 Linux 上仍然不起作用,你需要使用原来的正则表达式,因为 Linux 版本默认使用 Wide unicode。
或者,将 Windows Python 升级到 3.5 或更高版本。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)