将 Unicode 代码点数字转换为 Unicode 字符

2023-12-14

我正在使用 Python 3 中的 argparse 库从命令行参数读取 Unicode 字符串。这些字符串通常包含“普通”Unicode 字符（扩展拉丁语等），但有时（特别是当字符属于从右到左的脚本时）将字符串编码为 Unicode 代码点会更容易，例如 \u0644 。但 argparse 将这些指示符视为字符序列，并且不会将它们转换为它们指定的字符。例如，如果命令行参数是

... -a "abc\06d2d" ...

那么我在 argparse 变量中得到的是

"abc\06d2d"

而不是预期的

"abcےd"

（“c”和“d”之间的字符是 yeh baree）。当然这两种结果都是合乎逻辑的，只是我想要的是第二个结果。

我尝试在解释器中重现这一点，但在大多数情况下，Python3 会自动将“abc\06d2d”之类的字符串转换为“abc-d”。当我使用 argparse 读取字符串时，情况并非如此......

我想出了一个函数来进行转换，见下文。但我觉得我错过了一些更简单的东西。有没有更简单的方法来进行这种转换？（显然我可以使用 str.startswith() 或正则表达式来匹配整个内容，而不是逐个字符地匹配，但下面的代码实际上只是一个说明。似乎我不应该创建自己的函数来匹配整个内容完全这样做，特别是因为在某些情况下它似乎会自动发生。）

---------我执行此操作的代码如下---------

def ParseString2Unicode(sInString):
  """Return a version of sInString in which any Unicode code points of the form 
        \uXXXX (X = hex digit)  
     have been converted into their corresponding Unicode characters.
     Example:
         "\u0064b\u0065" 
     becomes
         "dbe"
  """
  sOutString = ""
  while sInString:
      if len(sInString) >= 6 and \
         sInString[0] == "\\" and \
         sInString[1] == "u" and \
         sInString[2] in "0123456789ABCDEF" and \
         sInString[3] in "0123456789ABCDEF" and \
         sInString[4] in "0123456789ABCDEF" and \
         sInString[5] in "0123456789ABCDEF":
          #If we get here, the first 6 characters of sInString represent
          # a Unicode code point, like "\u0065"; convert it into a char:
          sOutString += chr(int(sInString[2:6], 16))
          sInString = sInString[6:]
      else:
          #Strip a single char:
          sOutString += sInString[0]
          sInString = sInString[1:]
  return sOutString

您可能想查看的是raw_unicode_escape编码。

>>> len(b'\\uffff')
6
>>> b'\\uffff'.decode('raw_unicode_escape')
'\uffff'
>>> len(b'\\uffff'.decode('raw_unicode_escape'))
1

所以，该函数将是：

def ParseString2Unicode(sInString):
    try:
        decoded = sInString.encode('utf-8')
        return decoded.decode('raw_unicode_escape')
    except UnicodeError:
        return sInString

然而，这也匹配其他 unicode 转义序列，例如\Uxxxxxxxx。如果你只是想搭配\uxxxx，使用正则表达式，如下所示：

import re

escape_sequence_re = re.compile(r'\\u[0-9a-fA-F]{4}')

def _escape_sequence_to_char(match):
    return chr(int(match[0][2:], 16))

def ParseString2Unicode(sInString):
    return re.sub(escape_sequence_re, _escape_sequence_to_char, sInString)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

将 Unicode 代码点数字转换为 Unicode 字符的相关文章

默认情况下在 Jupyter 笔记本中配置第一个单元

有没有办法为 Jupyter 笔记本中的特定 python 内核配置默认的第一个单元我同意默认的 python 导入违背了良好的编码实践那么我可以配置笔记本使新的 python 笔记本的第一个单元始终是 import numpy a
对 Python DataFrame 进行子集化

我正在从 R 过渡到 Python 我刚刚开始使用 Pandas 我有一个可以很好地子集化的 R 代码 k1 lt subset data Product p id Month lt mn Year yr select c Time Pro
计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
cv2.face.mindistancepredictcollector() 错误

我已经安装了带有额外模块的 opencv 3 1 0 但是当我尝试使用 gt gt gt s cv2 face MinDistancePredictCollector 它返回一个错误 Traceback most recent call l
确定Python模块中的函数是否可用

我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能但是此方法并非在所有平台上都可用因此我正在编写一些后
Weasyprint 在调用 write_pdf 时获得未定义的属性：“AttributeError：‘PosixPath’对象没有属性‘read_text’”

我正在 ubuntu 18 04 上运行 weasyprint 项目并尝试创建一个 pdf 当我尝试设置页脚图像时问题就开始了我正在 python 3 6 7 上运行这是我调用 weasyprint 的代码 import sys i
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
Java字符串中的字符数[重复]

这个问题在这里已经有答案了可能的重复 Java 使用unicode上划线显示平方根时字符串的长度 https stackoverflow com questions 7704426 java length of string when u
将数据框列打包到 pandas 中列出

我需要将 pandas DataFrame 列打包到包含列表的一列中例子 For gt gt gt df a b c 0 81 88 1 1 42 7 23 2 8 37 63 3 18 22 20 制作列表栏 list col 0 81
在 Docker 容器内运行时，如何自动在 API 路由文件中进行 FASTAPI 拾取更改？

我通过 docker 运行 FastApi 在 docker compose 中创建一个名为 ingestion data 的服务我的 Dockerfile FROM tiangolo uvicorn gunicorn fastapi p
为什么全新安装后会有pip和conda包？

All Windows 10 64 位 d l Anaconda 2 5 0 与 Python3 64 位并安装全新安装后我输入conda list 并且在软件包中我看到重复像 jupyter 1 0 0 py35 1 jupyte
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
Python 类方法的示例用例是什么？

我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂我正在寻找 Pytho
Python请求401错误但url在浏览器中打开

我正在尝试从这个位置提取 json https www nseindia com api option chain indices symbol BANKNIFTY https www nseindia com api option cha
python pandas如何在多个条件下过滤字符串

我有以下数据框 import pandas as pd data 5Star FiveStar five star fiv estar data pd DataFrame data columns columnName 当我尝试用一种条件
连接运算符 + 或 ,

var1 abc var2 xyz print literal var1 var2 literalabcxyz print literal var1 var2 literal abc xyz 除了带有的自动空格之外两者有什么区别哪个通
Python pip 安装错误 [SSL: CERTIFICATE_VERIFY_FAILED]

我已经尝试解决这个问题有一段时间了由于某种原因我陷入了 ssl 问题并且不知道发生了什么问题我已经安装了 python2 7 和 easy install2 7 但是当尝试使用 easy install2 7 安装 pip 时出
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal

随机推荐

python 3.2导入问题

过去几天我一直在尝试安装分发进行故障排除以便可以开始导入第 3 方模块我已经有几年没有使用 python 了所以我重新记住了那些非常困难的事情我按照给定的目录的错误进行操作但不知道下一步该怎么做我正在运行 mac 版本 10 8
Rails 5 中的“left_joins”和“includes”有什么区别？

在Rails 5中他们添加了ActiveRecord查询方法left joins 有什么区别left joins and includes 我一直都看到includes作为左连接 includes默认情况下在 2 个查询中加载关联数据
ConnectivityManager.CONNECTIVITY_ACTION，注册接收器时总是广播？

我正在注册一个接收器来捕获 ConnectivityManager CONNECTIVITY ACTIONin code即我没有在应用程序清单中注册它一切工作正常但我注意到尽管网络已经打开但只要我注册接收器我就会自动收到广播我的
合并两个文本文件的最简单的脚本方法 - Ruby、Python、JavaScript、Java？

我有两个文本文件一个包含 HTML 另一个包含 URL slugs 文件 1 HTML li a href article a li
在 Common Lisp 中创建函数定义时，首选 defun 还是 setf？为什么？

使用定义的函数的根本区别是什么defun and setf如下所示除了风格考虑之外是否一种方法优于另一种方法 Using defun defun myfirst l car l MYFIRST myfirst A B C A Using
在Python中创建HTTPS代理服务器

我正在尝试在 python 中创建 HTTPS 代理服务器我创建了以下适用于 HTTP 的脚本 usr bin env python3 coding utf 8 import socket from threading import Th
C# - for 循环以奇怪的间隔冻结

我正在研究问题14在 Project Euler 上我的代码似乎会以随机的间隔冻结没有明显的原因 static void Main int maxNum 0 int maxLength 0 for int x 2 x lt 100000
如何强制 jqGrid 4.10.1-pre 始终对 ' 字符进行编码[重复]

这个问题在这里已经有答案了免费jqgrid使用设置 autoencode true 网格定义包含 grid jqGrid url admin API Entity datatype json editurl admin Detail Ed
C# 纸牌游戏中的最佳纸牌选择

问题在于在游戏的每个时刻遵循以下规则选择最佳选项您只能选择最左边或最右边的卡你的对手总是先选并且总是从最左边或最右边的牌中选择最大的牌如果是平局它将选择最右边的考虑到这并不总是最好的选择有时不可能获胜但无论如何你必须通过与
编译一个Rcpp包，调试符号中包含行信息

我不知道如何为我的 R 包提供共享库调试符号源行信息我缺少什么我创建以下内容src Makevars file PKG CXXFLAGS O0 ggdb PKG LIBS O0 ggdb 我使用编译包R CMD INSTALL no m
为什么 Spring Batch 为每个线程使用 1 个数据库连接？

为什么 Spring Batch 为每个线程使用 1 个数据库连接 Stack Java 8 春季启动 1 5 春季批次 3 0 7 光CP 2 7 6 数据源配置 batcdb postgres 读数据库 Oracle writedb p
以编程方式从 iPhone 应用程序访问设备音乐文件

我想访问 iPhone 上可用的音乐文件并将其列出或将文件放入我的 iPhone 应用程序中并开始播放有可能做到吗类似于我们使用 UIImagePickerController 委托方法从设备相册访问图像的方式谢谢你您可以参考M
是否可以使用 try/catch 捕获段错误？

我做了这个测试来看看发生了什么 try int x 0 x 1234 catch cout lt lt OK 但它抛出了段错误为什么它没有捕获段错误不你不能 A SEGFAULT不是一个常规的例外您显示的代码只是未定义的行为任何事
没有标签的结构

如果我声明一个这样的结构 struct int a char b ident 该结构有类型吗即未指定的类型默认类型等相反如果我声明一个结构例如 struct J int a char b ident 我们可以说ident是一个类型
JsHint 警告：正则表达式文字可能会与“/=”混淆

我的 Javascript 代码中有这一行 var regex Hello n JsHint 在这一行给了我一个警告 A regular expression literal can be confused with 但我不知道这个正则表达
如何解析GDB中的段：偏移地址

gdb info registers ds ds 0x7b 123 gdb disassemble Dump of assembler code for function printf plt 0x0804831c lt 0 gt jmp
播放错误时关闭 MPMoviePlayerViewController

我的 MPMovies PlayerViewController 遇到问题如果控制器在指定的 URL 处找不到电影它会显示白屏并且我无法使其关闭这就是我启动电影播放器的方式 void playVideo NSString path
多线程不起作用

我正在制作一个简单的多线程程序来解释线程的工作原理我想要两个计数器同时计数但它不起作用它仅在我使用时才有效 CheckForIllegalCrossThreadCalls False 但是我想以正确的方式编程 Code Dim Th
nginx：未知指令“位置”

这是我的代码从第 35 行开始 location index index php root home body if request filename js css images robots txt index php rewrite
将 Unicode 代码点数字转换为 Unicode 字符

我正在使用 Python 3 中的 argparse 库从命令行参数读取 Unicode 字符串这些字符串通常包含普通 Unicode 字符扩展拉丁语等但有时特别是当字符属于从右到左的脚本时将字符串编码为 Unicode 代码点

将 Unicode 代码点数字转换为 Unicode 字符

将 Unicode 代码点数字转换为 Unicode 字符 的相关文章

随机推荐

热门标签

将 Unicode 代码点数字转换为 Unicode 字符的相关文章