Python 无法使用 surrogateescape 进行编码

2023-12-28

我在 Python (3.4) 中遇到 Unicode 代理编码问题：

>>> b'\xCC'.decode('utf-16_be', 'surrogateescape').encode('utf-16_be', 'surrogateescape')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'utf-16-be' codec can't encode character '\udccc' in position 0: surrogates not allowed

如果我没记错的话，根据Python 文档 https://docs.python.org/3/library/codecs.html#error-handlers:

'surrogateescape'：解码时，用单独的代理替换字节代码范围从 U+DC80 到 U+DCFF。此代码将被退回使用“surrogateescape”错误处理程序时进入同一字节对数据进行编码时。

代码应该只生成源序列（b'\xCC'）。那么为什么会引发异常呢？

这可能与我的第二个问题有关：

版本 3.4 中的更改：utf-16* 和 utf-32* 编码器不再允许对代理代码点 (U+D800–U+DFFF) 进行编码。

(From https://docs.python.org/3/library/codecs.html#standard-encodings https://docs.python.org/3/library/codecs.html#standard-encodings)

据我所知，如果没有代理对，就不可能将某些代码点编码为 UTF-16。那么这背后的原因是什么呢？

进行此更改是因为统一码标准明确禁止此类编码。看问题#12892 http://bugs.python.org/issue12892，但显然surrogateescape错误处理程序无法与 UTF-16 或 UTF-32 一起使用，因为这些编解码器与 ASCII 不兼容。

具体来说：

我测试了 utf_16_32_surrogates_4.patch: surrogateescape 作为编码器不按预期工作。
>>> b'[\x00\x80\xdc]\x00'.decode('utf-16-le', 'ignore')
'[]'
>>> b'[\x00\x80\xdc]\x00'.decode('utf-16-le', 'replace')
'[�]'
>>> b'[\x00\x80\xdc]\x00'.decode('utf-16-le', 'surrogateescape')
'[\udc80\udcdc\uffff'
=> 我预计'[\udc80\udcdc]'.

得到的回应是：

是的，surrogateescape 不适用于 ASCII 不兼容的编码，也不能。首先，它不能代表解码的结果b'\x00\xd8'来自 utf-16-le 或b'ABCD'来自 utf-32*。这个问题值得在 Python-Dev 上单独发布（甚至 PEP）和讨论。

我相信surrogateescapehandler 更适合 UTF-8 数据；现在，解码为 UTF-16 或 UTF-32 也可以使用它，这是一个很好的额外功能，但显然它不能在另一个方向上工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

utf16

surrogatepairs

Python 无法使用 surrogateescape 进行编码的相关文章

Python dict 到 DataFrame Pandas - 级别

几个月前 Romain X 在这个问题上帮了我很多忙 Python 字典到 DataFrame Pandas https stackoverflow com questions 32770359 python dict to datafra
在python中合并两个json对象

我正在 python 中合并两个 json 我正在做 import json json obj json dumps a 1 2 json obj1 json dumps a 3 4 json obj json obj1 print jso
如何对预测值进行反向移动平均（在 pandas 中，rolling().mean）操作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个像这样的 df import numpy as np import pandas as pd import matplotlib
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
如何将多项式拟合到带有误差线的数据

我目前正在使用 numpy polyfit x y deg 将多项式拟合到实验数据然而我想拟合一个基于点误差使用加权的多项式我已经发现scipy curve fit http docs scipy org doc scipy refe
Python矩阵问题[重复]

这个问题在这里已经有答案了这是从这个线程继续的 Python矩阵有什么解决方案吗 https stackoverflow com questions 5835583 python matrix any solution Input fr
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
无法解析 ReferenceProperty -- App Engine

我遇到了一个错误无法找出其根本原因错误如下 ReferenceProperty 无法解析 u StatusLog STATUSLOGSID 此错误仅有时发生大约一天一次或两次生成此错误的脚本成功的次数多于失败的次数该错误最奇怪的事
更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
使用 Pytest 捕获 SystemExit 消息

我正在使用 pytest 编写测试我遇到了一些函数抛出异常的情况SystemExit如果输入错误终端上会显示一些错误消息我想为以下情况编写测试SystemExit抛出并验证输出错误消息中是否有特定字符串这是代码 def test v
matplotlib 中矩形面片之间存在不需要的空间

以下代码绘制两个红色矩形红色矩形应该彼此相邻之间没有空间在 python 图中这是可以的在导出的 pdf 中矩形之间有一个细长但明显的空白有什么方法可以解决这个问题吗 import matplotlib pyplot as p
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
Python、Oracle DB、列中的 XML 数据，获取 cx_Oracle.Object

我正在使用 python 从 Oracle DB 获取数据所有行都有一个包含 XML 数据的列当我使用 python 打印从 Oracle DB 获取的数据时包含 XML 数据的列将打印为 0x7fffe373b960 处的 cx O
SQLAlchemy 是否会从同一连接重置 SQLAlchemy 会话之间的数据库会话？

SQLAlchemy 利用连接池这意味着相同的连接可以在不同的 SQLAlchemy 会话之间重复使用但是单个 SQLAlchemy 会话包含在其自身内并在关闭后被丢弃然而连接保持活动状态我想使用 set config 将一
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers

随机推荐

对于 read_csv 和数据值 NA 来说，这是正确的行为吗？

我已经开了一个issue https github com pydata pandas issues 10647在 GitHub 以下行为对我来说似乎不正确似乎如果默认为read csv is na values False那么包括 NA
如何在 Javascript 中通过标签分割字符串

我有一个 data text 字符串它返回如下值 span Name span Message Javascript 是否可以将这个值分成两个以便我可以在两个不同的变量中获取名称和消息 I tried var str data t
JVM进程大小和内存堆大小之间的巨大差异

我正在 Windows 8 1 64 位 4GB RAM 上开发 java swing 应用程序JDK 版本 8u20 64 位问题是当我启动应用程序时Netbeans 分析器带监视器选项当第一个 Jframe 加载时应用程序内存堆就
Neo4j 将数据存储在哪里？

我是 Neo4j 的新手正在 Ubuntu 上进行一些测试我想知道 Neo4j 将数据存储在哪里他们将创建的节点和关系存储在哪里这应该有帮助 dpkg L neo4j config etc neo4j neo4j propertie
分割空格避免双引号 JS 字符串：从 'a "b \\" c" d ' 到 ['a','"b \\" c"','d']

我目前正在为自定义文件格式构建一个小型文本编辑器我有一个 GUI 但我还实现了一个小型输出控制台我想要实现的是添加一个非常基本的输入字段来执行一些命令并传递参数命令如下所示 compile test json output bin l
python pandas根据其他列中的条件进行新列分类

使用以下 python pandas dataframe df df pd DataFrame transaction id A123 A123 B345 B345 C567 C567 D678 D678 product id 255472
如何使 Identity Core 生成的访问令牌失效？

我在 Net5 应用程序上实现了 Identity Core 以处理 4 个端点的登录注销注册和刷新当我调用注销端点并发送刷新令牌时它会从数据库中删除刷新令牌以便用户无法刷新访问令牌问题是我仍然可以使用访问令牌来调用应用程序的端
Android PDF 查看器库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道这个问题已经被问过很多次了但我仍然不清楚是否有一个现有的且正常工作的库可以本地显示 PDF 文
Pod 库未正确安装

我有一个带有 proj 结构的项目 XyzAbc LICENSE XyzAbc XyzAbc h Info plist file1 swift file2 swift Products XyzAbc framework 构建这个项目后我选择
wsgi 错误：地址已在使用中 - socketio/django/apache2

我的项目是使用 React create react app React router 无 webpack Django rest 和后端带有 eventlet 的 Socketio 创建的我在使用 apache2 进行部署时遇到了 3
注意：未定义的变量：第 2 行 C:\xampp\htdocs\hoc\get_session.php 中的 _SESSION

第一页第二页
面向对象的设计 - 咒语

我正在开发我的第一个 Java 项目这是一个基本的角色扮演游戏现在我正在研究咒语我需要一些 OOD 指导 I have Character 这是一个abstract class Character有一些subclasses like
UIWebView 无法加载 HTTPS 页面：错误域 = NSURLErrorDomain 代码 = -999 “操作无法完成。（NSURLErrorDomain 错误 -999。）”

注这个问题还没有答案 I use a UIWebView加载以下 URL https buchung salonmeister de ort 301655 menue offerId 907601 venueId 301655 https
为什么 Android 没有出现在 Eclipses 的首选项中？

我已经按照以下方式安装了 Android 开发者工具官方说明 http developer android com sdk index html 为什么选项卡没有出现在Windows gt Preferences as 他们说 http d
如何在Msbuild中设置SGEN工具路径以针对3.5框架

我刚刚将一个项目从 VS2008 升级到 VS2010 但我仍然以 3 5 框架为目标在我的项目文件中我有一个自定义任务来运行 SGEN 以生成 XmlSerializers dll 然而正在运行的 sgen 版本针对的是 4 0 框
尽管使用两级命名空间编译，但库仍需要平面命名空间中的符号

我动态加载Pythondlopen and RTLD LOCAL以避免与另一个库发生冲突该库碰巧包含一些同名的符号执行我的MVCE上面在 macOS 上使用 Xcode 失败了因为它期望 PyBuffer Type在全局命名空间中 T
如何编写带有时区但没有时间部分的 ISO 8601 日期

An ISO 8601 日期时间 https en wikipedia org wiki ISO 8601 Combined date and time representations带有时区的格式如下 2018 09 07T05 28 4
“条件表达式只能是布尔值，不能是整数。”是什么意思？意思是？

条件表达式只能是布尔值不能是整数是什么意思意思是我不知道Java 我知道C 但不足以理解它的含义请帮忙在http www javacoffeebreak com articles thinkinginjava comparing
从通知启动意图时出现“从非活动上下文服务调用 startactivity”警告

I ve a service这开始了一个notification with startForeground 我希望通知在单击时启动活动 The acitivty我想启动定义为android launchMode singleTask 通常在
Python 无法使用 surrogateescape 进行编码

我在 Python 3 4 中遇到 Unicode 代理编码问题 gt gt gt b xCC decode utf 16 be surrogateescape encode utf 16 be surrogateescape Traceb

Python 无法使用 surrogateescape 进行编码

Python 无法使用 surrogateescape 进行编码 的相关文章

随机推荐

热门标签

Python 无法使用 surrogateescape 进行编码的相关文章