是否可以构造一个utf-8编解码器无法编码的unicode字符串？

2024-04-19

是否可以构造一个 unicode 字符串utf-8编解码器无法编码？

从文档（https://docs.python.org/2/library/codecs.html https://docs.python.org/2/library/codecs.html），看来utf-8编解码器可以用“任何语言”对符号进行编码。该文档还指出编解码器何时只能编码某些字符或只能编码基本多语言平面。我不知道这是否等于说“不可能构造一个unicode无法使用以下方法转换为字节串的值utf-8编解码器”，但是。

这是表条目utf-8 codec.

编解码器别名目的

utf_8 U8、UTF、utf8 所有语言

这里的动机是我有一个实用程序函数，它接受 unicode 字符串或字节字符串并将其转换为字节字符串。当给定一个字节字符串时，它是一个无操作。这个函数不应该抛出异常，除非它是用非字符串类型调用的，在这种情况下，它应该失败并显示 TypeError，稍后将捕获并记录该错误。（如果我们尝试插入异常消息的项目的 repr 太大，我们仍然会遇到问题，但现在让我们忽略它）。

我正在使用strict设置，因为我希望这个函数在遇到无法编码的 unicode 对象时抛出异常，但我希望这是不可能的。

def utf8_to_bytes(item):
    """take a bytes or unicode object and convert it to bytes,
    using utf-8 if necessary"""
    if isinstance(item, bytes):
        return item
    elif isinstance(item, unicode):
        return codecs.encode(item, 'utf-8', 'strict')
    else:
        raise TypeError("item must be bytes or unicode. got %r" % type(item))

UTF-8 旨在对所有 Unicode 标准进行编码。将 Unicode 文本编码为 UTF-8 通常不会引发异常。

来自关于编解码器的维基百科文章 https://en.wikipedia.org/wiki/UTF-8:

UTF-8 是一种字符编码，能够对 Unicode 定义的所有可能的字符或代码点进行编码

据我所知，Python 2 UTF-8 编码没有边缘情况；非 BMP 数据和代理对的处理方式相同：

>>> import sys
>>> hex(sys.maxunicode)  # a narrow UCS-2 build
'0xffff'
>>> len(u'\U0001F525')
2
>>> u'\U0001F525'.encode('utf-8')
'\xf0\x9f\x94\xa5'
>>> u'\ud83d\udd25'
u'\U0001f525'
>>> len(u'\ud83d\udd25')
2
>>> u'\ud83d\udd25'.encode('utf-8')
'\xf0\x9f\x94\xa5'

注意strict是默认的编码模式。您不需要使用codecs模块也可以，只需使用encode方法上的unicode object:

return item.encode('utf-8')

在Python 3中，情况稍微复杂一些。解码和编码代理对 https://en.wikipedia.org/wiki/UTF-16#U.2BD800_to_U.2BDFFF受到限制；官方标准规定此类字符只能出现在 UTF-16 编码数据中，并且只能出现在低位和高位对中。

因此，您需要明确声明您希望支持此类代码点surrogatepass错误处理程序 https://docs.python.org/3/library/codecs.html#error-handlers:

允许代理代码的编码和解码。这些编解码器通常将代理的存在视为错误。

之间唯一的区别surrogatepass and strict就是它surrogatepass将允许您将 Unicode 文本中的任何代理代码点编码为 UTF-8。您只会在极少数情况下获得此类数据（定义为文字，或者意外地将此类代码点保留在 UTF-16 中不配对，然后使用surrogatepass).

所以，在 Python 3 中，仅当您有机会使用 Unicode 文本生成时surrogatepass解码或从文字数据，你需要使用item.encode('utf8', 'surrogatepass')绝对确定所有可能的 Unicode 值都可以被编码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以构造一个utf-8编解码器无法编码的unicode字符串？的相关文章

处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

打破parallel.foreach？

我怎样才能摆脱困境并行 for http msdn microsoft com en us library system threading tasks parallel for aspx loop 我有一个非常复杂的声明如下所示 Par
如何使用Git在不同平台上拥有不同的工作目录结构？

在 Windows 上我们有root folder1 root folder2 root folder3 在Linux上我们有root folder1 folder2 root folder1 folder3 我强烈希望不要使用子模块或子树
复选框的自定义图片？

我想将复选框显示为切换按钮但我无法使用 CCS 将自定义图片应用到它仍然绘制复选框如何完成这个任务呢 My CSS input type checkbox settingsbutton border style none backgr
Eloquent ORM(laravel 5) 是否负责 SQL 注入？

我在网上找不到它但是 Eloquent ORM 是否像 PDO 准备好的语句一样处理 SQL 注入没有任何框架能够处理 SQL 注入 You处理 SQL 注入框架可以提供方便地执行此操作的方法但您仍然必须一致地使用这些方法例如
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
从 VideoView 录制视频

目前在做直播项目成功实现视频直播现在我的下一个任务是录制 VideoView 中正在播放的视频我进行了搜索能够找到捕获视频但使用表面相机但在 VideoView 中我没有任何表面任何帮助表示赞赏你可以看到this http
支持多屏幕的应用程序骨架

正如我们所知 Android 随各种设备一起提供这些设备具有不同的功能功能分辨率和屏幕尺寸因此在开发支持的应用程序时多个小和大屏幕存在尺寸和布局障碍这导致了不同的组合屏幕尺寸分辨率和 DPI这给 Android 设备的设计
gem install pg 错误：无法理解 Yosemite w/ Ruby 2.1.5 上的 kern.osversion `14.0.0'

我使用 RVM 安装 Ruby 2 1 5 并再次运行捆绑包现在 pg gem 无法安装我收到此错误 gem install pg v 0 17 1 with pg config Applications Postgres app Co
c# 如何在 select 语句中指定 not ？

我在数据集上使用 select 方法来检索符合我的条件的结果 foreach DataRow dr in dsPone2 Tables tt pone Select strWhereCondition dsPone Tables tt po
Tensorflow 中的平衡准确度分数

我正在为高度不平衡的分类问题实现 CNN 并且我想在张量流中实现自定义指标以使用选择最佳模型回调具体来说我想实现平衡的准确度分数这是每个类别的召回率的平均值请参阅 sklearn 实现here https scikit lear
如何将一个word文档的内容复制到另一个word文档中？

我有一个包含一些文本和图像的Word文档我想使用C 将word文档的内容复制到另一个word文档中 Thanks 尝试下面的代码这可能对你有帮助 using System using System Collections Generic
Android 与 gms play 服务的依赖问题

我收到一个错误因为我正在尝试使用来自 Google 的应用程序索引库同时还导入一个库该库使用旧版本的 android gms 库作为不同的组件来自 Google Play 服务的转换库错误指出所有 com google andr
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
“无法转换为 IComparer”

我为装箱的RegistryItem对象定义了以下IComparer public class BoxedRegistryItemComparer IComparer public int Compare object left object
GPUImageAlphaBlendFilter 来自 GPUImageStillCamera 源的实时处理

我正在使用 GPUImage 库我正在尝试实时混合两个图像并将它们显示在GPUImageView 我正在尝试将普通相机输入与其过滤版本进行 alpha 混合这是我想做的 gt v camera alpha blend gt image
多个docker容器日志

我试图一次从多个 Docker 容器获取日志顺序无关紧要这将按预期工作如果types ContainerLogsOption Follow设置为 false If types ContainerLogsOption Follow设置为
获取鼠标下的窗口值

我正在使用 Cocoa Objective C 我想问你是否可以从非活动窗口获取窗口信息例如 pid 窗口名称我的确切意思是如果有两个不同任务的非全屏也不是最大化窗口 A 和 B 比如说 Chrome A 和 Firefox B
是否可以在 C# 中为可空值和不可空值编写隐式转换运算符？

我正在尝试写一个Alias课程使我能够 int n new Count 1 也就是说它封装了一个int在这种情况下作为Count 它提供了一些类型安全性和域含义同时它自动转换回底层类型对于不可为空的引用类型我还有另一个问题我无法弄
是否可以构造一个utf-8编解码器无法编码的unicode字符串？

是否可以构造一个 unicode 字符串utf 8编解码器无法编码从文档 https docs python org 2 library codecs html https docs python org 2 library codecs

是否可以构造一个utf-8编解码器无法编码的unicode字符串？

是否可以构造一个utf-8编解码器无法编码的unicode字符串？ 的相关文章

随机推荐

热门标签

是否可以构造一个utf-8编解码器无法编码的unicode字符串？的相关文章