UTF-8 中的代理字符是什么？

2023-11-22

我有一个奇怪的验证程序，用于验证 utf-8 字符串是否是有效的主机名（PHP 中的 Zend Framework Hostname valdiator）。它允许 IDN（国际化域名）。它将每个子域与由其十六进制字节表示定义的字符集进行比较。两个这样的集合是D800-DB7F and DC00-DFFF。 PHP正则表达式比较函数调用preg_match在这些比较期间失败，它说DC00-DFFF此函数中不允许使用字符。从维基百科我了解到这些字节在 UTF-8 中被称为代理字符。它们是什么以及它们实际上对应于哪些字符？我读了好几个地方，但还是不明白它们是什么。

UTF-8 中的代理字符是什么？

这几乎就像一个技巧问题。

近似答案#1：4 个字节（如果配对并以 UTF-8 编码）。

近似答案#2：无效（如果未配对）。

近似答案#3：它不是 UTF-8；它不是 UTF-8。它是修改后的UTF-8.

概要：该术语不适用于 UTF-8。

Unicode 代码点的范围需要 21 位数据。

UTF-16 代码单元为 16 位。 UTF-16 将某些范围的 Unicode 代码点编码为一个代码单元，将其他代码点编码为两个代码单元对，第一个来自“高”范围，第二个来自“低”范围。 Unicode 将与高低对范围匹配的代码点保留为无效。他们有时被称为代理人，但他们不是角色。它们本身没有任何意义。

UTF-8 代码单元是 8 位。 UTF-8 分别以一到四个代码单元对几个不同范围的代码点进行编码。

#1 碰巧 UTF-16 使用两个 16 位代码单元编码的代码点，UTF-8 使用 4 个 8 位代码单元编码，反之亦然。

#2 可以对无效的codepoint应用UTF-8编码算法，即无效。它们无法解码为有效的代码点。兼容的读取器会抛出异常或抛出字节并插入替换字符 (�)。

#3 Java 提供了一种通过称为 JNI 的系统在外部代码中实现功能的方法。 Java String API 提供对 String 和 char 作为 UTF-16 代码单元的访问。在 JNI 的某些地方，可能是为了方便起见，字符串值是修改后的UTF-8。 Modified UTF-8 是应用于 UTF-16 代码单元而不是 Unicode 代码点的 UTF-8 编码算法。

无论如何，字符编码的基本规则是使用用于写入的编码进行读取。如果要将任何字节序列视为文本，则必须知道编码；否则，您会丢失数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UTF-8 中的代理字符是什么？的相关文章

在 R 中从 MySQL 获取 UTF-8 文本返回“？？？”

我一直在尝试从 R 获取 MySQL 数据库中的 UTF 8 文本我在 OS X 上运行 R 通过 GUI 和命令行都尝试过其中默认区域设置是 en US UTF 8 并且没有无论我尝试什么查询结果都显示对于所有非 ASCII 字符
如何以 UTF-8 打开文件并以 UTF-16 写入另一个文件

如何打开 UTF 8 格式的文件并写入 UTF 16 格式的另一个文件我需要一个例子因为我对和 a 等某些字符有疑问当写 m dic 时我发现文件中写着 m dic 您可以按如下方式创建阅读器 InputStream is new
从 utf8_unicode_ci Mysql 表打印文本时出现错误字符

我将文本插入更新到 utf8 unicode ci 编码表mysql query SET NAMES utf8 它在 mysql 表中显示为但是当我用 PHP 打印它时它看起来像在页面上我尝试添加但没有用如何在页面上正确显示
Java Collator 与 MySQL 的 utf8_general_ci 排序规则具有相似的特性

有没有Collator与MySQL的utf8 general ci具有相同特征的实现我需要一个不区分大小写的整理器不区分德语元音变音如与元音a 背景我们最近遇到了一个错误该错误是由表中的错误排序规则引起的使用的排序规则是utf8
是否可以构造一个utf-8编解码器无法编码的unicode字符串？

是否可以构造一个 unicode 字符串utf 8编解码器无法编码从文档 https docs python org 2 library codecs html https docs python org 2 library codecs
“流不包含有效的 UTF-8”是什么意思？

我正在创建一个简单的 HTTP 服务器我需要读取请求的图像并将其发送到浏览器我正在使用这段代码 fn read file mut file name String gt String file name file name replac
如何绕过mysql中无效的utf8字符串

我有一个包含阿拉伯文本数据的大文本文件当我尝试将其加载到 MySQL 表中时出现错误消息Error code 1300 invalid utf8 character string 这是我到目前为止所尝试过的 LOAD DATA INFI
是否可以将包含“高”unicode 字符的字符串转换为由从 utf-32（“真实”）代码派生的 dec 值组成的数组？

请看一下这个在理论上可能的字符串上运行的脚本
使用 XSLT 转换 XML 并保留 Unicode 字符

我的 XSLT 转换已经成功了几个月直到我遇到带有 Unicode 字符很可能是表情符号的 XML 文件我需要保留 Unicode 但 XSLT 正在将其转换为 HTML 实体我认为将编码设置为 UTF 8 可以解决我的问题但我
协议缓冲区和 UTF-8

编码方案多操作系统和 Endian nes 的历史导致了对所有形式的字符串数据即所有字母表进行编码方面的混乱因此协议缓冲区仅处理其字符串类型中的 ASCII 或 UTF 8 并且我看不到任何接受 C wstring 的多态重载那
使用 FileOutputStream 创建 UTF-8 PDF 文件

我正在使用 JasperReports 和 DynamicReports 以及这段 java 代码来创建包含 utf 8 字符的 pdf 格式的报告问题是生成的 pdf 文件根本不包含 utf 8 字符就像它们已被替换为使用 Outp
使用 NumPy loadtxt/savetxt 指定编码

使用 NumPyloadtxt and savetxt只要涉及非 ASCII 字符函数就会失败这些函数主要用于数字数据但也支持字母数字页眉页脚 Both loadtxt and savetxt似乎正在应用 latin 1 编码我发
通过 XMLHTTPRequest 发布时无法设置自定义编码

从上个版本的chrome浏览器的JS控制台来看 x new XMLHttpRequest x open POST a 2 x setRequestHeader Content Type application x www form urle
是否可以让 SQL Server 将排序规则转换为 UTF-8 / UTF-16

在我正在处理的一个项目中我的数据存储在 SQL Server 中并具有排序规则Danish Norwegian CI AS 数据通过 FreeTDS 和 ODBC 输出到将数据作为 UTF 8 处理的 python 一些字符如和编
如何编写对 UTF-8 安全的代码？

我们有一组针对 ASCII 字符集开发的应用程序现在我们正尝试在冰岛安装它但遇到了冰岛字符被搞砸的问题我们正在解决我们的问题但我想知道是否有一个好的指南来编写专为 8 位字符设计的 C 代码并且在提供 UTF 8 数据时可
将传入字符串的 unicode 表示形式转换为 UTF-8？

我正在读取一些已经转换为 html 样式代码的数据我现在需要将其转换回 UTF 8 字符以供查看不幸的是我无法使用浏览器查看该字符串我读过有关 java 中的转换的内容似乎如果你有一个 uxxxx 字符串那么编译器会为你转换然
Twitter Streaming API 使用的官方编码？是UTF-8吗？

Twitter 流 API 的官方编码是什么根据我所看到的我最好的猜测是 UTF 8 但我想避免做出假设我见过的 Twitter 网站上唯一暗示他们使用什么作为官方编码的部分是在这里 Twitter 不想因为我们使用 UTF 8 或相
为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？

所以我们都知道 Mac OS 上的文件系统具有使用完全分解的 UTF 8 的古怪功能如果您调用 POSIX API 例如realpath 例如您将从 Mac OS 返回这样一个完全分解的 UTF 8 字符串当使用像这样的 API 时f
Rails 3.1、Ruby 1.9.2-p180 和 UTF-8 问题

我在使用 UTF 8 字符时遇到一些问题这是 db seeds rb User create username eml first name last name ck email email protected cdn cgi l ema
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1

随机推荐

快速更改 UImenu 的位置

我想向我的应用程序添加一个 UIMenu 我正在练习它现在有一个问题是否可以设置 UIMenu 的位置UIMenu比当前显示的按钮稍高一点正如您在这张照片中看到的菜单当前覆盖了选项卡栏我想将其设置为比选项卡栏高一点这是我的代码 l
如何从 setuptools 安装程序 (setup.py) 中生成 python grpc 代码？

我们在存储库中有一些 gRPC 的原型文件我读到提交生成的代码并不好所以我想我需要将生成作为软件包安装的一部分例如 setuptools setup py 但是要生成 gRPC 代码您需要首先通过运行来安装包pip install
Spring Data 中的查询创建 - 动态 where 子句

Spring data中有没有办法动态形成where子句我想要做的是有一个方法类似于 findBy get 方法它使用上述非 NULL 属性运行 WHERE 和 AND 例如 Consider the object Person fi
SQL Server 分区 - 唯一索引错误

我有一个按 TRANSACTION DATE TIME 分区的表表有一列 ID 我想为分区方案上的 ID 创建一个唯一索引如下所示 CREATE UNIQUE NONCLUSTERED INDEX IX ID ON PS DATETIM
在 AngularJS 中拒绝带有多个参数的 Promise（如 $http）

回调 httpPromise 有多个参数主体状态标头配置我想手动创建类似的承诺但不知道该怎么做我想做的或多或少是 myservice action then function status message config 我知道
IIS7 劫持我的 Coldfusion 错误页面

在我的异常处理文件中我将状态代码设置为 404 然后渲染 n 个 HTML 页面作为错误页面想想失败鲸鱼
同时安装 Visual Studio 2010 和 VS2008 会导致问题吗？

这可能会导致什么样的问题安装在虚拟机里更好吗并行安装问题始终可能存在您应该采取适当的保护措施例如备份使用虚拟机等根据我个人的经验它的效果很好在我的 Tech Ed 演示中我使用 Visual Studio 2005 200
如何更改 Java 中 HTTP 响应中的字符集编码

我必须从远程服务器获取一些 JSON 对象为此我正在使用这个功能它工作得很好除了有时会获取一些奇怪的数据我相信这是因为它使用 ASCII 字符集进行解码请在下面找到我正在使用的方法 public HttpResponse call
Java 中的双向映射？ [复制]

这个问题在这里已经有答案了我在 Java 中有一个简单的整数到字符串的映射但我需要能够轻松地从整数检索字符串以及从字符串检索整数我尝试过 Map 但它只能从整数中检索字符串这是一种方法 private static final M
如何在 ASP.NET Core 中结合 FromBody 和 FromForm BindingSource？

我创建了一个新的 ASP NET Core 2 1 API 项目其中包含Datadto 类和此控制器操作 HttpPost public ActionResult
如何获取对象属性的类型提示？

我想获取对象属性的类型提示我只能获得该类的提示而不能获得该类的实例我尝试过使用foo instance class from here但这只显示了类变量那么在示例中我如何获得类型提示bar class foo var int 42
在 Genymotion Android 中连接到 VPN

我正在尝试在 Genymotion 虚拟设备中配置并连接到 VPN 我可以在虚拟设备中配置 VPN 连接但无法连接没有显示错误我在我的 PC 和真实 Android 设备中使用了相同的设置它在设备和 PC 中运行良好我认为是 Vi
在单个 RDS 文件中保存多个变量

我想将变量列表传递给 saveRDS 以保存它们的值但它会保存它们的名称 variables lt c A B C saveRDS variables file R 它保存单个向量变量我也尝试过 save variables file
如何从文件中读取前 n 行和后 n 行？

如何读取文件的前n行和后n行 For n 2 我读online that head n2 tail n2 会起作用但事实并非如此 cat x 1 2 3 4 5 cat x head n2 tail n2 1 2 预期输出为n 2将会 1
对多个条件使用 if else 语句

样本数据 x lt runif 100 min 0 max 1 y lt runif 100 min 0 max 1 dif lt x y dat lt data frame x dif 我想要做的是在数据框中创建另一列dat called
如何在容器内运行 kubectl 命令？

在 pod 内的容器中如何使用 kubectl 运行命令例如如果我需要在容器内执行类似的操作 kubectl 获取 Pod 我已经尝试过在我的 dockerfile 中我有以下命令 RUN curl LO https storag
php ajax表单提交而不刷新父页面

我有一些关于 ajax 表单提交的问题 send on click function ajax type POST url ads process php data ads serialize success function if dat
使用 Java Graphics 进行内部剪辑

我需要使用 java awt Graphics 绘制一条线但只应渲染位于矩形之外的线部分是否可以使用图形剪切支持或者我是否需要自己计算交集并剪切线您需要使用Area班级此示例将演示如何执行您所要求的操作 import java a
将 NIB 文件转换为 XIB 文件

有没有办法转换NIB文件到XIB文件以便我可以在 Xcode 4 中打开它们一旦我编辑了它们有没有办法将它们转换回NIB 一旦 nib 文件被扁平化和剥离现在这是编译过程的默认部分那么在 IB 中打开它就很困难您可能想看看笔尖解锁
UTF-8 中的代理字符是什么？

我有一个奇怪的验证程序用于验证 utf 8 字符串是否是有效的主机名 PHP 中的 Zend Framework Hostname valdiator 它允许 IDN 国际化域名它将每个子域与由其十六进制字节表示定义的字符集进行比较两

UTF-8 中的代理字符是什么？

UTF-8 中的代理字符是什么？ 的相关文章

随机推荐

热门标签

UTF-8 中的代理字符是什么？的相关文章