为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？

2024-03-24

我正在学习UTF-16编码，并且我读到如果你想表示U + 10000到U + 10FFFF范围内的代码点，那么你必须使用代理对，其范围在U + D800至 U+DFFF。

假设我想对以下代码点进行编码：U+10123（二进制为 10000000100100011）：

首先我布局这个位序列：

110110xxxxxxxxxx 110111xxxxxxxxxx

然后我用代码点的二进制格式填充 x 的位置：

1101100001000000 1101110100100011（十六进制 D840 DD23）

我还读到 U+D800 到 U+DFFF 范围内的代码点已从 Unicode 字符集中删除，但我不明白为什么删除这个范围！

我的意思是这个范围可以很容易地编码为 4 个字节，例如以下是 U+D812 代码点的 UTF-16 编码格式（二进制为 1101100000010010）：

1101100000110110 1101110000010010（D836 DC12 十六进制）

Note:我在示例中使用 UTF-16 Big Endian。

Codepoints U+D800 - U+DFFF are reserved exclusively¹ for use with UTF-16. Since they are not in the range of U+10000 - U+10FFFF, UTF-16 would not encode them individually using surrogate pairs, so it would be ambiguous (and illegal²) for these individual codepoints to appear un-encoded in a UTF-16 sequence.

Per the Unicode.org UTF-16 常见问题解答 http://www.unicode.org/faq/utf_bom.html:

¹: Q: What are surrogates? http://www.unicode.org/faq/utf_bom.html#utf16-1

A: Surrogates are code points from two special ranges of Unicode values, reserved for use as the leading, and trailing values of paired code units in UTF-16. Leading, also called high, surrogates are from D800₁₆ to DBFF₁₆, and trailing, or low, surrogates are from DC00₁₆ to DFFF₁₆. They are called surrogates, since they do not represent characters directly, but only as a pair.

²: Q: Are there any 16-bit values that are invalid? http://www.unicode.org/faq/utf_bom.html#utf16-7

A: Unpaired surrogates are invalid in UTFs. These include any value in the range D800₁₆ to DBFF₁₆ not followed by a value in the range DC00₁₆ to DFFF₁₆, or any value in the range DC00₁₆ to DFFF₁₆ not preceded by a value in the range D800₁₆ to DBFF₁₆.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Unicode

encoding

characterencoding

utf16

为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？的相关文章

执行 Boyer-Moore 模式匹配时是否必须考虑编码？

我即将实现 Boyer Moore 模式匹配算法的变体具体来说是星期日算法我问自己我的字母表大小是多少它是否取决于编码可能的字符数或者我可以假设我的字母表由 256 个符号组成一个字节可以表示的符号数在许多其他情况下将字符
如何在 C 中安全地声明 16 位字符串文字？

我知道已经有一个标准方法前缀为L wchar t test literal L Test 问题是wchar t不保证是16位但是对于我的项目我需要16位wchar t 我还想避免通过的要求 fshort wchar 那么 C 不是 C
如何确定 OS X 中的文件编码？

我正在尝试将一些 UTF 8 字符输入到 LaTeX 文件中TextMate http en wikipedia org wiki TextMate 它说它的默认编码是UTF 8 但LaTeX似乎不理解它们 Running cat my f
unicode().decode('utf-8', 'ignore') 引发 UnicodeEncodeError

这是代码 gt gt gt z u u2022 decode utf 8 ignore Traceback most recent call last File
PowerShell 中的 SVN 输出编码

我正在尝试在 PowerShell 脚本内的字符串中捕获 SVN 日志在命令行上输出的编码是正确的但是当我将其捕获到字符串中时它就不是正确的 PS C sandbox gt svn log r1804 https myserver
表单帖子上的 asp.net mvc 编码

我在我的 asp net mvc 表单带有文本区域的 nicedit 中使用富文本编辑器当我在帖子上提交表单时因为它不是 html 编码的我收到以下消息从客户端检测到潜在危险的 Request Form 值如何对 post 上的
UCS2 与 UTF。 UCS2编码无法显示哪些语言？

UCS2 比 UTF 编码更容易在 Visual C 中使用 UCS2 编码不支持哪些语言没有什么是你可能关心的或者更重要的是没有字体 UCS2 为您提供基本的多语言平面您可以在 Unicode 网站上找到指定平面的概述 0 基本多
从 SinkWriter 或 ICodecAPI 或 IMFTransform 获取编码器名称

我使用 SinkWriter 来使用媒体基础对视频进行编码初始化 SinkWriter 后我想获取它使用的底层编码器并打印出它的名称这样我就可以看到它使用的编码器就我而言编码器很可能是H 264 视频编码器 http msdn
问号字符显示在文本中。为什么是这样？

我有一个备份服务器可以自动备份我的实时站点包括文件和数据库在实时站点上文本看起来不错但是当您查看它的镜像版本时它会显示在某些文本中该文本存储在新闻数据库表中这是实时服务器和镜像服务器上的屏幕截图将其备份到镜像服务器的过程
如何查明我的字符串是否包含“micro”Unicode 字符？

我有一个包含实验室数据的 Excel 电子表格如下所示 g L ppb 我想测试希腊字母是否存在如果发现我需要做一些特别的事情通常我会写这样的东西 if cell StartsWith matchSequence lt unive
如何解析从java文件中读取的unicode [重复]

这个问题在这里已经有答案了我编写了一个包含以下内容的文本文件 u0032 u0142o u017Cy u0142 然后我使用 FileReader 和 BufferedReader 来读取文件 public static void mai
Java ArrayList 的 (ArrayList).toString 的相反是什么？

我正在使用toString的方法ArrayList储藏ArrayList数据到字符串中我的问题是我该如何走另一条路是否有现有的方法可以解析中的数据String实例返回到ArrayList 最简洁的答案是不没有简单的方法可以从字符串中
为什么 MySQL 将 é 与 e 视为相同？

我使用 Django Web 应用程序将 Unicode 字符串存储在 MySQL 数据库中我可以很好地存储 Unicode 数据但是在查询时我发现 and e被视为好像它们是同一个角色 In 1 User objects filte
chrome 如何建立正确的字符编码？

我最近一直在使用很多字符集在尝试为随机网页建立正确的字符集时发现了很多问题字符集可以在html文档的标题中设置也可以在节多次或有时声明被省略尽管存在这些问题 chrome 每次都在设置最佳字符集方面做得很好我尝试过搜索来源 ht
用 unicode 字符删除纯文本？

是否可以删除代码注释中不需要的修改过的单词由于开发人员仍然在黑暗时代更简单的纯文本时代进行编码其中文本无法使用隐藏标识符进行格式化因此实现这一目标的唯一方法是使用 Unicode 字符由于某些unicode字符可以扩展 y o n
OSX 上的 Java 7 使用 jnlp/webstart 时出现文件名编码问题

我遇到了这个问题经过几天的搜索和解决方法尝试均未成功我现在有一个由 jnlp webstart 分发的内部 java swing 程序在 osx 和 windows 计算机上除其他外它还从 WebDav 下载一些文件最近在装有
.properties 或 JSP 编码有问题

我有jsp文件
法语和西班牙语的特殊字符可以保存在 varchar 中吗？

法语和西班牙语中有普通英语中不使用的特殊字符重音元音等 varchar 是否支持这些字符或者我需要一个 nvarchar 吗注我愿意NOT希望讨论我是否应该使用 nvarchar 还是 varchar 您在谈论什么 SQL 实现我
Perl：管理 Windows 上的路径编码

我正在努力处理包含非英文字符的路径 Activestate Perl Windows XP 如何打开写入复制等位于包含希腊语俄语法语重音字符的路径中的文件假设我要将 text txt 文件复制到的目录是 C Documents a
C++中判断unicode字符是全角还是半角

我正在编写一个终端控制台应用程序该应用程序应该包装任意 unicode 文本终端通常使用等宽固定宽度字体因此要换行文本只需计算字符数并观察单词是否适合一行并采取相应的操作问题是 Unicode 表中的全角字符在终端中占用了

随机推荐

Emacs - 无法使缓冲区提供保存工作

当缓冲区未与文件关联时我想让 Emacs 询问我是否要保存修改后的缓冲区要打开新缓冲区不访问文件我的 emacs 文件中有以下函数 Creates a new empty buffer defun new empty buffer
Visual Studio - 使用从现有源创建项目向导时使用新筛选器而不是新文件夹

我使用了 Visual Studio 2008 的从现有代码创建项目向导但显然以这种方式创建的项目不允许您创建虚拟解决方案文件夹而只允许您创建实际的系统文件夹我想要标头文件资源文件和源文件的标准项目设置但我似乎无法创建所需的虚拟文
如何在 MATLAB 中找到数组中的最大值及其索引？

假设我有一个数组 a 2 5 4 7 返回最大值及其索引的函数是什么例如在我的例子中该函数应返回 7 作为最大值 4 作为索引函数是max 要获得第一个最大值您应该这样做 val idx max a val是最大值并且idx是它的
Laravel Eloquent，仅选择存在关系的行

我正在尝试从表中进行选择但我只想选择具有现有关系的内容例如如果我有用户和评论并且用户有很多评论我想做类似的事情 User hasComments gt paginate 20 因此我只想选择至少有 1 条评论的用户并对该查询的
更新到依赖项 24.2.0 后，在两个布局之间使用 FloatingActionButton 的渲染问题停止工作

正如我在问题中提到的我的 FloatingActionButton 位于两个布局之间请检查经典示例here https stackoverflow com questions 24459352 how can i add the new
如何让 Pylint 识别 NumPy 成员？

我正在 Python 项目上运行 Pylint Pylint 多次抱怨无法找到 NumPy 成员如何避免这种情况同时避免跳过会员资格检查从代码来看 import numpy as np print np zeros 1 4 当运行时
如果使用双斜杠设置会发生什么？

我喜欢了解如何使用对我的网络爬虫来说很有价值所以我用主要浏览器测试了几种组合最后发现了一些我不明白的带有双斜杠的东西如果您不喜欢阅读所有内容请跳至测试结果D and E 所有测试演示 http gutt it basehref ph
在 SQL 中从数据库表中删除除前 n 之外的所有内容

从 sql 中的表中删除所有行但保留顶部的 n 行的最佳方法是什么 DELETE FROM Table WHERE ID NOT IN SELECT TOP 10 ID FROM Table Edit Chris 带来了良好的性能提升因为
请求范围的 bean 和数据模型初始化？

更新二好的我设法缩小了范围我有一个带有数据表的页面具有排序和过滤功能两者都发生在数据库中换句话说我不使用我使用的 rich datatable 的嵌入式功能而是让 DB 来完成工作我与请求范围豆子唯一的会话范围 bean
如何可靠地获取 C 风格数组的大小？

如何可靠地获取 C 风格数组的大小经常推荐的方法似乎是使用sizeof 但它不起作用foo函数其中x传入 include
std::cin 用于双精度和字符串

我正在做货币兑换练习程序应从输入流中读取货币的金额和名称并以本国货币返回其值 double amount 0 0 std string currency std cout lt lt Please enter amount and cu
此 Blade 卫生系统是否正常工作（双花括号与三花括号）？

很抱歉这很可能是我自己的误解而不是实际存在的问题我对 Laravel 和 Blade 模板相当陌生我正在尝试输出从Input get 然而当我通过双花括号和三花括号输出字段时输出之间似乎没有区别这是我的观点的摘录 data I
如何模拟作为函数的 Angular 服务？

我们有一个所谓的CORShttpService 这基本上是一个包装 httpservice 但是封装了一些我们需要的CORS功能我现在正在为具有以下功能的服务编写一些测试CORShttpService注入其中该服务的代码如下 CORSh
如何在 Kotlin 中使用堆栈？

如何在 Kotlin 中使用 Stack 来自 java 或者还有其他替代方案吗我正在尝试将列表转换为堆栈科特林 1 3 70介绍了kotlin collections ArrayDeque https kotlinlang org a
来自 Node.js BigQuery 客户端库的更详细错误消息

我用的是官方的与 BigQuery 的 Google Node 连接器 https github com googleapis nodejs bigquery 我有以下片段将记录流式传输到数据库中 module exports sendTo
在 Angular JS 中解码 HTML 实体

如何使用 Angular JS 解码文本中的 HTML 实体我有字符串 quot 12 10 On Going Submission of quot quot Made Up quot quot Samples quot 我需要一种使用
Android Jack 编译器未从 proguard 规则中删除日志

我尝试过使用 assumenosideeffects class android util Log public static boolean isLoggable java lang String int public static in
canvas ImageData 删除白色像素

我有一些 html 图像有白色背景我需要删除白色背景我想我可以使所有白色像素透明但我不知道该怎么做我只想使用 html javascript 这是如何做到的 function white2transparent img var c
Spring IOC 和 Spring AOP 的区别

有什么区别春季国际奥委会 and 春季AOP以及它们的重要性您在网上搜索过 IoC 和 AOP 吗有一个lot对两者的引用简而言之 IoC 允许外部力量来决定代码将使用什么实现而不是由代码决定实现外力可能是配置文件单元测试其
为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？

我正在学习UTF 16编码并且我读到如果你想表示U 10000到U 10FFFF范围内的代码点那么你必须使用代理对其范围在U D800至 U DFFF 假设我想对以下代码点进行编码 U 10123 二进制为 1000000010010

为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？

为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？ 的相关文章

随机推荐

热门标签

为什么从 Unicode 字符集中删除了 U+D800 到 U+DFFF 范围内的代码点？的相关文章