Unicode 联盟是否打算让 UTF-16 字符耗尽？

2024-03-23

当前版本的 UTF-16 只能编码 1,112,064 个不同的数字（码点）；0x0-0x10FFFF.

即创建一个代码点>0x10FFFF

如果不是，为什么有人要编写 utf-8 解析器的代码来接受 5 或 6 字节序列？因为它会为其功能添加不必要的指令。

1,112,064 还不够吗，我们真的需要更多字符吗？我的意思是：我们多久就会用完？

截至2011年我们已经消耗了 109,449 个字符并留出供应用程序使用（6,400+131,068） http://www.unicode.org/standard/principles.html#What_Characters:

为超过 860,000 个未使用的字符留出空间；足够了CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs（约 10,000 个字符）和另外 85 个类似的集合；以便在接触到佛伦吉文化 http://en.wikipedia.org/wiki/Ferengi，我们应该做好准备。

2003 年 11 月IETF http://en.wikipedia.org/wiki/Internet_Engineering_Task_Force限制 UTF-8 以 U+10FFFF 结尾RFC 3629 https://www.rfc-editor.org/rfc/rfc3629#page-3，为了匹配 UTF-16 字符编码的约束：UTF-8 解析器不应接受会溢出 utf-16 集的 5 或 6 字节序列，或 4 字节序列中大于0x10FFFF

如果编辑列表集超过了 Unicode 代码点大小的 1/3，请在此处放置对 unicode 代码点限制的大小构成威胁的编辑列表集。CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs（约 10,000 个字符）：

CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs（约 10,000 个字符）
佛伦吉文化人物 http://en.wikipedia.org/wiki/Ferengi（约 5,000 个字符）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Unicode 联盟是否打算让 UTF-16 字符耗尽？的相关文章

使用 NumPy loadtxt/savetxt 指定编码

使用 NumPyloadtxt and savetxt只要涉及非 ASCII 字符函数就会失败这些函数主要用于数字数据但也支持字母数字页眉页脚 Both loadtxt and savetxt似乎正在应用 latin 1 编码我发
Delphi 2010：如何将 UTF8 编码的 PAnsiChar 转换为 UnicodeString？

情况我有一个外部 DLL 它使用 UTF 8 作为其内部字符串格式接口函数都使用 PAnsiChar 来传递字符串我的应用程序的其余部分使用 Delphi 的本机string类型由于我正在使用 Delphi 2010 这将映射到Un
如何在PHP中设置文本文件编码？

如何在 PHP 中设置文本文件编码例如 UTF 8 让我告诉你我的问题这是我的代码 Output fwrite 具有类似的输出但是当我创建test txt通过记事本并设置字符集UTF 8输出就是我想要的我想在 PHP 文件中设置字符
是否有将二进制数据打包成 UTF-16 字符串的标准技术？

在 NET中我有任意二进制数据存储在byte 例如图像现在我需要将该数据存储在string 旧 API 的注释字段有没有标准技术packing将此二进制数据转换为string 我所说的打包是指对于任何相当大且随机的数据集字
s60 的 python 希伯来语字符串

我在 S60 上使用 python 我想使用希伯来语字符串在 GUI 上表示它们并以短信形式发送它们看来 PythonScriptShell 不接受这样的表达式例如 u 我能做些什么谢谢事态发展我添加了这一行 coding ut
php中UCS2/HexEncoded字符转UTF8

我之前问过一个问题从 UTF 8 获取 UCS 2 HexEncoded 字符串我在以下链接中得到了一些人的帮助 UCS2 HexEncoded 字符 https stackoverflow com questions 1872773
是否可以让 SQL Server 将排序规则转换为 UTF-8 / UTF-16

在我正在处理的一个项目中我的数据存储在 SQL Server 中并具有排序规则Danish Norwegian CI AS 数据通过 FreeTDS 和 ODBC 输出到将数据作为 UTF 8 处理的 python 一些字符如和编
浏览器对 Unicode 的支持

我正在使用有图标但没有图像的 CSS 按钮 http www paulund co uk css buttons with icons but no images 图标是使用 unicode 值生成的在此我遇到了一些浏览器不支持某些 un
为什么 Java BufferedReader() 不能正确读取阿拉伯文和中文字符？

我正在尝试读取一个每行包含英文和阿拉伯字符的文件以及另一个每行包含英文和中文字符的文件然而阿拉伯文和中文的字符无法正确显示它们只是显示为问号知道我该如何解决这个问题吗这是我用于阅读的代码 try String sCurrentLi
解析 HTTP 标头值：引用、RFC 5987、MIME 等

让我困惑的是 HTTP 标头的解码values 示例标头 Some Header quoted string utf 8 en Weirdness 罐头value s被引用 a 的编码怎么样本身是有效的引号字符分号有什么意义 HTT
什么是标准 unicode 字体？

以下操作系统的标准 unicode 字体是什么视窗XP 视窗Vista Window 7 按照标准我的意思是它们存在于操作系统的全新安装中无需将它们作为附加包安装我一直在寻找同样的东西看起来所有 Win 操作系统中只有一种字体 L
如何从字符串中删除除字母、数字、空格、感叹号和问号之外的所有内容？

如何删除除以下内容之外的所有内容字符串中的字母数字空格感叹号问号该方法支持国际语言 UTF 8 非常重要您可以使用正则表达式 myString replace w s g 这将替换除单词字符空格感叹号或问题之外的所有内容
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
在 C# .NET 中对非 ASCII 字符进行编码

我想向我的应用程序发送的电子邮件添加自定义标头标头名称只能包含 ASCII 字符但对于值和用户可能会输入 UTF 8 字符我必须对它们进行 Base64 编码此外我还必须将它们解码回 UTF 8 以便在 UI 中向用户显示它们最
SQL 查询Where Column = '' 返回表情符号字符

好的我有一个包含三列的表 Id Key Value 我想删除所有行Value是空的因此我在删除之前编写了要选择的查询 Select from Imaging ImageTag where Value 到目前为止一切都很标准现在这是奇
Unicode NFC 规范化可以增加字符串的长度吗？

如果我将 Unicode 规范化形式 C 应用于字符串字符串中的代码点数量是否会增加是的应用 NFC 标准化后有些代码点会扩展为多个代码点内基础多语种飞机 http en wikipedia org wiki Basic Mult
raku 可以避免这个 Malformed UTF-8 错误吗？

当我运行这个 raku 脚本时 my proc run tree du out proc out slurp close say 我在 MacOS 上遇到此错误 Malformed UTF 8 near bytes ef b9 5c 而不是
json 解析器和编码器应如何处理转义的 unicode？

json 规范允许在 json 字符串格式为 uXXXX 中转义 unicode 它特别提到受限代码点非字符作为有效的转义代码点这是否意味着解析器应该从包含非字符和受限代码点的字符串生成非法的 unicode 一个例子 key uF
如何去除 XSL 中字符的重音符号？

我一直在寻找但找不到相当于字符规范化空间的 XSL 函数也就是说我的内容带有重音 UNICODE 字符这很好但是从该内容中我正在创建一个文件名但我不想要这些重音那么是否有一些我忽略的东西或者没有正确地谷歌搜索来轻松处
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette

随机推荐

如何使用 CDI 1.0 从扫描中排除某个类别

我想从 CDI 1 0 中的扫描中排除一个类我正在使用 WebLogic 12 1 12 中 CDI 的默认实现 Weld CDI 1 0 我看到了几个有关 CDI 1 1 的网站和文档但没有看到有关以前版本的内容通过 Weld 您可
为什么 PhpStorm 将 Laravel 控制器方法识别为未使用？

我正在使用 PhpStorm 2019 2 1 开发 Laravel 应用程序我从 9 3 切换到这个版本现在它会将控制器方法和类识别为未使用并提供了没有帮助的快速修复可能是什么原因以及我该如何解决这个问题您可以在 routes
当应用边距和填充时，为什么会超出
的范围？

我知道这是非常基本的 CSS 如何将 span 包含在 div 内目前跨度延伸到 div 的顶部和底部之外 div width 200px margin 10px background color ff0 span margin 5px
为接口赋值是否会复制任何内容？

我一直在尝试理解 Go 中的接口概念阅读this https stackoverflow com questions 13511203 why cant i assign a struct to an interface and this
如何检测访问者的国家/地区？ [复制]

这个问题在这里已经有答案了可能的重复 IP地址的位置检测技术 https stackoverflow com questions 2574542 location detecting techniques for ip addresses
不开发动态生成 aspx 文件的“博客系统”的 3 大原因

In this question https stackoverflow com questions 2417865 asp net problems with error access to the path path is denied
Android：隐藏 ActionBar，保留选项卡

为了简单起见我的操作栏中有选项卡但操作栏占用了太多空间我想要那个额外的空间我需要一种方法来隐藏操作栏同时保留我的选项卡有办法做到这一点吗或者有什么方法可以让选项卡内置到操作栏中就像在横向模式下一样谢谢你可以有一个空的操作
Nginx 位置 try_files 与 add_header 重定向和 cors

我想将请求重定向到index php以启用漂亮的链接使用try files可以实现此目的但是我似乎无法让try files和add headers同时工作我当前的位置块如下所示 location api v1 try files ur
使用 Jquery 动态生成时 Facebook 标签不会呈现

给您一个简单的用例在我的网站上我显示 Facebook 用户发布的评论对于每条评论我都会使用 fb profile pic 标签和类似 fb 的按钮来显示 facebook 用户的照片该页面渲染正确所有内容都显示良好现在当用
RSpec 匹配器，用于检查集合以包含满足 lambda 的项目

我对如何编写 RSpec 3 2 x 规范来检查列表是否包含至少一个满足条件的项目有点不知所措这是一个例子 model Invoice new model name test changes model changes expect ch
如何删除“clip-path”的不可见部分？

我想剪切尺寸各不相同高度各为 50 的图像所以我想到使用 inset 方法clip path财产但是在这个属性中切出的空间仍然保持高度 container display flex align items start img fl
打开弹窗，让外人依然可以触摸

如何在Android上打开PopupWindow并让所有其他组件可触摸而不关闭PopupWindow 它是这样创建的 public class DynamicPopup private final PopupWindow window pr
线程“main”中的异常 java.lang.IllegalMonitorStateException

我正在与Thread in Java我收到以下错误我不明白为什么 Code import java util Random public class Test public static void main String args thr
代码优先：仅在执行某些代码后才创建数据库？

我想先使用代码创建一个数据库我的数据库始终处于 DropCreateDatabaseAlways 模式我注意到如果我不尝试对数据库执行一些查询例如 using var db new Models TnHContext var que
CodeIgniter - 获取最后一个 URI 段

我试图获取 CI 中的最后一个 URI 段但我不知道它的编号是多少因为当用户单击页面内的链接时将附加参数整数然后在控制器中使用它们通过 ajax 将相关数据库记录拉入页面我如何告诉 CI 获取最后一段就像是 record nu
使用javascript在数组中组合单词

假设我有一个数组 Alex Sam Robert 我想将它们组合起来例如获取第一个数组 0 并附加数组 2 这将是 AlexRobert array 0 的第一个字母是 A 并附加 array 2 的第一个字母即 Robert 这将是
使用 Extendscript 编写二进制文件。文件大小不正确

进一步我的问题here https stackoverflow com questions 63022178 read binary file with extendscript我正在使用 Extendscript 将十六进制颜色列表从 P
使用 OrbitControls 时锁定 x 轴旋转 - Three.js

使用 OrbitControls 时锁定 x 轴旋转是否可行目前我有一个挂在绳子上的圣诞星的对象模型我希望它仅水平旋转对于您的 OrbitControls 实例集 controls minPolarAngle Math PI 2 co
Twitter Bootstrap Datepicker 不会更新输入值

我有这段代码但现在我陷入困境
Unicode 联盟是否打算让 UTF-16 字符耗尽？

当前版本的 UTF 16 只能编码 1 112 064 个不同的数字码点 0x0 0x10FFFF Unicode 联盟是否打算让 UTF 16 字符耗尽即创建一个代码点 gt 0x10FFFF 如果不是为什么有人要编写 utf 8

Unicode 联盟是否打算让 UTF-16 字符耗尽？

Unicode 联盟是否打算让 UTF-16 字符耗尽？ 的相关文章

随机推荐

热门标签

Unicode 联盟是否打算让 UTF-16 字符耗尽？的相关文章