当前版本的 UTF-16 只能编码 1,112,064 个不同的数字(码点);0x0-0x10FFFF
.
Unicode 联盟是否打算让 UTF-16 字符耗尽?
即创建一个代码点>0x10FFFF
如果不是,为什么有人要编写 utf-8 解析器的代码来接受 5 或 6 字节序列?因为它会为其功能添加不必要的指令。
1,112,064 还不够吗,我们真的需要更多字符吗?我的意思是:我们多久就会用完?
截至2011年我们已经消耗了 109,449 个字符并留出供应用程序使用(6,400+131,068) http://www.unicode.org/standard/principles.html#What_Characters:
为超过 860,000 个未使用的字符留出空间;足够了CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs(约 10,000 个字符)和另外 85 个类似的集合;以便在接触到佛伦吉文化 http://en.wikipedia.org/wiki/Ferengi,我们应该做好准备。
2003 年 11 月IETF http://en.wikipedia.org/wiki/Internet_Engineering_Task_Force限制 UTF-8 以 U+10FFFF 结尾RFC 3629 https://www.rfc-editor.org/rfc/rfc3629#page-3,为了匹配 UTF-16 字符编码的约束:UTF-8 解析器不应接受会溢出 utf-16 集的 5 或 6 字节序列,或 4 字节序列中大于0x10FFFF
如果编辑列表集超过了 Unicode 代码点大小的 1/3,请在此处放置对 unicode 代码点限制的大小构成威胁的编辑列表集。CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs(约 10,000 个字符):
-
CJK 扩展名 E http://en.wikipedia.org/wiki/CJK_Unified_Ideographs(约 10,000 个字符)
-
佛伦吉文化人物 http://en.wikipedia.org/wiki/Ferengi(约 5,000 个字符)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)