我最近经历了一个article http://www.sitepoint.com/do-you-know-your-character-encodings/关于字符编码。我对那里提到的某一点感到担忧。
在第一张图中,作者展示了字符、它们在各种字符集中的码点以及它们在各种编码格式中的编码方式。
例如 é 的代码点是E9
.
In ISO-8859-1
编码它表示为E9
.
In UTF-16
它表示为00 E9
。
但在UTF-8
它用2个字节表示,C3 A9
.
我的问题是为什么需要这样做?可以用1个字节来表示。为什么使用两个字节?你能告诉我吗?
UTF-8 http://en.wikipedia.org/wiki/UTF-8使用 2 个高位(位 6 和位 7)来指示是否还有更多字节:仅低 6 位用于实际字符数据。这意味着任何字符超过7F
需要(至少)2 个字节。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)