为什么UTF-8使用多个字节来表示某些字符？

2024-01-03

我最近经历了一个article http://www.sitepoint.com/do-you-know-your-character-encodings/关于字符编码。我对那里提到的某一点感到担忧。

在第一张图中，作者展示了字符、它们在各种字符集中的码点以及它们在各种编码格式中的编码方式。例如 é 的代码点是E9. In ISO-8859-1编码它表示为E9. In UTF-16它表示为00 E9。但在UTF-8它用2个字节表示，C3 A9.

我的问题是为什么需要这样做？可以用1个字节来表示。为什么使用两个字节？你能告诉我吗？

UTF-8 http://en.wikipedia.org/wiki/UTF-8使用 2 个高位（位 6 和位 7）来指示是否还有更多字节：仅低 6 位用于实际字符数据。这意味着任何字符超过7F需要（至少）2 个字节。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UTF8

characterencoding

为什么UTF-8使用多个字节来表示某些字符？的相关文章

L"" 和 u8"" 之间的区别

以下有什么区别吗 auto s1 L 你好 auto s2 u8 你好 Are s1 and s2指的是同一类型如果不是有什么区别以及首选哪一个它们不是同一类型 s2是 UTF 8 或窄字符串文字这C 11标准草案 http www
我怎样才能找出MySQL中的默认字符集/排序规则[重复]

这个问题在这里已经有答案了我在 Ubuntu 18 04 上使用 MySQL 和 MySQL Workbench 8 0 当我创建字符串类型的列时我将字符集排序规则保留为默认值在 MySQL Workbench 中它只是告诉我就是
如何删除字符串中所有不可打印的字符？

我想我需要删除字符 0 31 和 127 是否有一个函数或一段代码可以有效地完成此操作 7 位 ASCII 如果您的 Tardis 于 1963 年刚刚上市并且您只想要 7 位可打印 ASCII 字符则可以使用以下命令删除 0 31 和
使用带有 _O_U8TEXT 的 setmode 处理 unicode 时 C++ 崩溃

我尝试打印 unicode 的是 setmode fileno stdout O U8TEXT string str u8 unicode hangul cout lt lt str lt lt endl 我使用 setmode 来正确显示
如何处理 R 包中具有 UTF-8 标记字符串的示例数据

我想包括一个示例数据集 Twitter推文和metadata in an R我正在写的包我使用下载了一个示例 data frameTwitter API并将其另存为 RData 与相应的 R数据描述文件在我的包中当我跑步时R CMD检
Windows命令行参数编码是什么？

Windows 使用什么编码来传递给在 cmd exe 窗口中启动的程序的命令行参数命令行参数的编码似乎不受使用控制台代码页设置的影响chcp 我将其设置为 UTF 8 代码页 65001 并使用 Lucida Console 字体如果
Delphi 2009之前如何处理UTF-8和ANSI转换？

在 Delphi 2009 中我们有 RichEdit1 Lines LoadFromFile OpenDialog1 FileName TEncoding UTF8 RichEdit1 Lines SaveToFile OpenDial
阿拉伯语的 tcpdf 将字符显示为问号 '?????? ???'

我想创建一个阿拉伯语 pdf 与我的 ms Execl 格式的文件相同在 php 中使用 tcpdf 创建 pdf 时阿拉伯字符显示为分数这些字符是从我的 Excel 文件中复制的 htmlcontent2 span color 0
以字符集安全的方式获取 Windows 上的进程列表

这个帖子 https stackoverflow com questions 54686 how to get a list of current open windows process with java给出了一个在 Windows 下
UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

在过去的几天里我一直在阅读有关 Unicode 和 UTF 8 的内容并且经常遇到与此类似的按位比较 int strlen utf8 char s int i 0 j 0 while s i if s i 0xc0 0x80 j i r
GCC 4.7 字符串文字的源字符编码和执行字符编码？

Linux x86 64 上的 GCC 4 7 是否具有默认字符编码用于验证和解码 C 源文件中字符串文字的内容这是可配置的吗此外当将字符串数据从字符串文字链接到输出的数据部分时它是否具有默认的执行字符编码这是可配置的吗在任何
Java中String的字符编码是什么？

我实际上对 Java 中字符串的编码感到困惑我有一些问题如果您知道答案请帮助我 1 Java字符串在内存中的本机编码是什么当我写作时String a Hello 将以哪种格式存储由于 Java 是独立于机器的我认为系统不会进行编
如何在PHP中设置文本文件编码？

如何在 PHP 中设置文本文件编码例如 UTF 8 让我告诉你我的问题这是我的代码 Output fwrite 具有类似的输出但是当我创建test txt通过记事本并设置字符集UTF 8输出就是我想要的我想在 PHP 文件中设置字符
使用 DOMDocument 进行 PHP 编码
UTF8 vs. UTF16 vs. char* vs. 什么？谁来给我解释一下这个烂摊子！

我已经设法忽略所有这些多字节字符的东西但现在我需要做一些 UI 工作我知道我在这方面的无知将会赶上我谁能用几段或更少的内容解释我需要知道什么以便我可以本地化我的应用程序我应该使用什么类型我同时使用 Net 和 C C 并且我需要
Python UTF-8转换问题

在我的数据库中我存储了一些 UTF 8 字符例如名称字段中的通过 Django ORM 当我读到这个时我得到了类似的东西 gt gt gt p name u xce xb1 gt gt gt print p name 我本来希望
从 django 返回带有 BOM 的 UTF-8 编码的 csv

我正在尝试输出一个用户可以用 Excel 打开的 CSV 文件我已经用 UTF 8 编码了所有字符串但是当我用 Excel 打开文件时我看到了乱码只有在将文件转换为带 BOM 的 UTF 8 在 Windows 上使用 notepa
如何将 default.html 的字符编码设置为 UTF-8？

我花了几个小时来验证我的网站HTML 4 01 严格事实上我已经成功了但仍然有一个警告我无法摆脱警告是字符编码不匹配中指定的字符编码 HTTP 标头 iso 8859 1 是与中的值不同元素 utf 8 我将使用该值来自 HT
Navicat utf8 不适用于 mysql 数据库

我目前正在尝试合并两个不同步的表达式引擎数据库之间的数据更改为此我选择使用 navicat 该网站在模板中大量使用希腊字符集当我在 phpmyadmin 中查看希腊语表字段数据时我按预期看到了希腊语字符当我将它们加载到 Navica
Powershell XMLDocument保存为无BOM的UTF-8

我构建了一个 System Xml XmlDocument 类型的 XML 对象 scheme gettype IsPublic IsSerial Name BaseType True False XmlDocument System Xm

随机推荐

如何运行拉取的图像 - docker

我正在尝试运行拉取的图像但没有成功我使用图像 URI 从 AWS 中提取了图像当我跑步时docker images我可以看到我拉的图像 REPOSITORY TAG IMAGE ID CREATED SIZE alpine 3 9 0
为什么 Excel 不根据 8 字节 IEEE 754 进行舍入

以下表达式的计算结果为false in C 1 1 0 85 3 lt 0 95 我想它在大多数实现 IEEE 754 的其他编程语言中都是这样做的因为 1 1 0 85 3评估为0 95000000000000007 大于0 95 然而
如何在没有根项目的情况下在 Maven3 中执行 Reactor 构建？

如何在没有根项目的情况下在多个 Maven 项目上执行临时反应器构建这在 maven2 中曾经是可能的通过调用带有 r 选项的 mvn 命令该命令将从工作目录中递归搜索项目并将它们组织在反应器中以正确的顺序构建即使项目不共享公共资
选择不适用于 Ionic Framework 的默认选项

我正在使用离子框架我想输入第一个选项作为默认值但这样做不起作用我能做些什么
函数声明后的 __asm__("__isoc99_scanf")

我在预处理的 C 代码中看到了以下代码什么是asm函数声明后做什么 extern int scanf const char restrict format asm isoc99 scanf 显然它使函数调用编译为 call isoc99
Android 谷歌分析 xml 文件

我正在读一本新书谷歌 Android 分析教程 https developers google com analytics devguides collection android v4 很奇怪首先当我在我的 gradle 中添加这个字符
使用 OpenCV 扫描文档

我正在开发一款适用于 Android 的文档扫描仪类似于this https play google com store apps details id com intsig camscanner 我对此进行了搜索发现可以使用 Open
BuildContext 在 Flutter 中做什么？

什么是BuildContext我们可以从中得到什么信息 https docs flutter dev flutter widgets BuildContext class html https docs flutter dev flutte
禁用特定语言功能的自动完成功能

我导入vector from std using include
将远程对象反序列化为最窄的可访问类

In 共享 jar I have abstract class MyParent abstract class MyClass MyParent getFoo 服务器 jar包含 abstract class MyChild extends
android:textAllCaps="false" 不适用于 TabLayout 设计支持

我已经设定android textAllCaps false in my android support design widget TabLayout认为它只显示全部大写的选项卡标题如何删除所有大写字母设计库更新 23 2 0 原始答
算法 - 字符串相似度分数/散列

有没有一种方法可以计算字符串的一般相似度分数在某种程度上我不是将两个字符串比较在一起而是为每个字符串获取一些数字分数哈希这些数字分数可以稍后告诉我两个字符串是否相似两个相似的字符串应该具有相似接近的分数哈希值让我们
将数据从 Excel 导出到 Access - 错误：参数不可选

当我按下按钮时我尝试使用 Excel 文件上的 VBA 代码将数据从 Excel 2010 导出到 Access 2010 我只想将水质表中的数据导出到数据库中的水质表 Excel 文件和访问文件中还有其他表和表格我的实际代码是
PHP正则表达式非捕获非匹配组

我正在制作一个日期匹配正则表达式一切进展顺利到目前为止我已经得到了 0 3 0 9 0 1 0 9 20 0 1 0 9 它希望能够匹配 21 世纪的一位数或两位数的日期和月份以及两位数或四位数的年份一些尝试和错误让我走到了这一
flutter：如何实现ListView中的文字逐渐淡出？

I want to achieve the style like the picture A ListView containing a few Container and each container has some text When
2.2.2 eBean的@Transactional在抛出Exception时不回滚事务

似乎在将 Play Framework 2 2 2 与 eBean ORM 一起使用时 play db ebean Transactional 抛出异常时不回滚事务你们有人知道这个问题以及如何解决它吗我看到 eBean 在他们的 ava
如何从 Pandas DataFrame 制作分组条形图[重复]

这个问题在这里已经有答案了如何使用 pyplot 绘制此数据框 Team Boys Girls 0 Sharks 5 5 1 Lions 3 7 data Team Sharks Lions Boys 5 5 Girls 5 6 df p
python中存储时间长度的类型是什么？

我正在使用 total time datetime time int total time text replace h replace m split 0 int total time text replace h replace m s
无法在 Terminal.app OSX 上使用 Ctrl+A 和 Ctrl+E（bash 键绑定）

因此由于某些奇怪的原因我无法在 Terminal app 中的 bash 上使用 A 和 E 但是我可以使用 C R Y L 和所有其他键绑定绑定 p显示 C a 行首 C e 行尾所以我认为还有其他东西阻碍了这些键绑定知道我该如
为什么UTF-8使用多个字节来表示某些字符？

我最近经历了一个article http www sitepoint com do you know your character encodings 关于字符编码我对那里提到的某一点感到担忧在第一张图中作者展示了字符它们在各种字符

为什么UTF-8使用多个字节来表示某些字符？

为什么UTF-8使用多个字节来表示某些字符？ 的相关文章

随机推荐

热门标签

为什么UTF-8使用多个字节来表示某些字符？的相关文章