UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

2024-05-04

在过去的几天里，我一直在阅读有关 Unicode 和 UTF-8 的内容，并且经常遇到与此类似的按位比较：

int strlen_utf8(char *s) 
{
  int i = 0, j = 0;
  while (s[i]) 
  {
    if ((s[i] & 0xc0) != 0x80) j++;
    i++;
  }
  return j;
}

有人可以澄清与 0xc0 的比较并检查它是否是最高有效位吗？

谢谢你！

编辑：ANDed，而不是比较，使用了错误的词；）

这不是比较0xc0，这是一个逻辑与运算0xc0.

位掩码0xc0 is 11 00 00 00所以 AND 所做的只是提取前两位：

    ab cd ef gh
AND 11 00 00 00
    -- -- -- --
  = ab 00 00 00

然后将其与0x80（二进制10 00 00 00）。换句话说，if语句正在检查值的前两位是否不等于10.

“为什么？”，我听到你问。嗯，这是个好问题。答案是，在 UTF-8 中，所有以位模式开头的字节10是多字节序列的后续字节：

                    UTF-8
Range              Encoding  Binary value
-----------------  --------  --------------------------
U+000000-U+00007f  0xxxxxxx  0xxxxxxx

U+000080-U+0007ff  110yyyxx  00000yyy xxxxxxxx
                   10xxxxxx

U+000800-U+00ffff  1110yyyy  yyyyyyyy xxxxxxxx
                   10yyyyxx
                   10xxxxxx

U+010000-U+10ffff  11110zzz  000zzzzz yyyyyyyy xxxxxxxx
                   10zzyyyy
                   10yyyyxx
                   10xxxxxx

所以，这个小片段所做的就是遍历 UTF-8 字符串的每个字节，并计算所有不是连续字节的字节（即，它获取字符串的长度，如广告所示）。看这个维基百科链接 http://en.wikipedia.org/wiki/UTF-8欲了解更多详细信息和Joel Spolsky 的优秀文章 http://www.joelonsoftware.com/articles/Unicode.html作为底漆。

顺便说一句有趣的。您可以按如下方式对 UTF-8 流中的字节进行分类：

将高位设置为0，它是一个单字节值。
将两个高位设置为10，它是一个连续字节。
否则，它是多字节序列的第一个字节和前导的数量1位表示该序列总共有多少字节（110...表示两个字节，1110...表示三个字节等）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UTF8

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？的相关文章

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

在过去的几天里我一直在阅读有关 Unicode 和 UTF 8 的内容并且经常遇到与此类似的按位比较 int strlen utf8 char s int i 0 j 0 while s i if s i 0xc0 0x80 j i r
如何在PHP中设置文本文件编码？

如何在 PHP 中设置文本文件编码例如 UTF 8 让我告诉你我的问题这是我的代码 Output fwrite 具有类似的输出但是当我创建test txt通过记事本并设置字符集UTF 8输出就是我想要的我想在 PHP 文件中设置字符
看起来像 iOS7 向左导航 V 形的 Unicode 字符

最接近 iOS7 向后指向导航栏 V 形的大小与大写字母一样大或大于大写字母和形状的 Unicode 字符是什么我正在寻找一种使用 unicode 字符来模拟通常没有返回导航的视图的向后导航 V 形的方法常规的对于锐角比 U
在R包/.Rd文件中搜索unicode字符

如何在 R 包或特定文件中搜索特定的 unicode 字符我使用的是 RStudio IDE 我正在尝试向 CRAN 提交包裹所有检查均通过但以下情况除外 W checking PDF version of manual 49 5s
Android 2.x 天城文 unicode 问题

我正在尝试使用以下代码支持 android 2 x 的梵文字体即使 android 2 x 无法渲染梵文字体除了 raswa 和 dirga 存在一些问题之外代码工作正常是否有可能在 android 2 x 中获得正确的梵文表示形式
为什么 Java BufferedReader() 不能正确读取阿拉伯文和中文字符？

我正在尝试读取一个每行包含英文和阿拉伯字符的文件以及另一个每行包含英文和中文字符的文件然而阿拉伯文和中文的字符无法正确显示它们只是显示为问号知道我该如何解决这个问题吗这是我用于阅读的代码 try String sCurrentLi
与 Ruby 1.9.X 中的 Iconv.conv("UTF-8//IGNORE",...) 等效吗？

我正在从远程源读取数据偶尔会得到另一种编码的一些字符它们并不重要我想得到一个最佳猜测 utf 8 字符串并忽略无效数据主要目标是获得一个我可以使用的字符串并且不会遇到以下错误编码 UndefinedConversionErr
Java 统一编码

A Java char is 2 bytes http java sun com docs books tutorial java nutsandbolts datatypes html 最大大小为 65 536 但有95 221 http
解析 HTTP 标头值：引用、RFC 5987、MIME 等

让我困惑的是 HTTP 标头的解码values 示例标头 Some Header quoted string utf 8 en Weirdness 罐头value s被引用 a 的编码怎么样本身是有效的引号字符分号有什么意义 HTT
打印时不会出现日文字符

我正在用 python 打印 Unicode 字符到目前为止除了日语字符之外我使用过的所有符号都有效当我打印字符时它只显示框中的问号符号我怎样才能解决这个问题当我第一次回答这个问题时我认为这可能是 python 的问题
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
CSV、Python：正确使用 DictWriter（ValueError：dict 包含不在字段名中的字段）

我在掌握 csv 模块 Python 2 7 中的 DictWriter 时遇到困难我有这个哦我正在使用 unicodecsv 库因为我读到存在问题 f object instance return a dictionary key
为什么该字符串的长度比其中的字符数长？

这段代码 string a abc string b A C Console WriteLine Length a 0 a Length Console WriteLine Length b 0 b Length outputs Lengt
#1115 - 未知字符集：'utf8mb4'

我的电脑上运行着一个本地网络服务器用于本地开发我现在正处于导出数据库并导入到我的托管 VPS 的阶段导出然后导入时出现以下错误 1115 未知字符集 utf8mb4 有人能指出我正确的方向吗该错误明确表明您没有utf8mb4您的阶段
git diff 在尖括号中显示 unicode 符号

我有一个带有 unicode 符号俄语文本的文件当我修复一些拼写错误时我使用git diff color words 看看我所做的改变如果是 unicode 西里尔文符号尖括号会造成一些混乱如下所示 cat p1 cat p
验证假名输入

我正在开发一个允许用户输入日语字符的应用程序我试图想出一种方法来确定用户的输入是否是日语假名平假名片假名或汉字应用程序中的某些字段不适合输入拉丁文文本我需要一种方法将某些字段限制为仅限汉字或仅限片假名等该项目使用UTF 8编码
Matplotlib mathtext：刻度标签中的字形错误

当使用默认值时我在 matplotlib 2 0 2 中渲染数学时观察到错误mathtext https matplotlib org 1 5 1 users mathtext html mathtext tutorial与LaTeX h
有没有办法匹配任意 Unicode 字母字符？

我有一些文档经过 OCR 从 PDF 转换为 HTML 因此他们最终会出现很多随机的 unicode 标点符号而转换器会搞砸即省略号等他们还正确地有一堆非英语但仍然是字母字符如和俄语字符等有没有办法制作一个匹配任何 unico
如何返回 json 结果并将 unicode 字符转义为 \u1234

我正在实现一个返回 json 结果的方法例如 public JsonResult MethodName Guid key var result ApiHelper GetData key Data is stored in db as v
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico

随机推荐

（一元）* 运算符在此 Ruby 代码中起什么作用？

给出 Ruby 代码 line first name mickey last name mouse country usa record Hash line split 我理解第二行中的所有内容除了操作员它在做什么以及相关文档在哪里
自动将测试从 JUnit 3 迁移到 JUnit 4 的最佳方法？

我有一堆 JUnit 3 类它们扩展了 TestCase 并希望自动将它们迁移为带有注释的 JUnit4 测试例如 Before After Test etc 有什么工具可以在大批量运行中执行此操作吗在我看来这并没有那么难那么让我
从一个项目调用控制器到另一个项目

我正在使用 Asp net MVC4 和 razor 我想知道如何在同一解决方案中从一个项目调用控制器到另一个项目我是 MVC4 的新手您可以简单地将控制器添加到另一个项目类库或 MVC 项目等我们有几个共享控制器的项目 webAP
Swift 2：IBOutlet 集合 [UIButton]！内存泄漏

最近在我的应用程序中我发现我的 UIButton 出口集合正在泄漏内存我所拥有的只是 IBOutlet var TabBarButtons UIButton And from Instrument 谁能告诉我出了什么问题吗随着时间的推
使用 SimpleDateFormat 分别获取日、月和年

我有一个SimleDateFormat像这样 SimpleDateFormat format new SimpleDateFormat MMM dd yyyy hh mm String date format format Date par
插件架构中的反射与属性

我正在开发一个在启动时从子目录加载插件的应用程序目前我正在通过使用反射来迭代每个程序集的类型并查找实现 IPluginModule 接口的公共类来实现此目的由于反射涉及性能影响并且我预计一段时间后会有多个插件我想知道定义在程序集级别
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co
使用cachedTextGenerator获取字母的正确位置

考虑一个Text有许多文本段落这很容易查找某个字符在哪里 using UI字符信息 http docs unity3d com ScriptReference UICharInfo html 例如查找所有换行符 TextGenerato
python 在单击的 QTreeview 项目复选框上发出信号已更改

当树视图项目的复选框发生更改时如何发出信号 import sys from PySide import QtGui QtCore class Browser QtGui QDialog def init self parent None
线程同时打印会弄乱文本输出

我在应用程序中使用 4 个线程它们返回我想要打印给用户的文本由于我想避免线程独立打印这些文本因此我创建了一个类来管理它我不知道我在这里做错了什么但它仍然不起作用您可以在下面看到代码 from threading import T
有哪些用例可以证明 310 OffsetDatetime 的合理性？

偏移日期 http threeten sourceforge net apidocs javax time calendar OffsetDate html表示带有区域偏移的日期我不明白这个类的用途证明它存在的主要用例是什么在分析日期
已弃用的代码： vs style="font-weight:bold;"

我一直用 b 标记为粗体因为这是我很久以前就被教做的方式但现在我的 IDE 总是告诉我 b 已弃用并使用 css 样式假设他们希望我使用 div style font weight bold Bold Text div 我的 IDE

MongoDB 中的游标是什么？

我们对最终发生的事情感到困扰cursor not found exceptions对于一些 Morphia 查询asList http mongodb github io morphia 1 0 guides querying 我找到了一个

在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co

声明指令 templateUrl 相对于 root

我目前正在声明相对于当前窗口位置的 templateUrl cvApp directive personalDetails function return restrict A templateUrl Scripts app templat

Tensorflow lite 目标检测示例中相机的屏幕尺寸 [水平屏幕]

在tensorflow lite示例对象检测中相机不会拍摄整个屏幕而只会拍摄一部分我试图在 CameraActivity CameraConnectionFragment 和 Size 类中找到一些常量但没有结果所以我只是想要一种

Android：Notification.DEFAULT_VIBRATE是否需要振动权限？

有时我读到 notification defaults Notification DEFAULT VIBRATE and notification defaults Notification DEFAULT ALL 需要振动权限

从 WebAPI 发送大文件。内容长度为 0

我正在尝试将大文件 GB 从一个WebAPI NET Core 发送到另一个WebApi Net Core 我已经设法发送较小的文件作为多部分请求的一部分就像上一篇文章中那样 link https forums asp net t 209

无法自省类 [org.springframework.security.config.annotation.web.configuration.WebSecurityConfiguration]

我使用 spring boot 2 1 1 创建了一个项目当我尝试提升它时出现以下错误 2018 12 10 19 23 14 837 ERROR 8096 main o s boot SpringApplication 应用程序运行失

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

在过去的几天里我一直在阅读有关 Unicode 和 UTF 8 的内容并且经常遇到与此类似的按位比较 int strlen utf8 char s int i 0 j 0 while s i if s i 0xc0 0x80 j i r

热门标签

软件建模基础

保存到新链表

mvIMPACT

数组中找出两个单数

连续子数组的最大

二叉搜索树与双向链表

二进制中

文件描述符

与照明光学基础知识

镜头技术参数基础

计算机系统漫游

操作系统原理与实践

核心功能

meiqua

Remapping

论文纪要

模板匹配

文件常用命令参数解释

恒流源驱动电路

驱动电路的分析

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？ 的相关文章

随机推荐

热门标签

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？的相关文章