如何“解码”UTF-8 字符？

2024-02-25

假设我想编写一个函数来比较两个 Unicode 字符。我该怎么做呢？我读了一些文章（比如this http://en.wikipedia.org/wiki/UTF-8）但还是没明白。让我们来€作为输入。已经在范围内了0x0800 and 0xFFFF所以它将使用 3 个字节对其进行编码。我该如何解码它？按位运算获取 3 个字节wchar_t并存储到3char是？ C 示例中的代码可能很棒。

这是我要“解码”的 C 代码，但显然显示解码 unicode 的错误值...

#include <stdio.h>
#include <wchar.h>

void printbin(unsigned n);
int length(wchar_t c);
void print(struct Bytes *b);

// support for UTF8 which encodes up to 4 bytes only
struct Bytes
{
    char v1;
    char v2;
    char v3;
    char v4;
};

int main(void)
{
    struct Bytes bytes = { 0 };
    wchar_t c = '€';
    int len = length(c);

    //c = 11100010 10000010 10101100
    bytes.v1 = (c >> 24) << 4; // get first byte and remove leading "1110"
    bytes.v2 = (c >> 16) << 5; // skip over first byte and get 000010 from 10000010
    bytes.v3 = (c >> 8)  << 5; // skip over first two bytes and 10101100 from 10000010
    print(&bytes);

    return 0;
}

void print(struct Bytes *b)
{
    int v1 = (int) (b->v1);
    int v2 = (int)(b->v2);
    int v3 = (int)(b->v3);
    int v4 = (int)(b->v4);

    printf("v1 = %d\n", v1);
    printf("v2 = %d\n", v2);
    printf("v3 = %d\n", v3);
    printf("v4 = %d\n", v4);
}

int length(wchar_t c)
{
    if (c >= 0 && c < 0x007F)
        return 1;
    if (c >= 0x0080 && c <= 0x07FF)
        return 2;
    if (c >= 0x0800 && c <= 0xFFFF)
        return 3;
    if (c >= 0x10000 && c <= 0x1FFFFF)
        return 4;
    if (c >= 0x200000 && c <= 0x3FFFFFF)
        return 5;
    if (c >= 0x4000000 && c <= 0x7FFFFFFF)
        return 6;

    return -1;
}

void printbin(unsigned n)
{
    if (!n)
        return;

    printbin(n >> 1);
    printf("%c", (n & 1) ? '1' : '0');
}

比较 UTF-8 编码的字符一点也不容易。最好不要尝试。任何一个：

将它们都转换为宽格式（32 位整数）并进行算术比较。看wstring_convert或您最喜欢的供应商特定功能；或者
将它们转换为 1 个字符串并使用比较 UTF-8 编码字符串的函数。在 C++ 中没有标准方法可以做到这一点，但它是其他语言（如 Ruby、PHP 等）的首选方法。

需要明确的是，困难的是获取编码为 UTF_8 的原始位/字节/字符并进行比较。这是因为您的比较必须考虑编码才能知道是比较 8 位、16 位还是更多。如果您可以以某种方式将原始数据位转换为以空结尾的字符串，那么使用常规字符串函数进行比较就非常容易。该字符串的长度可能超过一个字节/八位字节，但它将表示单个字符/代码点。

Windows 是一个特殊情况。宽字符是短整型（16 位）。从历史上看，这意味着 UCS-2，但它已被重新定义为 UTF-16。这意味着基本多语言平面 (BMP) 中的所有有效字符都可以直接比较，因为它们将占用一个短整型，但其他字符则不能。我不知道有什么简单的方法可以在 Windows 上的 BMP 之外处理 32 位宽字符（表示为简单的 int）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何“解码”UTF-8 字符？的相关文章

分段错误（核心转储）错误

我的程序编译罚款但在输入文件时出现分段错误核心转储错误我没有正确处理 ostream 吗 include
Subversion 和 Visual Studio 项目的最佳实践

我最近开始在 Visual Studio 中处理各种 C 项目作为大型系统计划的一部分该系统将用于替换我们当前的系统该系统是由用 C 和 Perl 编写的各种程序和脚本拼凑而成的我现在正在进行的项目已经达到了颠覆的临界点我想知道什
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
将字符串转换为正确的 URI 格式？

有没有简单的方法可以将电子邮件地址字符串转换为正确的 URI 格式 Input http mywebsite com validate email 3DE4ED727750215D957F8A1E4B117C38E7250C33 email
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
HttpWebRequest vs Webclient（特殊场景）

我知道这个问题之前已经回答过thread https stackoverflow com questions 1694388 webclient vs httpwebrequest httpwebresponse 但我似乎找不到详细信息在
如何在 C++ 中将 CString 转换为 double？

我如何转换CString to a double在 C 中 Unicode 支持也很好 Thanks A CString可以转换为LPCTSTR 这基本上是一个const char const wchar t 在 Unicode 版本中知
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
libxml2 xmlChar * 到 std::wstring

libxml2似乎将所有字符串存储在 UTF 8 中如xmlChar xmlChar This is a basic byte in an UTF 8 encoded string It s unsigned allowing to pi
为什么具有相同名称但不同签名的多个继承函数不会被视为重载函数？

以下代码片段在编译期间产生对 foo 的调用不明确错误我想知道是否有任何方法可以解决此问题而不完全限定对 foo 的调用 include
分配器感知容器和propagate_on_container_swap

The std allocator traits模板定义了一些常量例如propagate on container copy move assign让其他容器知道它们是否应该在复制或移动操作期间复制第二个容器的分配器我们还有propag
WPF。如何从另一个窗口隐藏/显示主窗口

我有两个窗口 MainWindow 和 Login 显示登录的按钮位于主窗口 this Hide Login li new Login li Show 登录窗口上有一个检查密码的按钮如果密码正确我如何显示主窗口将参数传递给 MainW
使用 mingw32 在 Windows 上构建 glew 时“DllMainCRTStartup@12”的多个定义

我关注了这个主题使用 mingw 使建筑物在 Windows 上闪闪发光 https stackoverflow com questions 6005076 building glew on windows with mingw 6005
如何引用解决方案之外的项目？

我有一个 Visual Studio C 解决方案其中包含一些项目其中一个项目需要引用另一个不属于解决方案的项目一开始我引用了dll
为什么 Linux 对目录使用 getdents() 而不是 read()？

我浏览 K R C 时注意到为了读取目录中的条目他们使用了 while read dp gt fd char dirbuf sizeof dirbuf sizeof dirbuf code Where dirbuf是系统特定的目录结构
C语言声明数组没有初始大小

编写一个程序来操纵温度详细信息如下所示输入要计算的天数主功能输入摄氏度温度输入功能将温度从摄氏度转换为华氏度独立功能查找华氏度的平均温度我怎样才能在没有数组初始大小的情况下制作这个程序 include
在 Xamarin 中获取 OutOfMemoryException

java lang OutOfMemoryError 考虑增加 JavaMaximumHeapSize Java 执行时内存不足 java exe 我的 Visualstudio Xamarin 项目出现内存不足异常请帮助我如何解决此问题
带有私有设置器的 EFCore Base 实体模型属性 - 迁移奇怪的行为

实体模型继承的类内的私有设置器似乎会导致 EFCore 迁移出现奇怪的问题考虑以下示例其中有多个类 Bar and Baz 继承自Foo 跑步时Add Migration多次命令添加删除private修饰符生成的模式在多个方面都是
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque
如何使用 C# 以低分辨率形式提供高分辨率图像

尝试使用 300dpi tif 图像在网络上显示目前当用户上传图像时我正在动态创建缩略图如果创建的页面引用宽度为 500x500px 的高分辨率图像我可以使用相同的功能即时转换为 gif jpg 吗将创建的 jpg 的即将分辨率

随机推荐

Tizen WEB 应用程序在 2.2 版本中无法运行

我是 Tizen 的新手并通过在 64 位 Windows 7 计算机中将 SDK 版本设置为 2 2 来开始开发我创建了一个新的 WEB 应用程序在尝试运行它在模拟器和真实设备上时安装后没有任何反应我尝试了几次启动该应用程序
Windows 上 PyCharm 中 numpy 的安装

当我尝试在 Pycharm Windows 中安装 numpy 时我不断收到错误这是我得到的错误 C Python27 lib distutils dist py 267 UserWarning 未知的分发选项 define macro
cmd.exe 的 CSS 字体系列

我在CSS中找不到任何与CMD exe中使用的字体系列类似的字体系列请你帮助我好吗您可以使用 font family monospace 指定您希望使用等宽字体控制台使用等宽字体以确保所有字符具有相同的宽度请注意某些浏览器无法正确
如何访问在条件匹配组 Javascript 正则表达式中导致匹配的表达式？

我有一个条件匹配分组正则表达式例如 sun bmoon 当我访问字符串中的匹配项时我希望能够看到导致匹配的表达式 let regex sun bmoon let match regex exec moon return bmoon 这可
通俗地说，Java 中的“静态”是什么意思？ [复制]

这个问题在这里已经有答案了我被告知了它的几个定义查看了维基百科但作为 Java 的初学者我仍然不确定它的含义有人精通 Java 吗 static 意味着标记为此类的变量或方法在类级别可用换句话说您不需要创建该类的实例来访问它
如何使用 RefersToRange？

谁能告诉我如何在vba中使用RefersToRange 以及什么时候需要它请先提供简单的例子提前致谢在Excel中有一个概念命名范围这是一个带有名称的单元格范围这由Name https msdn microsoft com e
刷新 firebase id 令牌服务器端

我正在开发一个使用 Next js 13 和带有 id 令牌的 firebase auth 的应用程序我想利用服务器端组件的 Next JS 内置功能来更快地获取用户数据因此我需要在初始请求时验证服务器上的 id 令牌当没有用户登录受
使用pdfminer从pdf中提取文本给出多个副本

我正在尝试使用 PDFMiner 从 PDF 文件中提取文本代码位于在Python中使用PDFMiner从PDF文件中提取文本 https stackoverflow com questions 26494211 extracting t
以编程方式选择 jqGrid 中的所有行？

以编程方式选择设置为多选的 jqGrid 中的所有行的最佳方法是什么该代码可以一次循环遍历所有行并选择每一行但不会选中网格标题中的复选框我正在考虑只触发标题行复选框的单击事件但这会对底层 jqGrid 实现做出假设一定会有更好的办
使用动态规划将球分配到“给定容量的箱子”中

我想知道如何使用DP解决这样的问题给定 n 个球和 m 个箱子每个箱子有 max 容量 c1 c2 cm 将这 n 个球分配到这 m 个箱子中的方式总数是多少我面临的问题是如何找到递归关系当容量都是单个常数 c 时我可以将有多个
如何在 django 中安排将来某个时间发送电子邮件？

我想安排在执行特定操作时向用户发送电子邮件但是如果用户采取其他操作我想取消该电子邮件并且不发送它我该如何在 django 或 python 中做到这一点豆茎如果可以安装的话豆茎 http kr github com beanst
C 的 GCD 函数

Q 1 问题5 可整除我尝试了蛮力法但是需要时间所以我参考了几个网站找到了这段代码 include
ChartJS 甜甜圈图表渐变填充

因此我尝试为 ChartJS 圆环图进行渐变填充但这仅适用于水平方向而不适用于圆形这是我正在使用的代码 var ctx document getElementById chart area getContext 2d var gra
仅显示 shell_exec('df') 中磁盘使用数据的特定列

我正在尝试编写一个 PHP 脚本来执行用于报告的 shell 函数我从磁盘使用报告开始我想要以下格式 drive path total size free space 没有其他的我的脚本是 output shell exec df h
我可以在 TCPDF 中使用“旧式”（非衬里）数字吗？

Unicode 不区分衬里数字与大写字母具有相同的比例在表格中很有用但在运行文本中很突出和非衬里数字它们看起来更像小写字母具有上升部分和下降部分因为它认为它们是彼此的变体不过许多字体都具有两组数字并提供了一种在它们之间进
Mozilla firefox 无法使用 window.onbeforeunload

我在用着window onbeforeunload在窗口关闭时向用户显示消息该功能在 Chrome 和 IE 上运行良好但在 Firefox 上不起作用我使用的是 Firefox 版本26 0我已经尝试了很多但没有任何意义有人说这
如何通过解耦的后端和前端进行社交身份验证（Passport / Express / React）

我正在尝试使用 PassportJS Express 后端和 React JS 前端来进行社交身份验证但是我不确定如何去做我做了一些阅读并实现了社交身份验证当使用 Google Auth 登录时它会返回由 Express 应用程序
是否建议在 bash 脚本中捕获 SIGPIPE？

我在使用系统调用命令从 C 执行 bash 脚本时遇到问题该脚本捕获了一个SIGPIPE发出信号并退出并返回代码141 这个问题只在我的代码的最后一个版本中开始出现我的问题如下为什么这个 SIGPIPE 现在出现而以前没有出现忽略
带脚本的文本编辑器...适用于 Linux

一段时间以来我一直在我的 Windows 机器上使用 UltraEdit 事实证明使用熟悉的语言 JavaScript 编写脚本的能力非常有用唯一的问题是我无法在工作时在我的 Linux 机器上使用它是否有在 Linux 上运行并具
如何“解码”UTF-8 字符？

假设我想编写一个函数来比较两个 Unicode 字符我该怎么做呢我读了一些文章比如this http en wikipedia org wiki UTF 8 但还是没明白让我们来作为输入已经在范围内了0x0800 and 0xF

如何“解码”UTF-8 字符？

如何“解码”UTF-8 字符？ 的相关文章

随机推荐

热门标签

如何“解码”UTF-8 字符？的相关文章