C++11 中字符串文字的 Unicode 编码

2024-03-10

继一个相关问题 https://stackoverflow.com/questions/6794590/how-does-file-encoding-affect-c11-string-literals，我想问一下C++11中新的字符和字符串文字类型。看起来我们现在有四种字符和五种字符串文字。字符类型：

char     a =  '\x30';         // character, no semantics
wchar_t  b = L'\xFFEF';       // wide character, no semantics
char16_t c = u'\u00F6';       // 16-bit, assumed UTF16?
char32_t d = U'\U0010FFFF';   // 32-bit, assumed UCS-4

和字符串文字：

char     A[] =  "Hello\x0A";         // byte string, "narrow encoding"
wchar_t  B[] = L"Hell\xF6\x0A";      // wide string, impl-def'd encoding
char16_t C[] = u"Hell\u00F6";        // (1)
char32_t D[] = U"Hell\U000000F6\U0010FFFF"; // (2)
auto     E[] = u8"\u00F6\U0010FFFF"; // (3)

问题是：\x/\u/\U字符引用可以与所有字符串类型自由组合吗？所有字符串类型都是固定宽度的，即数组包含的元素数量与文字中出现的元素数量完全相同，或者\x/\u/\U引用被扩展为可变数量的字节？做u"" and u8""字符串具有编码语义，例如我能说......么char16_t x[] = u"\U0010FFFF"，并且非 BMP 代码点被编码为两个单元的 UTF16 序列？同样对于u8？在（1）中，我可以写单独的代理吗\u？最后，是否有任何字符串函数能够识别编码（即它们能够识别字符并且可以检测无效的字节序列）？

这是一个有点开放式的问题，但我想尽可能完整地了解新 C++11 的新 UTF 编码和类型设施。

\x/\u/\U 字符引用是否可以与所有字符串类型自由组合？

No. \x可以用在任何东西上，但是\u and \U只能用于专门 UTF 编码的字符串。但是，对于任何 UTF 编码的字符串，\u and \U可以按照您认为合适的方式使用。

所有字符串类型都是固定宽度的，即数组包含与文字中出现的元素一样多的元素，还是将 \x/\u/\U 引用扩展为可变数量的字节？

不是按照你的意思。\x, \u, and \U根据字符串编码进行转换。这些“代码单元”的数量（使用 Unicode 术语。Achar16_t是 UTF-16 代码单元）值取决于包含字符串的编码。字面意思u8"\u1024"将创建一个包含 2 的字符串chars 加一个空终止符。字面意思u"\u1024"将创建一个包含 1 的字符串char16_t加上一个空终止符。

使用的代码单元数量基于 Unicode 编码。

u"" 和 u8"" 字符串是否具有编码语义，例如我可以说 char16_t x[] = u"\U0010FFFF"，并且非 BMP 代码点被编码为两个单元的 UTF16 序列吗？

u""创建 UTF-16 编码的字符串。u8""创建一个 UTF-8 编码的字符串。它们将按照 Unicode 规范进行编码。

在(1)中，我可以用\u写单独的代理吗？

绝对不。该规范明确禁止使用 UTF-16 代理对 (0xD800-0xDFFF) 作为代码点\u or \U.

最后，是否有任何字符串函数能够识别编码（即它们能够识别字符并且可以检测无效的字节序列）？

绝对不。好吧，请允许我重新表述一下。

std::basic_string不处理 Unicode 编码。他们当然可以storeUTF 编码的字符串。但他们只能将它们视为序列char, char16_t, or char32_t;他们不能将它们视为使用特定机制编码的 Unicode 代码点序列。basic_string::length()将返回代码单元的数量，而不是代码点的数量。显然，C 标准库字符串函数完全没用

但应该注意的是，Unicode 字符串的“长度”并不意味着代码点的数量。一些代码点正在组合“字符”（一个不幸的名称），它与前一个代码点组合。因此多个代码点可以映射到单个视觉字符。

Iostream 实际上可以读取/写入 Unicode 编码值。为此，您必须使用区域设置来指定编码并将其正确地注入到各个位置。这说起来容易做起来难，而且我身上没有任何代码来向您展示如何操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C++11 中字符串文字的 Unicode 编码的相关文章

计算 XML 中特定 XML 节点的数量

请参阅此 XML
适合初学者的良好调试器教程[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有谁知道一个好的初学者教程在 C 中使用调试器我感觉自己好像错过了很多我知道怎么做单步执行代码并查看局部变量虽然这常常给我带来问
如何捕获未发送到 stdout 的命令行文本？

我在项目中使用 LAME 命令行 mp3 编码器我希望能够看到某人正在使用什么版本如果我只执行 LAME exe 而不带参数我会得到例如 C LAME gt LAME exe LAME 32 bits version 3 98 2
以编程方式读取 SQL Server 查询计划建议的 SQL 特定执行的索引？

如果我在 SSMS 中运行此命令 set showplan xml on GO exec some procedure arg1 arg2 arg3 GO set showplan xml off GO 我获得查询执行中涉及的完整调用堆栈的
JNI 将 Char* 2D 数组传递给 JAVA 代码

我想从 C 代码通过 JNI 层传递以下指针数组 char result MAXTEST MAXRESPONSE 12 12 8 3 29 70 5 2 42 42 在java代码中我写了以下声明 public static native
如何填充 ToolStripComboBox？

我发现它很难将数据绑定到ToolStripComboBox 好像没有这个ValueMember and DisplayMember特性怎么绑定呢访问toolstripcombobox中包装的组合框并访问其ValueMember Disp
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
对 std::vector 进行排序但忽略某个数字

我有一个std vector
类型约束

我有以下类层次结构 class Header IEnumerable
使用valgrind进行GDB远程调试

如果我使用远程调试gdb我连接到gdbserver using target remote host 2345 如果我使用 valgrind 和 gdb 调试内存错误以中断无效内存访问我会使用 target remote vgdb 启动
在mysql连接字符串中添加应用程序名称/程序名称[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在寻找一种解决方案在连接字符串中添加应用程序名称或程序名称以便它在 MySQL Workbench 中的客户端连接下可见 SQL
C++ int 前面加 0 会改变整个值

我有一个非常奇怪的问题如果我像这样声明一个 int int time 0110 然后将其显示到控制台返回的值为72 但是当我删除前面的 0 时int time 110 然后控制台显示110正如预期的那样我想知道两件事首先为什么它在
高效列出目录中的所有子目录

请参阅迄今为止所采取的建议的编辑我正在尝试使用 WinAPI 和 C 列出给定目录中的所有目录文件夹现在我的算法又慢又低效使用 FindFirstFileEx 打开我正在搜索的文件夹然后我查看目录中的每个文件使用 FindNex
打印大型 WPF 用户控件

我有一个巨大的数据我想使用 WPF 打印我发现WPF提供了一个PrintDialog PrintVisual用于打印派生的任何 WPF 控件的方法Visual class PrintVisual只会打印一页因此我需要缩放控件以适合页面
实体框架中的“it”是什么

如果以前有人问过这个问题请原谅我但我的任何搜索中都没有出现它我有两个数据库表 Person 和 Employee 对每个类型的表进行建模例如 Employee is a Person 在我的 edmx 设计器中我定义了一个实体
使用 C 在 OS X 中获取其他进程的 argv

我想获得其他进程的argv 例如ps 我使用的是在 Intel 或 PowerPC 上运行的 Mac OS X 10 4 11 首先我阅读了 ps 和 man kvm 的代码然后编写了一些 C 代码 include
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
Objective-C / C 给出枚举默认值

我在某处读到过关于给枚举默认值的内容如下所示 typedef enum MarketNavigationTypeNone 0 MarketNavigationTypeHeirachy 1 MarketNavigationTypeMarke
是否可以在不连接数据库的情况下检索 MetadataWorkspace？

我正在编写一个需要遍历实体框架的测试库MetadataWorkspace对于给定的DbContext类型但是由于这是一个测试库我宁愿不连接到数据库它引入了测试环境中可能无法使用的依赖项当我尝试获取参考时MetadataWorksp
如何将十六进制字符串转换为无符号长整型？

我有以下十六进制值 CString str str T FFF000 如何将其转换为unsigned long 您可以使用strtol作用于常规 C 字符串的函数它使用指定的基数将字符串转换为 long long l strtol str

随机推荐

从Firebase android获取孩子ID [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对 Android 开发非常陌生我正在使用 Firebase 开发一个 Android 应用程序来获取一个人的姓名和地址我的数据
如何在 javascript 中将日期时间字符串的格式从使用斜杠改为使用连字符？

我有一个以下格式的输入日期字符串 yyyy mm dd 这是我想要的输出日期字符串格式 yyyy mm dd Javascript 有内置的方法可以做到这一点吗 Use 字符串替换 https developer mozilla org e
如何使用 Javascript Date 对象计算东部时间？

我正在开发一个涉及 Javascript 的个人项目作为该项目的一部分我想获取当前日期包括时间并相应地显示它没什么大不了的吧嗯 deal是我想返回时间和日期东部夏令时间无论 IP 在世界哪个地方如果这是不可能的您建议采用哪
C# 多屏幕视图单一表单

我用 C 创建了一个 GUI 它应该如下所示主屏幕上有两个按钮当Button1被单击我不想使用打开新表单form2 show 但在保持相同形式的同时我想更改显示我通过隐藏 GUI 元素并根据需要显示其他元素来完成此操作它按照我想要
如何重命名项目中的 Rails 控制器和模型

我启动了一个 Rails 应用程序一切正常但现在我想重命名控制器和关联的模型我想改变Corps控制器到Stores模型也相同没有最后的 s 在谷歌上查看人们建议销毁然后重新生成控制器和模型问题是它会删除每个文件的实际代码解决
如何在gemspec文件中指定依赖gem的路径？

我创建了一个 gem X 但它没有发布现在我正在创建另一个 gem 它将添加 gem X 作为依赖项如下所示 s add dependency X 在 gemspec 文件中由于 gem X 不在 ruby gem 或 git 或 r
如果用户正在键入，则延迟 KeyUp 操作 (C#)

我有一个当用户在搜索框中键入内容时被调用的函数我想在实际执行该函数之前等待用户完成输入我知道如何在 JavaScript 中通过超时轻松完成此操作但是我如何在 C 中做同样的事情呢另外在假设用户完成输入之前我应该等待多长时间 1
如何排除 Sbt 中的传递依赖（在程序集插件的上下文中）？

我有两个 Sbt 项目我的共享空间 and 我的服务我的共享空间与依赖关系 libraryDependencies Seq nz ac waikato cms weka attributeSelectionSearchMethods
无法将嵌套应用程序中的自定义 Django 模型指定为 AUTH_USER_MODEL

我无法指定自定义AUTH USER MODEL如果该模型位于nested应用这是一些项目结构 project settings py my parent app init py apps py my child app init py a
JUnit：如何避免测试实用程序类中的“无可运行方法”

我已经从JUnit3 8切换到JUnit4 4 我使用 ant 运行测试所有测试都成功运行但测试实用程序类失败并出现无可运行方法错误我使用的模式是在测试文件夹下包含名为 Test 的所有类我知道运行程序找不到任何用 Test 属
Scrapy、privoxy 和 Tor：SocketError：[Errno 61] 连接被拒绝

我将 Scrapy 与 Privoxy 和 Tor 一起使用这是我之前的问题Scrapy 与 Privoxy 和 Tor 如何更新 IP https stackoverflow com questions 45009940 scrapy
在 Android 上查找圆上的点

一切看起来都那么简单明了直到我必须真正对其进行编程我有什么我上传了一张图片以更好地解释它我有一个圈子我知道它是半径中心点坐标每个按钮的初始坐标红色圆圈我希望能够在将灰色圆形图像旋转 10 度时计算红色按钮的新坐标 x1y
winform中如何只验证数字？

如何在不使用按键选项的情况下验证数字为什么不是Char IsNumber or IsDigit在职的或者我应该使用正则表达式进行验证 private bool ValidateContact if Char IsNumber textB
Java：将浮点二进制转换为浮点十进制

我想转换表示 IEEE754 双精度数尾数部分的字符串找不到Java中是否有这样的转换方法以避免手动添加1 1 2 1 4 1 8等 010000001100101000011111000000000000000000000000000
htaccess 清理 URL 的最佳方法是什么？

我正在为我的网站开发干净的网址我注意到您在互联网上找到的内容几乎都是将您的干净网址重写为您的服务器可以使用的网址所以像这样 www domain com profile username gt www domain com profil
用于分析 .Net 应用程序内存转储的工具

有人可以推荐一个好的吗free除了 Adplus windbg sos 之外还有用于分析 Net 内存转储的工具吗你可以尝试一下调试诊断1 1 http blogs msdn com tess archive 2008 05 21 de
是什么导致 Python 错误“bad escape \C”？

我刚刚编写了一个函数它将查看文本文件并计算文本文件中 True 和 False 的所有实例这是我的文件 ATOM 43 CA LYS A 5 14 038 15 691 37 608 1 00 15 15 C True ATOM 52
Raft算法：term什么时候会增加？

Raft将时间划分为任意长度的术语如图5所示术语用连续的整数编号每个任期以一次选举开始其中一名或多名候选人试图成为领导者如第 5 2 节所述如果候选人赢得选举那么他将在剩余任期内担任领导者在某些情况下选举会导致投票分散在
为什么从搅拌机导出到 Unity 时我的 (FBX) 网格体有孔？

我现在正在学习雕刻我的角色当我将 FBX 文件从 Blender 导出到 Unity 时网格物体的脸上有一个巨大的洞我该如何预防解决这个问题它在 mixamo 中工作得很好在此输入图像描述 https i stack imgur
C++11 中字符串文字的 Unicode 编码

继一个相关问题 https stackoverflow com questions 6794590 how does file encoding affect c11 string literals 我想问一下C 11中新的字符和字符串文字

C++11 中字符串文字的 Unicode 编码

C++11 中字符串文字的 Unicode 编码 的相关文章

随机推荐

热门标签

C++11 中字符串文字的 Unicode 编码的相关文章