2018 年用 C++ 处理 Unicode 的正确方法是什么？

2024-01-10

我尝试过搜索 stackoverflow 来找到这个问题的答案，但我发现的问题和答案都在10岁由于变化和可能的进展，我似乎无法就该主题达成共识。

我知道除了 stl 之外还有几个库应该处理 unicode-

http://userguide.icu-project.org/ http://userguide.icu-project.org/
https://github.com/nemtrif/utfcpp https://github.com/nemtrif/utfcpp
https://github.com/CaptainCrowbar/unicorn-lib https://github.com/CaptainCrowbar/unicorn-lib

stl 有几个特点（wstring https://stackoverflow.com/questions/27225196/is-wstring-character-is-unicode-what-happens-during-conversion,编码cvt_utf8 http://en.cppreference.com/w/cpp/locale/codecvt_utf8），但人们似乎对使用持矛盾态度，因为他们处理的是 UTF-16，这个网站：（到处都是 utf-8 https://utf8everywhere.org/）说不应该使用，网上很多人似乎都同意这个前提。

我唯一想要的就是能够用 unicode 字符串做 4 件事 -

将字符串读入内存
使用 unicode 或 ascii 通过正则表达式搜索字符串，使用 ascii+unicode 数字或字符连接或进行文本替换/格式化。
对于不适合 ascii 范围的字符，转换为 ascii + unicode 数字格式。
将字符串写入磁盘或发送到任何地方。

据我所知，重症监护室可以处理这个问题以及更多事情。我想知道在 Linux、Windows 和 MacOS 上是否有处理此问题的标准方法。

感谢您的时间。

我将尝试在这里提出一些想法：

大多数 C++ 程序/程序员只是假设文本是几乎不透明的字节序列。 UTF-8 可能因此而有罪，毫不奇怪，许多评论继续这样说：不用担心 Unicode，只需处理 UTF-8 编码的字符串
文件仅包含字节。此时，如果您尝试在内部处理真正的 Unicode 代码点，则必须将其序列化为字节 -> 这里再次 UTF-8 获胜
一旦走出基本多语言平面（16 位代码点），事情就会变得越来越复杂。这emoji https://en.wikipedia.org/wiki/Emoji处理起来特别糟糕：表情符号后面可以跟着一个变体选择器（U+FE0E VARIATION SELECTOR-15 (VS15) 用于文本或 U+FE0F VARIATION SELECTOR-16 (VS16) 用于表情符号样式）更改其显示样式，或多或少是旧的i bs ^1970 年当人们想要打印时使用了 asciiî。这还不是全部，字符 U+1F3FB 到 U+1F3FF 用于为分布在六个块中的 102 个人类表情符号提供肤色：标志、表情符号、杂项符号、杂项符号和象形文字、补充符号和象形文字以及运输和地图符号。

这仅仅意味着最多 3 个连续的 unicode 代码点可以表示一个单独的字形......所以一个字符就是一个字符的想法char32_t仍然是一个近似值

我的结论是 Unicodeis一个复杂的事情，确实需要像 ICU 这样的专用库。当你只处理BMP时，你可以尝试使用简单的工具，比如标准库的转换器，但全面支持远远不止于此。

顺便说一句：即使是像 Python 这样的其他语言，假装拥有本机 unicode 支持（恕我直言，这比当前的 C++ 好得多）也经常在某些方面失败：

tkinter GUI 库无法显示 BMP 之外的任何代码点 - 尽管它是标准的 IDLE Python 工具
除了核心语言支持（编解码器和 unicodedata）之外，不同的模块或标准库专用于 Unicode，并且 Python 包索引中提供了其他模块（例如表情符号支持），因为标准库不能满足所有需求

所以 10 多年来对 Unicode 的支持一直很差，我真的不希望未来 10 年内事情会变得更好......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Unicode

2018 年用 C++ 处理 Unicode 的正确方法是什么？的相关文章

C++ Singleton 类 getInstance （作为 java）[重复]

这个问题在这里已经有答案了可能的重复谁能给我提供一份 C 中的 Singleton 示例吗 https stackoverflow com questions 270947 can any one provide me a sample
如何指定CMAKE外部项目的编译器？

我使用ExternalProject Add 包含一个外部项目我想要的是能够做到 cmake DCMAKE CXX COMPILER
HttpResponseMessage 的内容为 JSON

我有一个 ASP NET MVC WEB API 由于多种原因由于没有授权而重定向我不能只使用一个简单的对象并在我的控制器方法中返回它因此我需要 HttpResponseMessage 类来允许我重定向目前我正在这样做 var re
使用 gcc 编译 C 时，预处理的 .i 文件中的数字意味着什么？

我想了解编译过程我们可以使用以下命令查看预处理器中间文件 gcc E hello c o hello i or cpp hello c gt hello i 我大致知道预处理器的作用但我很难理解某些行中的数字例如 1 usr incl
C++17 中带有 noexcept 的 std::function

在 C 17 中noexcept 已添加到类型系统中 http www open std org jtc1 sc22 wg21 docs papers 2015 p0012r1 html void r1 void f noexcept f
ObservableCollection 上的“Cascade”绑定，包含其他 ObservableCollection

我有一个项目需要显示合同列表 Class Affaire 每个合约都有一个阶段列表类别阶段我使用绑定在 2 个不同的 ListView 中显示它们中的每一个问题是当我从 ListView 中删除一个 Phase 时显示 Phases
在 C 中声明和初始化数组

C 有没有办法先声明然后初始化数组到目前为止我一直在初始化一个这样的数组 int myArray SIZE 1 2 3 4 但我需要做这样的事情 int myArray SIZE myArray 1 2 3 4 在 C99 中您可以使
设置外部应用程序焦点

在 VB NET 中您可以使用以下命令将焦点设置到外部应用程序 AppActivate Windows Name or AppActivate processID As Integer 现在如果您这样做则效果很好 Dim intNot
为什么Boost在“程序选项”中使用全局函数覆盖来实现自定义验证器

这个例子 http www boost org doc libs 1 55 0 doc html program options howto html idp163429032显示一个名为validate在全局范围内定义重载函数boost
编译器在函数名称前添加下划线前缀的原因是什么？

当我看到 C 应用程序的汇编代码时如下所示 emacs hello c clang S O hello c o hello s cat hello s 函数名称以下划线作为前缀例如callq printf 为什么这样做以及它有什么优点
如何忽略搜索条件中的空属性

我有一个不好的要求要做无论如何我必须在我的应用程序中实现它我有一个Track class public class Track public string Name get set public string City get set
C语言：如何获取使用strtok()一次后剩余的字符串

我的字符串是 A B C D E 分隔符是如何获取执行 strtok 一次后剩余的字符串即 B C D E char a A B C D E char separator char b strtok a separator printf
C++ std:.auto_ptr 或 std::unique_ptr （支持多个编译器，甚至是旧的 C++03 编译器）？

我正在尝试更新一些 C 代码我想转向更现代的代码 c 11 但我仍然需要使用一些较旧的编译器兼容 c 03 来编译代码因为支持的平台限制我知道在 C 11 编译器中 std auto ptr 已被弃用但由于较旧的编译器支持我不能
Global.asax 错误处理程序或自定义 IHttpModule 错误处理程序未捕获未处理的异常

我有一个类 DPCal EventMove 的一种方法我想限制使用角色的访问我有一个 Global asax cs 错误处理程序和一个自定义 IHttpModule 错误处理程序旨在捕获未处理的异常并将它们 Server Trans
如何最好地为 Visual Studio 2017 构建的 CMake C++ 项目设置输出目录？

我使用 Visual Studio 2017 使用 vcxproj 文件构建 C 桌面项目我喜欢默认行为其中输出目录是项目下面的子目录例如 myproj sln myproj vcxproj x64 myproj release my
派生类的聚合初始化

以下代码无法使用 Visual Studio2017 或在线 GDB 进行编译我期望它能够编译因为迭代器只是一个具有类型的类并且它是从公共继承的这是不允许的还是在 VS2017 中不起作用 template
C# 记录类型：记录子类之间的相等比较

给定父记录类型 public record Foo string Value 和两个记录子类Bar and Bee我想知道是否可以实施Equals在基类中因此 Foo Bar 或 Bee 的实例都被考虑equal基于Value 两者都与E
MonoGame 中的 ContentLoadException

我一直在尝试使用 Xamarin Studio 在 MonoGame 中加载纹理我的代码设置如下 region Using Statements using System using Microsoft Xna Framework usi
通过 OCI 调用 Oracle 存储过程并使用 C++ 中的 out ref 游标返回结果

我想使用 OCI 接口从 C 调用 Oracle 存储过程并使用 out SYS REF CURSOR 作为过程的参数来迭代结果我是 OCI 新手所以可能会遗漏一些简单的东西大部分代码取自这里我的存储过程是 CREATE OR R
字符串常量之前应有非限定 ID

我目前正在编写一个 C 应用程序它与 math h 结合实现了振荡器我拥有的代码应该可以很好地用于该应用程序尝试编译目标文件但是我遇到编译器错误很可能与语法等有关我认为这与命名空间有关错误终端输出 User Name Ma

随机推荐

获取隐藏列时的最后一个列号

我需要获取第二行的最后一个列号而引用的列是隐藏的如果隐藏最后一列下面的代码将输出错误的结果 Sub Last column number even is hidden Dim ws As Worksheet lastCol n As
从同一编译单元覆盖 C 中的函数调用

我在尝试着重写 C 中的函数调用 https stackoverflow com questions 617554 override a function call in c 但是当该函数在同一编译单元中使用时我遇到了问题在下面的代码中
MBProgressHUD 和 UITableView

我在填充 TableView 时显示 HUD 但它似乎显示在 TableView 后面表视图分隔符破坏了 Hud 这是 TableViewController 中的代码 void viewDidLoad super viewDidLoad
删除createMediaElementSource

我已经用谷歌搜索了这个问题但找不到任何东西我现在的情况需要删除source createMediaElementSource这样我就可以再次创建它我正在使用音频分析器每次使用 ajax 加载指定曲目时都必须加载该分析器一旦您转到另
如何定义一个返回其自身类型的 Rust 函数类型？

我正在学习 Rust 并且仍然非常努力地理解它考虑以下 Go 定义 type FnType func paramType FnType 它只是一个返回相同类型的函数的函数 Rust 中可以实现类似的功能吗而且理想情况下它可以通用地完
抽象类中内部抽象方法的目的是什么？

抽象类中内部抽象方法的目的是什么为什么要在抽象类中创建一个内部抽象方法如果我们想限制程序集外部的抽象类为什么我们不直接创建抽象内部类背后是否还有其他逻辑 Adding internal的成员public抽象类使得不可能继承它abst
是否可以使用 pyscript 在浏览器上运行 pygame 制作的游戏？

我使用 pygame 制作了一个小型太空入侵者游戏我想知道是否可以使用 pyscript 在浏览器上玩它这可能吗我必须重写所有内容吗不 PyScript 目前不支持 Pygame 我不确定找出哪些软件包的最佳方法是什么are支持但
无法授权 Azure LogAnalytics 工作区

I am trying to connect to my workspace in the Azure Portal I am getting the error as 操作返回无效状态代码未经授权 creds 对象已获取身份验证令牌并
隐藏用户输入

我正在尝试获取一个既可以在本机 Windows shell 中也可以在 cygwin shell 通过 ssh 中运行的脚本该脚本会提示并读取用户输入的密码到目前为止我已经尝试过以下方法 using Term ReadKey and
.wav 文件中的字节代表什么？

当我将 wav 文件中的数据存储到字节数组中时这些值意味着什么我读到它们采用两字节表示形式但是这些两字节值中到底包含什么您可能听说过音频信号是由某种波表示的如果您曾经见过带有上下直线的波形图这基本上就是这些文件中的内容看看这
Laravel/Heroku，会话没有这样的文件或目录

我正在尝试在 heroku 上运行我的应用程序但对于某些请求只有 POST GET 工作正常我的 Ajax POST 请求出现以下错误 Error Request failed with status code 419 当我检查 He
SignalR - 如何在集线器中执行异步任务？

我正在尝试使用 C 5 async await 功能创建 SignalR 应用程序但每当运行代码时它都会抛出 System InvalidOperationException 这是重现该问题的最简单的代码 public class Sa
Python ctypes 和可变性

我注意到将 Python 对象传递给本机代码ctypes可以打破可变性预期例如如果我有一个 C 函数如下所示 int print and mutate char str str 0 X return printf s n str 我这
AutoMapper - 使用相同的源和目标对象类型进行映射

我使用 Automapper 获取两个相同类型的对象并映射已更改的任何新值我尝试使用下面的代码但它不断抛出错误我什至不确定这是否可以通过 Automapper 来实现例如 Mapper CreateMap
Web 开发人员应该了解 IE7 和 IE8 之间的主要区别是什么？

我刚刚下载了 IE8 它取代了我的 IE7 但这没关系因为 IE8 有一个兼容性视图旨在呈现像 IE7 一样的页面不确定 JavaScript 我想知道互联网上是否列出了开发人员应该了解的版本之间的所有主要差异我在谷歌上搜索了一下
尝试安装 pg gem 时找不到 'libpq-fe.h 标头

我正在使用 Ruby on Rails 3 1 预版本我喜欢使用 PostgreSQL 但问题是安装pg宝石它给了我以下错误 gem install pg Building native extensions This could ta
Visual Studio 项目为空？

有没有办法在 Visual Studio 2008 或 2010 中拥有一个空项目我的意思不是空的解决方案而是解决方案中的空项目基本上我有一个包含多个项目的解决方案并且我想添加一个项目来跟踪一些静态文件这些静态文件是解决方案的一部
如何获取 Azure SendGrid api 密钥？

我已按照以下说明进行操作如何使用 SendGrid 和 Azure 发送电子邮件 https learn microsoft com en us azure app service web sendgrid dotnet how to se
CXF 2.2.12：如何关闭客户端的架构验证

我想关闭 JAXB 绑定消息的模式验证我正在处理客户端 CXF 代码 WSDL 第一代我尝试过使用
2018 年用 C++ 处理 Unicode 的正确方法是什么？

我尝试过搜索 stackoverflow 来找到这个问题的答案但我发现的问题和答案都在10岁由于变化和可能的进展我似乎无法就该主题达成共识我知道除了 stl 之外还有几个库应该处理 unicode http userguide icu

2018 年用 C++ 处理 Unicode 的正确方法是什么？

2018 年用 C++ 处理 Unicode 的正确方法是什么？ 的相关文章

随机推荐

热门标签

2018 年用 C++ 处理 Unicode 的正确方法是什么？的相关文章