C++ 和 UTF8 - 为什么不直接替换 ASCII？

2024-01-12

在我的应用程序中，我必须不断地在之间转换字符串std::string and std::wstring由于不同的 API（boost、win32、ffmpeg 等）。特别是对于 ffmpeg，字符串以 utf8->utf16->utf8->utf16 结尾，只是为了打开文件。

由于 UTF8 向后兼容 ASCII，我认为我始终以 UTF-8 存储所有字符串std::string并且只转换为std::wstring当我必须调用某些不寻常的函数时。

这工作得很好，我实现了 utf8 的 to_lower、to_upper、iequals。然而后来我遇到了几个死胡同 std::regex 和常规字符串比较。为了使其可用，我需要实现一个自定义ustring基于 std::string 的类，重新实现所有相应的算法（包括正则表达式）。

基本上我的结论是 utf8 不太适合一般用途。而目前的std::string/std::wstring很混乱。

但是，我的问题是为什么默认std::string and ""不是直接改成使用UTF8吗？特别是 UTF8 向后兼容？是否有一些编译器标志可以做到这一点？当然，stl 实现需要自动调整。

我看过 ICU，但它与假设 basic_string 的 api 不太兼容，例如没有开始/结束/c_str 等...

主要问题是内存中表示和编码的合并。

没有一种 Unicode 编码真正适合文本处理。用户通常会关心字素（屏幕上的内容），而编码是根据代码点定义的......并且某些字素由多个代码点组成。

因此，当有人问：第 5 个字符是什么时"Hélène"（法国名字）这个问题很令人困惑：

从字素的角度来说，答案是n.
就代码点而言...这取决于é and è（它们可以表示为单个代码点，也可以使用变音符号表示为一对......）

根据问题的来源（屏幕前的最终用户或编码例程），响应是完全不同的。

因此，我认为真正的问题是为什么我们在这里讨论编码？

今天它已经没有意义了，我们需要两个“视图”：字素和代码点。

不幸的是std::string and std::wstring接口是从人们认为 ASCII 就足够的时代继承下来的，所取得的进展并没有真正解决问题。

我什至不明白为什么应该指定内存中表示，它是一个实现细节。用户需要的只是：

能够以 UTF-* 和 ASCII 读/写
能够处理字素
能够编辑字素（管理变音符号）

...谁关心它是如何表示的？我以为好的软件都是建立在封装之上的？

好吧，C 很关心，我们想要互操作性……所以我想当 C 关心的时候它就会被修复。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C++ 和 UTF8 - 为什么不直接替换 ASCII？的相关文章

未解决的包含：“cocos2d.h” - Cocos2dx

当我在 Eclipse 中导入 cocos2dx android 项目时我的头文件上收到此警告 Unresolved inclusion cocos2d h 为什么是这样它实际上困扰着我该项目可以正确编译并运行但我希望这种情况消失
使闭包捕获的变量变得易失性

闭包捕获的变量如何与不同线程交互在下面的示例代码中我想将totalEvents 声明为易失性的但C 不允许这样做是的我知道这是错误的代码这只是一个例子 private void WaitFor10Events volatile
实时服务器上的 woff 字体 MIME 类型错误

我有一个 asp net MVC 4 网站我在其中使用 woff 字体在 VS IIS 上运行时一切正常然而当我将 pate 上传到 1and1 托管实时服务器时我得到以下信息网络错误 404 未找到 http www co
如何将图像和 POST 数据上传到 Azure 移动服务 ApiController 终结点？

我正在尝试上传图片and POST表单数据尽管理想情况下我希望它是json 到我的端点Azure 移动服务应用我有ApiController method HttpPost Route api upload databaseId sea
C#：如何防止主窗体过早显示

在我的 main 方法中我像往常一样启动主窗体 Application EnableVisualStyles Application SetCompatibleTextRenderingDefault false Application
如果使用 SingleOrDefault() 并在数字列表中搜索不在列表中的数字，如何返回 null？

使用查询正数列表时SingleOrDefault 当在列表中找不到数字时如何返回 null 或像 1 这样的自定义值而不是类型的默认值在本例中为 0 你可以使用 var first theIntegers Cast
Qt moc 在头文件中实现？

是否可以告诉 Qt MOC 我想声明该类并在单个文件中实现它而不是将它们拆分为 h 和 cpp 文件如果要在 cpp 文件中声明并实现 QObject 子类则必须手动包含 moc 文件例如文件main cpp struct Sub
Web API - 访问 DbContext 类中的 HttpContext

在我的 C Web API 应用程序中我添加了CreatedDate and CreatedBy所有表中的列现在每当在任何表中添加新记录时我想填充这些列为此目的我已经覆盖SaveChanges and SaveChangesAsy
指针减法混乱

当我们从另一个指针中减去一个指针时差值不等于它们相距多少字节而是等于它们相距多少个整数如果指向整数为什么这样这个想法是你指向内存块 06 07 08 09 10 11 mem 18 24 17 53 7 14 data 如果你有i
使用 System.Text.Json 即时格式化 JSON 流

我有一个未缩进的 Json 字符串例如 hash 123 id 456 我想缩进字符串并将其序列化为 JSON 文件天真地我可以使用缩进字符串Newtonsoft如下 using Newtonsoft Json Linq JToken
在数据库中搜索时忽略空文本框

此代码能够搜索数据并将其加载到DataGridView基于搜索表单文本框中提供的值如果我将任何文本框留空则不会有搜索结果因为 SQL 查询是用 AND 组合的如何在搜索从 SQL 查询或 C 代码时忽略空文本框 private
将自定义元数据添加到 jpeg 文件

我正在开发一个图像处理项目 C 我需要在处理完成后将自定义元数据写入 jpeg 文件我怎样才能做到这一点有没有可用的图书馆可以做到这一点如果您正在谈论 EXIF 元数据您可能需要查看exiv2 http www exiv2 org
clang 实例化后静态成员初始化

这样的代码可以用 GCC 编译但 clang 3 5 失败 include
从库中捕获主线程 SynchronizationContext 或 Dispatcher

我有一个 C 库希望能够将工作发送发布到主 ui 线程如果存在该库可供以下人员使用一个winforms应用程序本机应用程序带 UI 控制台应用程序没有 UI 在库中我想在初始化期间捕获一些东西 Synchronizati
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
当操作繁忙时，表单不执行任何操作（冻结）

我有一个使用 C 的 WinForms 应用程序我尝试从文件中读取一些数据并将其插入数据表中当此操作很忙时我的表单冻结并且无法移动它有谁知道我该如何解决这个问题这可能是因为您在 UI 线程上执行了操作将文件和数据库操作移至另一个
WCF：将随机数添加到 UsernameToken

我正在尝试连接到用 Java 编写的 Web 服务但有些东西我无法弄清楚使用 WCF 和 customBinding 几乎一切似乎都很好除了 SOAP 消息的一部分因为它缺少 Nonce 和 Created 部分节点显然我错过了一
Validation.ErrorTemplate 的 Wpf 动态资源查找

在我的 App xaml 中我定义了一个资源Validation ErrorTemplate 这取决于动态BorderBrush资源我打算定义独特的BorderBrush在我拥有的每个窗口以及窗口内的不同块内
使用 libcurl 检查 SFTP 站点上是否存在文件

我使用 C 和 libcurl 进行 SFTP FTPS 传输在上传文件之前我需要检查文件是否存在而不实际下载它如果该文件不存在我会遇到以下问题 set up curlhandle for the public private ke
恢复上传文件控制

我确实阅读了以下帖子 C 暂停恢复上传 https stackoverflow com questions 1048330 pause resume upload in c 使用 HTTP 恢复上传 https stackoverflow

随机推荐

div 内的点击位置

我试图获取 div 内单击的位置以便当我在鼠标拖动移动窗口时定位窗口时鼠标光标将恰好位于初始单击发生的位置相对于移动窗口这是窗口 div class Popup div img class xOut src images xOut
叮叮当当“你好，世界！” Windows 中的链接错误

我刚刚下载了 CLang 源代码使用 CMake 创建了 Visual C 10 IDE 工作区并从 Visual C 10 0 express 构建了所有内容现在我在 hello world 上收到一堆链接器错误 d dev tes
如何在golang中编写bson形式的mongo查询？

我可以使用命令行查询查询我的 mongodb 集合以根据 nfType 和最小距离获取 ipv4Addresses db nfinstancesdb aggregate match nfType AMF unwind ipv4Addres
如何解密MySQL密码

创建我公司使用的平台的开发人员不再为我们工作我不知道如何从自定义 PHP 应用程序检索密码当我查看 PHPmyAdmin 时密码已加密例如 2470C0C06DEE42FD1618BB99005ADCA2EC9D1E19 我如何更改
如何禁用布局中的所有按钮？

应用程序的工作方式如下应用程序向用户提示 30 个按钮用户可以通过点击猜出正确的按钮当用户点击某个按钮时所有按钮例如包含这些按钮的视图都应该被锁定同时播放相应的正确或错误的猜测动画点击的按钮本身应该被禁用直到下一轮动
停止 Chrome 标签页睡眠/休眠

如何阻止 Chrome 的选项卡睡眠休眠我正在运行左轮手枪扩展我希望在循环之前重新加载选项卡但是 chrome 的选项卡似乎处于休眠状态因此在选项卡处于活动状态之前不会重新加载并且显示有解决方法吗来自 wOxxOm
ember-data DS.RESTAdapter 导致 TypeError

我正在尝试使用 Ember js 和 ember data 并且定义了以下应用程序 window App Ember Application create App store DS Store create revision 4 adapt
Django - {% csrf_token %} 在模板中使用，但上下文未提供值

我是 Django 的新手我仍在尝试掌握它的功能我创建了非常简单的项目姜戈 1 4 2它有简单形式的索引页面您可以在其中输入内容还有结果页面您的输入在提交后显示代码如下提交后我收到错误 403 和以下消息模板中使用了 cs
shell: /bin/bash -e {0} 在 github Action Worker 的 bash shell 输出中意味着什么？

因为当没有要提交的更改时 git 会使用非零代码提交退出这会导致 github 操作失败为了克服这个问题我尝试在提交之前检查是否有任何更改如下所示 if git diff index quiet HEAD then echo cha
C++读取wav文件，subchunk1size = 18

通常 wav 文件的 subchunk1size 是 16 但是我有一些 subchunk1size 18 的 wav 文件我有 C 代码来读取 subchunk1size 16 的 wav 文件现在我想读取 subchunk1siz
iOS 6 旋转问题 - 呈现的模态视图控制器没有旋转

我有一个 MainViewController 它有一个按钮可以通过水平翻转推送新视图 InfoViewController 像这样 controller modalTransitionStyle UIModalTransitionSty
构建动态 where 子句，Linq To Sql

我使用的是 EF Code First 4 2 当需要动态构建 where 子句时您提出什么样的解决方案然而非常需要包含功能 var results db Set
使用 rsync 仅同步修改过的文件

我正在尝试同步两个文件夹 developer and shared 在Ubuntu中当我修改文件时 shared 我希望能够将文件复制到 developer folder I tried rsync r shared developer
在Android中使用BI LSTM CTC Tensorflow模型

TL DR 我想知道如何在 Android 应用程序中使用 bi lstm ctc 张量流模型我已经成功训练了我的 bi lstm ctc 张量流模型现在我想将它用于我的手写识别 Android 应用程序这是定义我使用的图表的代码部分
“JSON.stringify”中的“符号键控”是什么意思

有一个Node js生成的Object 当我使用时它看起来像这样console log dataValues a 1 b 2 fn1 function fn2 function 当我使用JSON stringify 它返回这个字符串 a 1
用小数字代替零？

我一直在制作一个矩阵类作为学习练习并且在测试我的反函数时遇到并发出问题我输入一个任意矩阵 2 1 1 1 2 1 1 1 2 并让它计算逆我得到了正确的结果 0 75 0 25 0 25 0 25 0 75 0 25 0 25 0
将 HTML 转换为 PDF - 任何 ASP.net 库 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
SerialPort.Open() 抛出 IOException - 系统资源不足，无法完成请求的服务

我编写了一个 NET 4 Windows 服务该服务定期通常每天一次通过串行端口与外部设备进行通信总而言之服务效果很好但对于一位客户来说时不时地打电话给SerialPort Open 抛出以下异常 System IO IOEx
iPhone 分布：当前没有匹配的配置文件

我即将将应用程序上传到 iTunes Connect 我不是团队代理团队代理似乎也不能让我成为团队代理于是他登录会员中心并下载了分发证书该证书与 WWDR 证书一起位于我的钥匙串中捆绑包标识符设置为 se companyname a
C++ 和 UTF8 - 为什么不直接替换 ASCII？

在我的应用程序中我必须不断地在之间转换字符串std string and std wstring由于不同的 API boost win32 ffmpeg 等特别是对于 ffmpeg 字符串以 utf8 gt utf16 gt utf8

C++ 和 UTF8 - 为什么不直接替换 ASCII？

C++ 和 UTF8 - 为什么不直接替换 ASCII？ 的相关文章

随机推荐

热门标签

C++ 和 UTF8 - 为什么不直接替换 ASCII？的相关文章