处理 UTF-8 字符串

2023-11-27

据我所知linux使用UTF-8编码。这意味着我可以使用std::string用于处理字符串吗？只是编码是 UTF-8。

现在在 UTF-8 上我们知道有些字符是 1 个字节，有些是 2,3.. 字节。我的问题是：如何使用 C++ 在 Linux 上处理 UTF-8 编码的字符串？

特别是：如何获得字符串的长度（以字节为单位（或字符数））？你将如何遍历字符串？ ETC。

我问的原因是，正如我所说，UTF-8 字符可能不止一个字节，对吗？很明显myString[7] and myString[8]- 可能不指两个不同的字符。另外，UTF-8 字符串有 10 个字节，这并没有说明它的字符数，对吗？

您无法处理 UTF-8std::string. string尽管它的名字如此，它只是一个（多）字节的容器。这是not用于文本存储的类型（字节缓冲区显然可以存储任何对象，包括文本）。它甚至不存储字符（char是一个字节，而不是一个字符）。

如果你想真正做到这一点，你需要在标准库之外冒险handle（而不仅仅是存储）Unicode 字符。传统上，这是由诸如ICU.

然而，虽然这是一个成熟的库，但它的 C++ 接口很糟糕。采用现代方法Ogonek。它尚未完善并且仍在进行中，但提供了much更好的界面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Linux

处理 UTF-8 字符串的相关文章

使用 CMake 时如何导出 Emscripten 中的 C 函数

In 本教程 https emscripten org docs porting connecting cpp and javascript Interacting with code html interacting with code
如何在类文件中使用 Url.Action() ？

如何在 MVC 项目的类文件中使用 Url Action Like namespace 3harf public class myFunction public static void CheckUserAdminPanelPermissi
前向声明类型和“已声明为类类型的非类类型”

我对以下代码有问题 template
未找到 Boost 库，但编译正常

我正在尝试在 C 中使用 boost 的文件系统使用时看起来编译没问题 c c Analyse c o Analyse o g W Wall L usr local lib lboost filesystem lboost system
循环遍历 C 结构中的元素以提取单个元素的值和数据类型

我有一个要求我有一个 C 语言的大结构由大约 30 多个不同数据类型的不同元素组成 typedef struct type1 element1 type2 element2 type3 element3 type2 element4 1
无法注册时间触发的后台任务

对于 Windows 8 应用程序在 C Xaml 中我尝试注册后台任务很难说但我想我的后台任务已正确注册但是当我单击调试位置工具栏上的后台任务名称时我的应用程序停止工作没有任何消息我查看了事件查看器上的日志得到具有入口
处理右值时的 insert 与 emplace

std string myString std unordered set
Eigen 和 OpenMP：由于错误共享和线程开销而没有并行化

系统规格 Intel Xeon E7 v3 处理器 4 插槽 16 核插槽 2 线程核心 Eigen 系列和 C 的使用以下是代码片段的串行实现 Eigen VectorXd get Row const int j const int
什么是空终止字符串？

它与什么不同标准字符串 http www cplusplus com reference string string 字符串实际上只是一个数组chars 空终止字符串是指其中包含空字符的字符串 0 标记字符串的结尾不一定是数组的结尾
如何递归取消引用指针（C++03）？

我正在尝试在 C 中递归地取消引用指针如果传递一个对象那就是not一个指针这包括智能指针我只想返回对象本身如果可能的话通过引用返回我有这个代码 template
从 C# 使用 Odbc 调用 Oracle 包函数

我在 Oracle 包中定义了一个函数 CREATE OR REPLACE PACKAGE BODY TESTUSER TESTPKG as FUNCTION testfunc n IN NUMBER RETURN NUMBER as be
在 C# 中为父窗体中的子窗体控件添加事件处理程序

我有两种形式一种是带有按钮和文本框的父表单单击该按钮时将打开一个对话框该子窗体又包含一个文本框和一个按钮现在我想要的是每当子表单文本框中的文本更改时父表单文本框中的文本会自动更改为了获得这个我所做的是 Form3 f3 n
如何最好地以编程方式将 `__attribute__ ((unused))` 应用于这些自动生成的对象？

In my makefile我有以下目标它将文本 HTML 资源编译为unsigned char数组使用xxd i http linuxcommand org man pages xxd1 html 我将结果包装在匿名命名空间和标头保
如何在 C# 中创建异步方法？

我读过的每一篇博客文章都会告诉您如何在 C 中使用异步方法但由于某些奇怪的原因从未解释如何构建您自己的异步方法来使用所以我现在有这段代码使用我的方法 private async void button1 Click object se
Visual Studio 2015：v120 与 v140？

仅供参考 Win10 x64 我今天开始尝试 Visual Studio 2015 在弄清楚如何运行 C C 部分后我尝试加载一个大型个人项目该项目使用非官方的glsdk http glsdk sourceforge net docs
如何解压 msgpack 文件？

我正在将 msgpack 编码的数据写入文件在编写时我只是使用 C API 的 fbuffer 如我为示例删除了所有错误处理 FILE fp fopen filename ab msgpack packer pk msgpack pa
WPF DataGrid / ListView 绑定到数组 mvvm

我们假设你有 N 个整数的数组表示行数的整数值在模型中该整数绑定到视图中的 ComboBox Q1 如何将数组或数组的各个项目绑定到 DataGrid 或 ListView 控件以便当您更改 ComboBox 值时只有那么多
Visual Studio 2015 - Web 项目上缺少共享项目参考选项卡

我从 MSDN 订阅升级到 Visual Studio 2015 因为我非常兴奋地阅读有关共享项目的信息当我们想要做的只是重用代码时不再需要在依赖项中管理 21382 个 nuget 包所以我构建了一个测试共享项目其中包含一些代码
Java时区混乱

我正在运行 Tomcat 应用程序并且需要显示一些时间值不幸的是时间快到了还有一个小时的休息时间我调查了一下发现我的默认时区被设置为 sun util calendar ZoneInfo id GMT 08 00 offset
为什么空循环使用如此多的处理器时间？

如果我的代码中有一个空的 while 循环例如 while true 它将把处理器的使用率提高到大约 25 但是如果我执行以下操作 while true Sleep 1 它只会使用大约1 那么这是为什么呢更新感谢所有精彩的回复但我

随机推荐

如何为谷歌MapView制作具有视差滚动效果的自定义CoordinatorLayout.Behavior？

我尝试为谷歌制作视差滚动效果MapView and RecycleView using CoordinatorLayour 因此根据在网上找到的一些教程我编写了以下代码布局
如何在 github 主页中删除“您贡献的存储库”

我已向存储库提交了一个新问题之后我的 github 主页中始终会出现一个通知选项卡我只是不想删除这个烦人的存储库但我无法弄清楚你有没有尝试过https docs github com en github setting up an
如何猴子修补`__call__`方法？

我似乎无法猴子修补 call 类实例的方法是的我只想修补单个实例而不是全部以下代码 class A object def test self return TEST def call self return EXAMPLE a A
dataAdapter .Fill 和 .Update 的比较

我已经阅读了 MSDN 资源和几个论坛但仍然不明白这两者之间有什么区别dataAdapter Fill and dataAdapter Update 我尝试使用它们从我的程序中更新数据库并且它有效但是当我尝试删除update 功能它仍
Zend 和 .htaccess

我的默认 zend 应用程序具有此默认结构 zend webroot application config library public htaccess index php 默认 htaccess 通过 public index php
Android上不确定水平进度条的样式

确定进度条的样式很容易有很多教程可以实现这一点这是我正在使用的
通过 Google App Engine 的 Google Drive API

我正在尝试通过以下方式使用 Google Drive API应用程序身份Google App Engine 提供的界面这基本上允许我的网络应用程序与 Google 的 API 进行通信从服务器到服务器我不需要我的用户登录我只需要显示我
MapReduce 的随机播放和排序

我通读了权威指南和网络上的其他一些链接包括here 我的问题是洗牌和排序到底发生在哪里根据我的理解它们发生在映射器和减速器上但一些链接提到改组发生在映射器上排序发生在减速器上有人可以确认我的理解是否正确吗如果没有他们可以提
Android 应用程序中的 ExceptionInInitializerError？

在我的 Android 应用程序中 WebView 活动类具有以下行 webView addJavascriptInterface new JSInterface this Android 在 JSInterface 类中我正在初始化 G
视图以模态视图动画显示，而不是显示（推送）动画

我最近将我的应用程序从 iOS 8 3 更新到了 iOS 9 在修复了代码的各种错误后当我注意到以下问题时我设法编译应用程序并运行它当我执行segue单击时例如 UIButton 加载了segue的视图会出现模态视图的动画从底部滑
C 语言中的 deflate 和 inflate (zlib.h)

我正在尝试实现 zlib h deflate 和 inflate 函数来压缩和解压缩 char 数组而不是文件我想知道以下语法是否正确我是否遗漏了某些内容或错误地定义了某些内容 char a 50 Hello World char b
NPM版本中如何表示内部版本号？

我想在 package json 中将内部版本号附加到我的项目我正在寻找最好的方法来做到这一点我发现如果前面有 node semver 会将字符串识别为内部版本号例如这将是构建 123 1 0 0 123 但是 NPM 版本模块也接
通过属性值选择元素的 XPath

我有以下 XML
将 MuPDF 集成为库项目 (Android)

所以我基于pdf阅读器 MuPDF 构建了这个项目我为此使用了 ndk build 该项目的名称是 ChoosePDFActivity 我知道它已正确构建因为我可以在我的内部看到一个 so 文件libs armrabi v7a THIS
无需分片的高并发计数器

这个问题涉及计数器的两种实现它们旨在在不进行分片的情况下进行扩展在某些情况下它们可能会低估计数 http appengine cookbook appspot com recipe high concurrency counters w
更改ggplot2中geom_bar的图例键的形状

我正在尝试更改 geom bar 图中图例键的形状我在网上查看了多个答案但发现它们在这种情况下不起作用让我解释一下这个问题 df1 data frame person c person1 person2 person3 variabl
声明性表上的 SQLAlchemy 多对多关系

我以声明方式定义了下表非常简化的版本 class Profile Base tablename profile id Column Integer primary key True name Column String 65 nullab
Selenium WebDriver 获取边框颜色

大家好我正在尝试使用 getCssValue 方法获取 extjs 4 2 表单控件文本字段的边框颜色但我无法获取它它让我返回空白下面是我的代码片段你可以按原样尝试 import org openqa selenium By im
Git Diff 缩进/漂亮打印/美化 Diff 之前

有没有办法让Gitindent beautify pretty 在比较 C 源文件的两个版本之前打印它们我不希望 Git 向我展示在某人自动格式化代码后引入的无数更改用法示例我击中git difftool indent before
处理 UTF-8 字符串

据我所知linux使用UTF 8编码这意味着我可以使用std string用于处理字符串吗只是编码是 UTF 8 现在在 UTF 8 上我们知道有些字符是 1 个字节有些是 2 3 字节我的问题是如何使用 C 在 Linux 上处

处理 UTF-8 字符串

处理 UTF-8 字符串 的相关文章

随机推荐

热门标签

处理 UTF-8 字符串的相关文章