从 std::string 中提取（第一个）UTF-8 字符

2024-04-16

我需要使用一个PHP mb_strtoupper 函数的 C++ 实现 http://www.zedwood.com/article/cpp-utf8-mb_strtoupper-function模仿维基百科的行为。

我的问题是，我只想喂一个single函数的 UTF-8 字符，即 std::string 的第一个字符。

std::string s("äbcdefg");
mb_strtoupper(s[0]); // this obviously can't work with multi-byte characters
mb_strtoupper('ä'); // works

有没有一种有效的方法来检测/返回字符串的第一个 UTF-8 字符？

在 UTF-8 中，第一个字节的高位告诉您有多少后续字节是同一字节的一部分代码点.

0b0xxxxxxx: this byte is the entire code point
0b10xxxxxx: this byte is a continuation byte - this shouldn't occur at the start of a string
0b110xxxxx: this byte plus the next (which must be a continuation byte) form the code point
0b1110xxxx: this byte plus the next two form the code point
0b11110xxx: this byte plus the next three form the code point

可以假设该模式继续存在，但我认为有效的 UTF-8 不会使用超过四个字节来表示单个代码点。

如果您编写一个函数来计算设置为 1 的前导位的数量，那么您可以使用它来确定在何处分割字节序列，以便隔离第一个逻辑代码点（假设输入是有效的 UTF-8）。如果您想针对无效的 UTF-8 进行强化，则必须编写更多代码。

另一种方法是利用连续字节始终与模式匹配的事实0b10xxxxxx，因此您获取第一个字节，然后只要下一个字节与该模式匹配就继续获取字节。

std::size_t GetFirst(const std::string &text) {
  if (text.empty()) return 0;
  std::size_t length = 1;
  while ((text[length] & 0b11000000) == 0b10000000) {
    ++length;
  }
  return length;
}

对于许多语言，单个代码点通常映射到单个字符。但人们所认为的单个字符可能更接近 Unicode 所说的字素簇，它是一个或多个代码点组合起来产生一个字形。

在你的例子中，ä可以用不同的方式表示：它可以是单个代码点U+00E4 LATIN SMALL LETTER A WITH DIAERESIS or它可能是以下的组合U+0061 LATIN SMALL LETTER A and U+0308 COMBINING DIAERESIS。幸运的是，只需选择第一个代码点就可以实现将第一个字母大写的目标。

如果你确实需要第一个字素簇，您必须超越第一个代码点来查看下一个代码点是否与其结合。对于许多语言来说，知道哪些代码点是“非空格”或“组合”或变体选择器就足够了。对于一些复杂的脚本（例如韩文？），您可能需要转向此Unicode 联盟技术报告 http://unicode.org/reports/tr29/#Grapheme_Cluster_Boundaries.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 std::string 中提取（第一个）UTF-8 字符的相关文章

WebClient.DownloadDataAsync 冻结了我的 UI

我在 Form 构造函数中的 InitializeComponent 之后有以下代码 using WebClient client new WebClient client DownloadDataCompleted new Downloa
无法将 std::min 传递给函数，std::min 的副本有效

Passing std min函数无法编译我复制了 libcpp 声明std min进入我的源文件并且它可以工作 std 版本有什么问题 clang 和 gcc 也会发生同样的情况在 Godbolt 上测试 https godbolt
c# 从另一个类中的另一个静态事件引发事件

需要帮助从另一个班级调用事件我有已声明事件的课程 public class MxPBaseGridView GridView public event AddNewItemsToPopUpMenuEventHandler AddNewIt
锁定 ASP.NET 应用程序变量

我在 ASP NET 应用程序中使用第三方 Web 服务对第 3 方 Web 服务的调用必须同步但 ASP NET 显然是多线程的并且可能会发出多个页面请求从而导致对第 3 方 Web 服务的同时调用对 Web 服务的调用封装在自
异常堆栈跟踪不显示抛出异常的位置

通常当我抛出异常捕获它并打印出堆栈跟踪时我会看到抛出异常的调用导致该异常的调用导致该异常的调用that 依此类推回到整个程序的根现在它只向我显示异常所在的调用caught 而不是它所在的地方thrown 我不明白是什么改变导致了
将下拉列表与字典绑定

我将字典绑定到下拉列表举例来说我的字典中有以下项目 Test1 123 Test2 321 我希望下拉文本采用以下格式 Test1 Count 123 Test2 Count 321 我沿着以下路径走但没有运气 MyDropDown
将日期时间转换为指定格式

我有这个日期格式yy MM dd HH mm ss ex 12 02 21 10 56 09 问题是当我尝试使用以下代码将其转换为不同格式时 CDate 12 02 21 10 56 09 ToString MMM dd yyyy HH
如何在win32中使用GetSaveFileName保存文件？

我编写此代码是为了获取 fileName 来保存我的文件 include stdafx h include
如何使用递归查找数字中的最小元素 [C]

好的所以我正在准备我的 C 考试当谈到递归时我有点卡住了我是大学一年级的学生这对我来说似乎有点困难练习要求在给定的数字中使用递归函数我需要找到最小的元素例如 52873 是 2 程序需要打印 2 include
为什么不能调用带有 auto& 参数的 const mutable lambda？

include
如何在 C# 中获取 Json 数组？

我有一个像这样的 Json 字符串我想将它加载到 C 数组中当我尝试这样做时我收到异常我的字符串 customerInformation customerId 123 CustomerName Age 39 Gender Male
如何使用 CSI.exe 脚本参数

当你运行csi exe 安装了 Visual Studio 2015 update 2 您将得到以下语法 Microsoft R Visual C Interactive Compiler version 1 2 0 51106 Copyr
无法在 C# 中为 EventArgs 分配使用派生类型的事件处理程序

所以我有一个事件声明如下 public event EventHandler OnChangeDetected 然后我有以下处理程序被分配给该事件 myObject OnChangeDetected OnTableChanged 我的理解是
如何在dll级别读取app.config？ [复制]

这个问题在这里已经有答案了我在一个解决方案中有一个控制台应用程序项目和库项目 dll The 图书馆项目有 app config 文件我在其中存储我在库中使用的一些键值对控制台应用程序引用此 dll 我有另一个 app config
在哪里可以下载没有 Visual Studio 2010 的 C# 4.0 编译器？

我知道 CTP VS 2010 映像但我可以只下载 NET Framework 4 0 和 C 编译器吗 AFAIK VS 2010 CTP 仅作为 VM 映像提供我不相信 Microsoft 发布了 VS 的安装程序其中一个绝对不适
C 语言中的 Alpha 混合 2 RGBA 颜色[重复]

这个问题在这里已经有答案了可能的重复如何快速进行阿尔法混合 https stackoverflow com questions 1102692 how to do alpha blend fast 对 2 个 RGBA 整数颜色进行
Linq.Select() 中的嵌套表达式方法调用

I use Select i gt new T 每次手动点击数据库后将我的实体对象转换为 DTO 对象以下是一些示例实体和 DTOS 用户实体 public partial class User public int Id get set
如何提高环复杂度？

对于具有大量决策语句包括 if while for 语句的方法循环复杂度会很高那么我们该如何改进呢我正在处理一个大项目我应该减少 CC gt 10 的方法的 CC 并且有很多方法都存在这个问题下面我将列出一些例如我遇到的问题的
SQL Server“未找到网络路径”在不同环境中随机且不频繁地发生

类似如果不是同一个问题随机遇到网络路径未找到异常 https stackoverflow com questions 38696448 network path not found exception encountered rando
为什么表达式 a = a + b - ( b = a ) 在 C++ 中给出序列点警告？

以下是测试代码 int main int a 3 int b 4 a a b b a cout lt lt a lt lt a lt lt lt lt b lt lt b lt lt n return 0 编译此命令会出现以下警告 gt g

随机推荐

使用连续内存并具有保留功能的映射和集合

我使用了几张地图和套件缺乏连续内存以及大量的分配解除是性能瓶颈我需要一个主要与 STL 兼容的映射和集合类它可以将连续的内存块用于内部对象或多个块它还需要有一个reserve函数以便我可以预先分配预期的大小在我自己编写之前
如何在循环期间的任意时刻检查按键按下情况？

我正在尝试制作一个倒数到 0 然后开始向上计数的计时器我正在使用时间和键盘模块这keyboard https pypi org project keyboard来自 PyPi 的模块一切都按预期进行我可以按一个按钮关闭程序但它只在
C# Linq where 子句作为变量

我正在尝试创建一个 LINQ 语句其中 where 子句来自变量例如 string whereClause address zip 23456 var x from something in someList where whereCl
如何使可变参数模板类方法将函数指针作为参数，并使用从函数模板派生的类型？

抱歉标题很拗口我正在研究一个类似于所讨论的数组类here https stackoverflow com questions 26766617 我想定义一个映射函数它接受用户定义的函数并将其应用于数组的每个元素出于类型检查的目的
表单标签的 CSS 样式

据我所知一个
Java、HashMap 和使用字符串作为键 - 字符串值是否会存储两次？

如果我有一个如下所示的 HashMap HashMap
Viewpager 延迟加载数据

ViewPager有一个公共函数setOffscreenPageLimit http developer android com reference android support v4 view ViewPager html setOff
MVC 3 列表的不引人注目的验证

Question 我创建了一个服务器端属性级别验证属性但我没有将其应用于单个字段而是将其应用于列表这使我能够从整体上验证模型我现在需要知道如何使用 MVC 3 中内置的不显眼的客户端验证将其转换为工作我当前的代码如下来说明我的问题
div背景图片+jquery的幻灯片

我在标题处有一个大的 div 元素 div 中有很多文本内容和一些框我有一个大的 img 作为这个 div 的背景现在我需要为这个 div 的背景制作一个幻灯片如何为 div 的背景图像制作幻灯片我研究了很多但找不到任何东西多谢
Bash if 语句中何时需要方括号？

通常我在 if 语句中使用方括号 if name Bob then 但是当我检查是否grep成功了我不使用方括号 if grep q text file then 什么时候需要方括号if陈述方括号是同义词test命令一个if语句检查
分层代码优先 EF 绑定到 WPF Treeview...不可能

在过去我不得不求助于使用数据集和数据表因为使用绑定来做到这一点仍然让我困惑顶层我在 VB 2012 中创建了一系列类对它们进行了注释并使用 Code First 在 EF6 中创建了 EF 模型这个想法是表示路由器配置配置的
随机值生成 JavaScript

我有一些代码用于将数组中的随机值存储到变量中如下所示 Quest value1 value2 value3 value4 var random Math floor Math random Quest length var questio
将控制台窗口添加到 ASP.NET Core 应用程序

我有一个 ASP NET Core 2 0 应用程序在 NET Core 2 0 中的 Windows 上运行命令行 C Program Files dotnet dotnet exe 执行 C Users zippy documents
如何在 mysql 查询中将行放在顶部。

您好我的 SQL 表中有 100 条记录我想按名称对它们进行 ASC 排序但我需要在所有记录 nr 43 之上添加一条记录有没有办法我可以先拉出这个记录 43 然后再按名称按 ASC 顺序排列其他所有内容技巧是在一个查询中完成它
SSL 会话票证与会话 ID

为了提高不保留短连接的 SSL 握手性能有两个广为人知的独立功能 TLS 会话 ID TLS 会话票证如果有很多短连接会话就性能开销而言哪种机制更可取并且应该使用我知道服务器需要缓存会话 ID 并且在负载平衡的情况下会话票证也
不在 In SQL 语句中？

我在Excel中有一组大约5000个ID 在表中我有大约30000个ID 如果我在SQL语句中使用 In 条件我将从Excel中拥有的ID中获得大约4300个ID 但是如果我将 Not In 与 Excel id 一起使用我已经获得了大
node.js axios 下载文件流和 writeFile

我想下载一个 pdf 文件axios并保存在磁盘服务器端上fs writeFile 我努力了 axios get https xxx my pdf responseType blob then response gt fs writeF
四元数到欧拉角算法 - 如何转换为“Y = Up”和旋手性之间的转换？

我有一个在四元数和欧拉角之间转换的算法 public static Vector3 ToEulerAngles this Quaternion q Store the Euler angles in radians Vector3 pitc
在不同的数据集上运行经过训练的机器学习模型

我是机器学习的新手正在尝试在另一个相同格式的数据集上运行一个简单的分类模型该模型是我使用 pickle 训练和保存的我有以下 python 代码 Code Training set features pd read csv Data
从 std::string 中提取（第一个）UTF-8 字符

我需要使用一个PHP mb strtoupper 函数的 C 实现 http www zedwood com article cpp utf8 mb strtoupper function模仿维基百科的行为我的问题是我只想喂一个sing

从 std::string 中提取（第一个）UTF-8 字符

从 std::string 中提取（第一个）UTF-8 字符 的相关文章

随机推荐

热门标签

从 std::string 中提取（第一个）UTF-8 字符的相关文章