循环 UTF-8 字符串时，是什么决定了字符的位置？

2024-01-12

我正在阅读有关的部分for中的陈述有效的 Go 文档 https://golang.org/doc/effective_go.html并遇到了这个例子：

for pos, char := range "日本\x80語" {
    fmt.Printf("Character %#U, at position: %d\n", char, pos)
}

输出是：

Character U+65E5 '日', at position: 0
Character U+672C '本', at position: 3
Character U+FFFD '�', at position: 6
Character U+8A9E '語', at position: 7

我不明白的是为什么位置是 0、3、6 和 7。这告诉我第一个和第二个字符是 3 个字节长，“替换符文”(U+FFFD) 是 1 个字节长，我接受并理解。然而，我想rune was of int32类型，因此每个字节为 4 个字节，而不是 3 个字节。

为什么范围内的位置与每个值应消耗的内存总量不同？

stringGo 中的值存储为只读字节片（[]byte)，其中字节是 ( 的 UTF-8 编码字节rune的）string. UTF-8 https://en.wikipedia.org/wiki/UTF-8是一种可变长度编码，不同的 Unicode 代码点可以使用不同数量的字节进行编码。例如范围内的值0..127被编码为单个字节（其值是 unicode 代码点本身），但大于 127 的值使用超过 1 个字节。这unicode/utf8 https://golang.org/pkg/unicode/utf8/包中包含UTF-8相关的实用函数和常量，例如utf8.UTFMax报告有效 Unicode 代码点在 UTF-8 编码中可以“占用”的最大字节数（为 4）。

这里需要注意一件事：not所有可能的字节序列是validUTF-8 序列。 Astring may be any字节序列，甚至是无效的 UTF-8 序列。例如string value "\xff"表示无效的UTF-8字节序列，详情参见如何在 Go 中表示可选字符串？ https://stackoverflow.com/questions/30731687/how-do-i-represent-an-optional-string-in-go/30741287#30741287

The for range https://golang.org/ref/spec#For_statements构造——当应用于stringvalue——迭代的符文string:

对于字符串值，“range”子句从字节索引 0 开始迭代字符串中的 Unicode 代码点。在连续迭代中，索引值将是连续 UTF-8 编码代码点的第一个字节的索引字符串和类型的第二个值rune，将是相应代码点的值。如果迭代遇到无效的 UTF-8 序列，则第二个值将为0xFFFD，Unicode 替换字符，下一次迭代将在字符串中前进一个字节。

The for range构造可能会产生 1 或 2 个迭代值。当使用 2 时，如您的示例所示：

for pos, char := range "日本\x80語" {
    fmt.Printf("Character %#U, at position: %d\n", char, pos)
}

对于每次迭代，pos将是符文/字符的字节索引，并且char将是符文string。正如您在上面的引用中看到的，如果string是无效的UTF-8字节序列，当遇到无效的UTF-8序列时，char将0xFFFD（Unicode 替换字符），以及for range构造（迭代）将推进仅单字节.

把它们加起来：位置始终是字节索引rune当前迭代的（或更具体地说：UTF-8 编码序列的第一个字节的字节索引rune当前迭代的位置），但如果遇到无效的UTF-8序列，则在下一次迭代中位置（索引）只会增加1。

如果您想了解有关该主题的更多信息，必读博客文章：

Go 博客：Go 中的字符串、字节、符文和字符 https://blog.golang.org/strings

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

循环 UTF-8 字符串时，是什么决定了字符的位置？的相关文章

Go 编程 - 使用指针绕过访问权限

假设我的项目有以下层次结构 fragment fragment go main go 并且在fragment go我有以下代码只有一个 getter 没有 setter package fragment type Fragment str
查找前 N 个五边形数

我必须找到第一个N pentagonal numbers 1 从 1 100 并每行显示 10 个我必须使用getPentagonalNumber int n 方法也是如此显然这就是它存在的原因到目前为止这是我的代码 package
Nothing = String.Empty （为什么它们相等？）

为什么第一个 if 语句的计算结果为 true 我知道如果我使用 is 而不是那么它的计算结果不会为 true 如果我将 String Empty 替换为 Foo 它的计算结果不会为 true String Empty 和 Foo 都具有
使用 JavaScript 和 HTML 打印表情符号

为什么这有效 p x1f604 p 而这并没有 document getElementById emoji innerHTML String fromCharCode parseInt 1f604 16 JS 术语中的 char 实际上是一
Enthought - matplotlib（plot()函数的问题）

我正在尝试使用绘图库 http en wikipedia org wiki Matplotlib在冠层快车上即使简单的代码也无法运行注意系统无法识别plot x 功能好像有 ASCII X Unicode 的东西我的计算机使用 U
Groovy GDK 相当于 Apache Commons StringUtils.capitalize(str) 或 Perl 的 ucfirst(str)

是否问题是否有 Groovy GDK 函数可以将字符串的第一个字符大写我正在寻找 Perl 的 ucfirst 或 Apache Commons StringUtils capitalize str 的 Groovy 等效项后者将输
使用 for 循环创建链表

这是我的结构 struct ListItem int data struct ListItem next 假设链表的第一个节点的 data 0 我想编写一个 for 循环来创建大小为 5 的链表但我不知道如何工作我尝试了以下方法 int
jQuery：将 json 响应的编码设置为 utf8

我收到了 json 格式的 jQuery 响应逻辑工作正常但我无法让他正确编码数据如我搜索并发现this https stackoverflow com questions 26620 how to set encoding in
将以utf-8字符串为内容的unicode转换为str

我正在使用 pyquery 来解析页面 dom PyQuery http zh wikipedia org w index php title CSS printable yes variant zh cn content dom mw c
无法理解 5.6.1。注意事项：捕获迭代变量

我正在学习 Go 但无法理解 var rmdirs func for dir range tempDirs os MkdirAll dir 0755 rmdirs append rmdirs func os RemoveAll dir NO
Swift init(count:,repeatedValue:) 有效吗？

从参考文献中对此进行了测试 https developer apple com documentation swift https developer apple com documentation swift var string Str
在Java中从字符串中提取这个int的最佳方法是什么？

以下是我可能收到的一些输入的示例 1 4 34 2 99 20 etc 因此包括负值并且 1 2 3 等数字都是可能的逗号不是唯一的分隔符只是一个示例但非整数值是 parseInt 不起作用的原因我可以编写什么代码来解析上述 3
SQL Server 将 varbinary 转换为字符串

我想在 T SQL 中进行转换varbinary类型转字符串类型这是一个例子首先我得到了这个varbinary 0x21232F297A57A5A743894A0E4A801FC3 然后我想将其转换为 21232f297a57a5a74
仅保留字母字符

我应该在java中遵循什么方法来生成 WordWord from Word Word 1234 您可以使用String replaceAll regex replacement http docs oracle com javase 6 d
C - 将当前日期放入文件名中

我有4个价值观 A B C D 使用这些值进行一组计算后我希望我的代码将结果输出到以下形式的文件中ABCD MM DD YY txt 以跟踪完成时间我不太确定在 C 中执行此操作的最佳方法我有一个使用的工作版本itoa 这不是一个
当前从解码字符串中删除“surrogateescape”字符的习惯用法

阿明罗纳彻 http lucumr pocoo org 2013 7 2 the updated guide to unicode http lucumr pocoo org 2013 7 2 the updated guide to u
libc++ 中短字符串优化的机制是什么？

这个答案 https stackoverflow com a 10319672 1805388给出了短字符串优化 SSO 的高级概述但是我想更详细地了解它在实践中是如何工作的特别是在 libc 实现中字符串必须有多短才能符合 SSO
正则表达式匹配埃及象形文字[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想知道一个匹配埃及象形文字的正则表达式我完全一无所知需要你的帮助我无法发布这些字母因为堆栈溢出似乎无法识别它那么谁能告诉我这些
如何用utf8发送邮件

我想以 utf 8 编码发送此电子邮件的消息我能为此做什么 include functions php name stripslashes POST name email trim POST email subject stripslas
在 C# 中将字符串转换为等效的字节十六进制

我有一个传入的字符串68016101061B4A60193390662046804020422044204000420040402060226024676DB16我想转换成0x68 0x01 0x61 0x01 0x06 0x1B 0x4A

随机推荐

使用 Twilio，是否可以在电话会议期间接收用户输入？

The Twilio 文档 https www twilio com docs api twiml gather提到您可以在用户收听消息时收集用户键盘输入您可以在 Gather 中嵌套以下动词 Say Play Pause 但是您不能将
我应该在 Android AsyncTask 中调用 super.onPostExecute(result) 吗？

我想知道在Android AsyncTask中调用super onPostExecute result 或super onPreExecute有什么意义吗我一直在调用它们但即使在有关 AsyncTask 的 Android 文档中 An
计算半径为 R、尺寸为 D 的球体内的整数点

我正在尝试编写一种有效的算法来计算半径为 R 且维度为 D 的球体内的点数球体始终位于原点假设我们有一个尺寸为 2 的球体圆形半径为 5 我的策略是在第一象限内生成所有可能的点因此对于上面的示例我们知道 1 2 在圆中因此该点
在 recyclerView 中突出显示过滤后的文本

这是我的适配器类 public class adapter cgpa extends RecyclerView Adapter
点源文件中的 PowerShell 点源 - 导入类

我的项目结构如下 MyScript ps1 classes Car ps1 Tesla ps1 Car ps1 是 Tesla ps1 的基类我尝试在 Tesla ps1 中这样定义 Tesla PSScriptRoot Car ps1
为什么使用 Python 异步从文件读取和调用 API 比同步慢？

我有一个大文件每行都有一个 JSON 记录我正在编写一个脚本通过 API 将这些记录的子集上传到 CouchDB 并尝试不同的方法看看哪种方法效果最快以下是我发现工作最快到最慢的方法在我的本地主机上的 CouchDB 实例上将
为什么 ITelephony.aidl 有效？

我看到一些 SO 帖子讨论了如何以编程方式结束电话例如 this one https stackoverflow com questions 18065144 end call in android programatically 是的
python 子类化 multiprocessing.Process

我是Python面向对象的新手我正在将现有的应用程序重写为面向对象的版本因为现在开发人员在增加我的代码变得难以维护通常我使用多处理队列但我从这个例子中发现http www doughellmann com PyMOTW multi
用于将对象的属性列入白名单的对象解构（{ x, y, ...rest }）[重复]

这个问题在这里已经有答案了 Using 对象剩余解构 https github com sebmarkbage ecmascript rest spread blob master Rest md将对象的属性列入黑名单很简单如下例所示 c
Android共享视图过渡与淡入淡出过渡相结合

我有一个传递共享元素动画的活动这是一个基本的 ImageView 转换工作得很好现在对于活动中的其他元素我想要一个淡入淡出动画现在这适用于所有元素但与 ImageView 共享视图位于同一视图组中的视图除外我的布局如下
Edittext 用动画改变宽度

我想制作一个在其父级左侧对齐的编辑文本当用户单击它时编辑文本的宽度将增加到右侧这是我使用的代码但是当动画结束时编辑文本宽度变为第一个大小谁能帮我有没有什么解决方案可以将 fillparent 设置为动画中宽度的最终尺寸 Ani
魔法记录删除实体问题

我的反馈与反馈中的问题之间存在一对多关系删除规则在 Question 中设置为 Nullify 在 Feedback 中设置为 Cascade 这样当 Feedback 被删除时它会删除其所有问题当 Question 被删除时 Fee
在 C# 中，如何使用泛型基类将泛型接口的所有实例注入到单个构造函数中？

我定义了以下接口 public interface ICustomService
只有 swipeone 可以与 jGestures 配合使用

我正在尝试使用 jGestures 实现触摸事件 swipeone 工作正常但其他任何东西向左滑动向右滑动等都不会触发 div style height 500px width 500px background blue div 这
根据多个属性条件选择列

我想弄清楚如何使用有效地选择列dplyr select if The starwarsdplyr 0 70 中的数据集是一个很好的数据集 gt starwars A tibble 87 x 13 name height mass hair
C联盟输出不清楚

我在理解工会及其运作方式方面遇到了一些困难 include
从 Body 类 Kinect 获取 JointType

我知道在旧的SDK中有一个Skeleton类你可以做类似的事情 public void Compare Skeleton skeleton var leftShoulderPosition skeleton Joints Where j
如何防止 html 表格拉伸

有时当我的一个表格单元格中的一段数据太长时它会拉伸单元格并使整个表格的布局变形我怎样才能防止这种情况你可能想要table layout fixed并设置一行的第一个单元格的宽度 See http www w3 org TR CSS2
如何在overlayfs中使用多个较低层

根据this https www kernel org doc Documentation filesystems overlayfs txt根据文档应该可以将多个较低层与overlayfs一起使用但我无法让它在内核3 18 13上工作
循环 UTF-8 字符串时，是什么决定了字符的位置？

我正在阅读有关的部分for中的陈述有效的 Go 文档 https golang org doc effective go html并遇到了这个例子 for pos char range 日本 x80語 fmt Printf Characte

循环 UTF-8 字符串时，是什么决定了字符的位置？

循环 UTF-8 字符串时，是什么决定了字符的位置？ 的相关文章

随机推荐

热门标签

循环 UTF-8 字符串时，是什么决定了字符的位置？的相关文章