在 MSVC 上,使用 C11 将 utf-16 转换为 utf-32 很容易编码cvt_utf16语言环境方面。但在 GCC (gcc (Debian 4.7.2-5) 4.7.2) 中,这个新功能似乎还没有实现。有没有办法在没有 iconv 的 Linux 上执行此类转换(最好使用 std 库的转换工具)?
将 UTF-16 解码为 UTF-32 非常容易。
您可能希望在编译时检测您正在使用的 libc 版本,并在检测到损坏的 libc(没有您需要的函数)时部署您的转换例程。
Inputs:
- 指向源 UTF-16 数据的指针 (
char16_t *
, ushort *
, - 为了方便UTF16 *
);
- 它的大小;
- 指向 UTF-32 数据的指针 (
char32_t *
, uint *
- 为了方便UTF32 *
).
代码如下:
void convert_utf16_to_utf32(const UTF16 *input,
size_t input_size,
UTF32 *output)
{
const UTF16 * const end = input + input_size;
while (input < end) {
const UTF16 uc = *input++;
if (!is_surrogate(uc)) {
*output++ = uc;
} else {
if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input))
*output++ = surrogate_to_utf32(uc, *input++);
else
// ERROR
}
}
}
剩下的就是错误处理。您可能想要插入一个U+FFFD
¹ 进入溪流并继续前进,或者只是退出,完全取决于您。辅助功能很简单:
int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; }
int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; }
int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; }
UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) {
return (high << 10) + low - 0x35fdc00;
}
1 参见统一码:
- § 3.9 Unicode 编码形式(使用 U+FFFD 的最佳实践)
- § 5.22 U+FFFD 替换的最佳实践
² 还要考虑到!is_surrogate(uc)
分支是迄今为止最常见的(以及第二个 if 中的非错误路径),您可能需要使用以下命令对其进行优化__builtin_expect
或类似的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)