C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？

2023-11-23

我主要对类 Unix 系统（例如，便携式 POSIX）感兴趣，因为 Windows 似乎对宽字符做了奇怪的事情。

执行读取和写入宽字符功能（例如getwchar() and putwchar()）总是“做正确的事”，例如从 utf-8 读取并在设置的语言环境时写入 utf-8，或者我是否必须手动调用wcrtomb()并使用例如打印字符串fputs()？在我的系统（openSUSE 12.3）上$LANG被设定为en_GB.UTF-8他们似乎确实做了正确的事情（检查输出，我看到看起来像 UTF-8 的内容，即使字符串是使用 wchar_t 存储并使用宽字符函数编写的）。

但是我不确定这是否得到保证。例如cprogramming.com指出：

[宽字符] 不应用于输出，因为虚假零字节和其他具有常见含义的低位 ASCII 字符（例如“/” 和 '\n'）可能会散布在整个数据中。

这似乎表明输出宽字符（大概使用宽字符输出函数）可能会造成严重破坏。

由于 C 标准似乎根本没有提到编码，我真的不知道在使用 wchar_t 时谁/何时/如何应用编码。所以我的问题基本上是，当我的应用程序不需要知道所使用的编码时，专门读取、写入和使用宽字符是否是正确的做法。我只需要字符串长度和控制台宽度（wcswidth()），所以对我来说，在处理文本时到处使用 wchar_t 似乎是理想的选择。

只要区域设置正确设置，在使用 UTF-8 的系统上使用宽字符函数处理 UTF-8 文件就不会有任何问题。他们将能够正确解释事物，即他们将根据需要将字符视为 1-4 个字节（在输入和输出中）。你可以通过这样的方式来测试它：

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main()
{
    setlocale(LC_CTYPE, "en_GB.UTF-8");
    // setlocale(LC_CTYPE, ""); // to use environment variable instead
    wchar_t *txt = L"£Δᗩ";

    wprintf(L"The string %ls has %d characters\n", txt, wcslen(txt));
}

$ gcc -o loc loc.c && ./loc
The string £Δᗩ has 3 characters

如果您不小心在多字节字符串上使用标准函数（特别是字符函数），事情就会开始崩溃，例如等价的：

char *txt = "£Δᗩ";
printf("The string %s has %zu characters\n", txt, strlen(txt));

$ gcc -o nloc nloc.c && ./nloc
The string £Δᗩ has 7 characters

该字符串在这里仍然可以正确打印，因为它本质上只是一个字节流，并且由于系统期望 UTF-8 序列，因此它们被完美地翻译。当然strlen正在报告字符串中的字节数，7（加上\0），不知道字符和字节是不等价的。

在这方面，由于 ASCII 和 UTF-8 之间的兼容性，只要您小心，您通常可以将 UTF-8 文件视为简单的多字节 C 字符串。

还有一定程度的灵活性。可以轻松地将标准 C 字符串（作为多字节字符串）转换为宽字符串：

char *stdtxt = "ASCII and UTF-8 €£¢";
wchar_t buf[100]; 
mbstowcs(buf, stdtxt, 20);

wprintf(L"%ls has %zu wide characters\n", buf, wcslen(buf));

Output:
ASCII and UTF-8 €£¢ has 19 wide characters

一旦您在流上使用了宽字符函数，它就会设置为宽方向。如果稍后想要使用标准字节 I/O 函数，则需要先重新打开流。这可能就是为什么建议不要使用它的原因stdout。但是，如果您仅使用宽字符函数stdin and stdout（包括您链接到的任何代码），您不会有任何问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？的相关文章

C++ 是否可以在 MacOS 上与 OpenMP 和 boost 兼容？

我现在已经尝试了很多事情并得出了一些结论也许我监督了一些事情但似乎我无法完成我想要的事情问题是是否有可能使用 OpenMP 和 boost 在 MacOS High Sierra 上编译 C 一些发现如果我错了请纠正我 Open
如何在C（Linux）中的while循环中准确地睡眠？

在 C 代码 Linux 操作系统中我需要在 while 循环内准确地休眠比如说 10000 微秒 1000 次我尝试过usleep nanosleep select pselect和其他一些方法但没有成功一旦大约 50 次它
当一组凭据下的计划任务启动的进程在另一组凭据下运行另一个程序时，Windows 是否有限制

所以我有一个简单的例子其中我有应用程序 A 它对用户 X 本地管理员有一些硬编码的凭据然后它使用硬编码的绝对路径启动带有这些凭据的应用程序 B A 和 B 以及 dotnet 控制台应用程序但是它们不与控制台交互只是将信息写入文件
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
unordered_map 中字符串的 C++ 哈希函数

看起来 C 标准库中没有字符串的哈希函数这是真的在任何 c 编译器上使用字符串作为 unordered map 中的键的工作示例是什么 C STL提供模板专业化 http en cppreference com w cpp string
使用 GCP 的数据存储区时如何区分代码是在模拟器中运行还是在 GKE 中运行

按照中给出的说明进行操作后我不确定是否遗漏了任何内容https cloud google com datastore docs tools datastore emulator https cloud google com datasto
启动时的 Excel 加载项

我正在使用 Visual C 创建 Microsoft Excel 的加载项当我第一次创建解决方案时它包含一个名为 ThisAddIn Startup 的函数我在这个函数中添加了以下代码 private void ThisAddIn
iptables通过注释删除特定规则

我需要删除一些具有相同评论的规则例如我有带有 comment test it 的规则所以我可以像这样获得它们的列表 sudo iptables t nat L grep test it 但是我怎样才能删除所有带有注释测试它的 PR
打破 ReadFile() 阻塞 - 命名管道 (Windows API)

为了简化这是一种命名管道服务器正在等待命名管道客户端写入管道的情况使用 WriteFile 阻塞的 Windows API 是 ReadFile 服务器已创建启用阻塞的同步管道无重叠 I O 客户端已连接现在服务器正在等待一些数据
如何在 Qt 应用程序中通过终端命令运行分离的应用程序？

我想使用命令 cd opencv opencv 3 0 0 alpha samples cpp cpp example facedetect lena jpg 在 Qt 应用程序中按钮的 clicked 方法上运行 OpenCV 示例代码
在 NaN 情况下 to_string() 可以返回什么

我使用 VS 2012 遇到了非常令人恼火的行为有时我的浮点数是 NaN auto dbgHelp std to string myFloat dbgHelp最终包含5008角色你不能发明这个东西其中大部分为0 最终结果是 0 INF
如何在 C 中安全地声明 16 位字符串文字？

我知道已经有一个标准方法前缀为L wchar t test literal L Test 问题是wchar t不保证是16位但是对于我的项目我需要16位wchar t 我还想避免通过的要求 fshort wchar 那么 C 不是 C
为什么这个二维指针表示法有效，而另一个则无效[重复]

这个问题在这里已经有答案了这里我编写了一段代码来打印 3x3 矩阵的对角线值之和这里我必须将矩阵传递给函数矩阵被传递给指针数组代码可以工作但问题是我必须编写参数的方式如下 int mat 3 以下导致程序崩溃 int mat 3
保护 APK 中的字符串

我正在使用 Xamarin 的 Mono for Android 开发一个 Android 应用程序我目前正在努力使用 Google Play API 添加应用内购买功能为此我需要从我的应用程序内向 Google 发送公共许可证密钥
WPF DataGridTemplateColumn 组合框更新所有行

我有这个 XAML 它从 ItemSource 是枚举的组合框中选择一个值我使用的教程是 http www c sharpcorner com uploadfile dpatra combobox in datagrid in wpf h
打印大型 WPF 用户控件

我有一个巨大的数据我想使用 WPF 打印我发现WPF提供了一个PrintDialog PrintVisual用于打印派生的任何 WPF 控件的方法Visual class PrintVisual只会打印一页因此我需要缩放控件以适合页面
使用 C 在 OS X 中获取其他进程的 argv

我想获得其他进程的argv 例如ps 我使用的是在 Intel 或 PowerPC 上运行的 Mac OS X 10 4 11 首先我阅读了 ps 和 man kvm 的代码然后编写了一些 C 代码 include
灵气序列解析问题

我在使用 Spirit Qi 2 4 编写解析器时遇到一些问题我有一系列键值对以以下格式解析
不区分大小写的字符串比较 C++ [重复]

这个问题在这里已经有答案了我知道有一些方法可以进行忽略大小写的比较其中涉及遍历字符串或一个good one https stackoverflow com questions 11635 case insensitive string
ubuntu：升级软件（cmake）-版本消歧（本地编译）[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的机器上安装了 cmake 2 8 0 来自 ubuntu 软件包二进制文件放置在 usr bin cmake 中我需要将 cmake 版本至少

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？

c

Linux

POSIX

wchart

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？的相关文章

C++ 是否可以在 MacOS 上与 OpenMP 和 boost 兼容？

如何在C（Linux）中的while循环中准确地睡眠？

当一组凭据下的计划任务启动的进程在另一组凭据下运行另一个程序时，Windows 是否有限制

使用可变参数包类型扩展的 C++ 函数调用者包装器

unordered_map 中字符串的 C++ 哈希函数

使用 GCP 的数据存储区时如何区分代码是在模拟器中运行还是在 GKE 中运行

启动时的 Excel 加载项

iptables通过注释删除特定规则

打破 ReadFile() 阻塞 - 命名管道 (Windows API)

如何在 Qt 应用程序中通过终端命令运行分离的应用程序？

在 NaN 情况下 to_string() 可以返回什么

如何在 C 中安全地声明 16 位字符串文字？

为什么这个二维指针表示法有效，而另一个则无效[重复]

保护 APK 中的字符串

WPF DataGridTemplateColumn 组合框更新所有行

打印大型 WPF 用户控件

使用 C 在 OS X 中获取其他进程的 argv

灵气序列解析问题

不区分大小写的字符串比较 C++ [重复]

ubuntu：升级软件（cmake）-版本消歧（本地编译）[关闭]

随机推荐

为什么使用 uImage 而不是 zImage

以 root 身份运行 python 脚本

如何将 Firebase Twitter 身份验证与 React Native 结合使用？

需要正则表达式来查找两个标记之间的子字符串

iOS 相机：“AVCaptureAudioDataOutput”动态激活音频会话，避免背景音乐卡顿

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？ 的相关文章

随机推荐

C 中的宽字符输入/输出是否始终读取/写入正确的（系统默认）编码？的相关文章