如何在 Visual C++ 2008 中创建 UTF-8 字符串文字

2024-03-22

在 VC++ 2003 中，我可以将源文件保存为 UTF-8，并按原样使用所有字符串。换句话说，以下代码将按原样将字符串打印到控制台。如果源文件保存为 UTF-8，则输出将为 UTF-8。

printf("Chinese (Traditional)");
printf("中国語 (繁体)");
printf("중국어 (번체)");
printf("Chinês (Tradicional)");

我已将文件保存为带有 UTF-8 BOM 的 UTF-8 格式。然而使用 VC2008 编译会导致：

warning C4566: character represented by universal-character-name '\uC911' 
cannot be represented in the current code page (932)
warning C4566: character represented by universal-character-name '\uAD6D' 
cannot be represented in the current code page (932)
etc.

导致这些警告的字符已损坏。适合区域设置的编码（在本例中为 932 = 日语）将转换为区域设置编码，即 Shift-JIS。

我找不到让 VC++ 2008 为我编译这个的方法。请注意，我在源文件中使用什么区域设置并不重要。似乎没有一个语言环境显示“我知道我在做什么，所以不要 f$%##ng 更改我的字符串文字”。特别是，无用的 UTF-8 伪语言环境不起作用。

#pragma setlocale(".65001") 
=> error C2175: '.65001' : invalid locale

“C”也没有：

#pragma setlocale("C") 
=> see warnings above (in particular locale is still 932)

VC2008 似乎强制所有字符进入指定（或默认）区域设置，并且该区域设置不能是 UTF-8。我不想更改文件以使用“\xbf\x11...”之类的转义字符串，因为相同的源是使用 gcc 编译的，它可以非常愉快地处理 UTF-8 文件。

有没有什么方法可以指定源文件的编译应保持字符串文字不变？

换句话说，在编译源文件时，我可以使用什么编译标志来指定与 VC2003 的向后兼容性。即不要更改字符串文字，按原样逐字节使用它们。

Update

感谢您的建议，但我想避免使用 wchar。由于此应用程序专门处理 UTF-8 中的字符串，因此使用 wchar 需要我将所有字符串转换回 UTF-8，这应该是不必要的。所有输入、输出和内部处理均采用 UTF-8。这是一个简单的应用程序，在 Linux 上以及使用 VC2003 编译时可以正常工作。我希望能够使用 VC2008 编译相同的应用程序并使其工作。

为此，我需要 VC2008 不要尝试将其转换为我的本地计算机的区域设置（日语，932）。我希望 VC2008 能够向后兼容 VC2003。我想要一个区域设置或编译器设置，表明字符串按原样使用，本质上是作为不透明的 char 数组，或作为 UTF-8。看起来我可能会被 VC2003 和 gcc 困住，但 VC2008 在这种情况下试图变得太聪明。

Update:

我决定没有保证的方法可以做到这一点。我下面介绍的解决方案适用于英文版 VC2003，但在使用日文版 VC2003（或者可能是日文操作系统）编译时会失败。无论如何，不能依赖它来工作。请注意，即使将所有内容声明为 L"" 字符串也不起作用（并且在 gcc 中很痛苦，如下所述）。

相反，我相信您只需要硬着头皮将所有文本移动到数据文件中并从那里加载它。我现在通过以下方式存储和访问 INI 文件中的文本简单初始化 http://code.jellycan.com/simpleini/（跨平台 INI 文件库）。至少可以保证它可以工作，因为所有文本都在程序之外。

原来的：

我自己回答这个问题，因为似乎只有埃文明白这个问题。关于什么是 Unicode 以及如何使用 wchar_t 的答案与此问题无关，因为这与国际化无关，也不是对 Unicode 字符编码的误解。我很感谢你尝试提供帮助，如果我不够清楚，我深表歉意。

问题是我有源文件需要在各种平台和编译器下交叉编译。该程序进行 UTF-8 处理。它不关心任何其他编码。我想要 UTF-8 格式的字符串文字，就像目前使用 gcc 和 vc2003 一样。用VC2008怎么做？（即向后兼容的解决方案）。

这是我发现的：

海湾合作委员会（v4.3.2 20081105）：

字符串文字按原样使用（原始字符串）
支持UTF-8编码的源文件
源文件不得包含 UTF-8 BOM

vc2003:

字符串文字按原样使用（原始字符串）
支持UTF-8编码的源文件
源文件可能有也可能没有 UTF-8 BOM（没关系）

vc2005+:

字符串文字由编译器处理（无原始字符串）
char 字符串文字被重新编码为指定的区域设置
不支持 UTF-8 作为目标区域设置
源文件必须具有 UTF-8 BOM

因此，简单的答案是，对于这个特定目的，VC2005+ 已损坏并且不提供向后兼容的编译路径。将 Unicode 字符串放入已编译程序的唯一方法是通过 UTF-8 + BOM + wchar，这意味着我需要在使用时将所有字符串转换回 UTF-8。

没有任何简单的跨平台方法将 wchar 转换为 UTF-8，例如，wchar 的大小和编码是什么？在 Windows 上，UTF-16。在其他平台上？它有所不同。请参阅重症监护室项目 http://icu-project.org/docs/papers/unicode_wchar_t.html了解一些细节。

最后，我决定避免在除 vc2005+ 之外的所有编译器上使用如下所示的源代码进行转换成本。

#if defined(_MSC_VER) && _MSC_VER > 1310
// Visual C++ 2005 and later require the source files in UTF-8, and all strings 
// to be encoded as wchar_t otherwise the strings will be converted into the 
// local multibyte encoding and cause errors. To use a wchar_t as UTF-8, these 
// strings then need to be convert back to UTF-8. This function is just a rough 
// example of how to do this.
# define utf8(str)  ConvertToUTF8(L##str)
const char * ConvertToUTF8(const wchar_t * pStr) {
    static char szBuf[1024];
    WideCharToMultiByte(CP_UTF8, 0, pStr, -1, szBuf, sizeof(szBuf), NULL, NULL);
    return szBuf;
}
#else
// Visual C++ 2003 and gcc will use the string literals as is, so the files 
// should be saved as UTF-8. gcc requires the files to not have a UTF-8 BOM.
# define utf8(str)  str
#endif

请注意，此代码只是一个简化的示例。生产使用需要以多种方式清理它（线程安全、错误检查、缓冲区大小检查等）。

其用法类似于以下代码。在我对 gcc、vc2003 和 vc2008 的测试中，它可以干净地编译并正常工作：

std::string mText;
mText = utf8("Chinese (Traditional)");
mText = utf8("中国語 (繁体)");
mText = utf8("중국어 (번체)");
mText = utf8("Chinês (Tradicional)");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Visual C++ 2008 中创建 UTF-8 字符串文字的相关文章

如何在 VC++ CString 中验证有效的整数和浮点数

有人可以告诉我一种有效的方法来验证 CString 对象中存在的数字是有效整数还是浮点数吗 Use tcstol http msdn microsoft com en us library w4z2wdyc aspx and tcstod
尝试了解使用服务打开对话框

我已经阅读了有关使用 mvvm 模式打开对话框的讨论我看过几个使用服务的示例但我不明白所有部分如何组合在一起我发布这个问题寻求指导以了解我应该阅读哪些内容以更好地理解我所缺少的内容我将在下面发布我所拥有的内容它确实有效但从我
Environment.CurrentDirectory 与 System.IO.Directory.GetCurrentDirectory

我正在编写一个 Net WinForms 并不断在调试和发布配置之间切换并且有一些文件我需要任一配置才能访问我想做的是将文件放在 BIN 文件夹中的公共目录中这样它看起来像这样 MyProject Bin CommonFiles My
转换 const void*

我有一个函数返回一个const void 我想用它的信息作为char 我可以将它投射为 C 风格的罚款 char variable但是当我尝试使用reinterpret cast like reinterpret cast
MVC3中设置下拉列表中的所选项目

我必须为视图中的下拉列表设置所选项目但它不起作用 View div class editor label Html LabelFor model gt model Gender div div class editor field Htm
如何将 .txt 文件中的数据转换为 xml？ C＃

我在一个文本文件中有数千行数据我想通过将其转换为更容易搜索的内容来轻松搜索我希望 XML 或其他类型的大型数据结构尽管我不确定它是否是最好的对于我的想法每行的数据如下所示第 31 册托马斯乔治 32 34 154 每本书都不是
处理右值时的 insert 与 emplace

std string myString std unordered set
如何在 C# Designer.cs 代码中使用常量字符串？

如何在 designer cs 文件中引用常量字符串一个直接的答案是在我的 cs 文件中创建一个私有字符串变量然后编辑 Designer cs 文件以使用此变量而不是对字符串进行硬编码但设计者不喜欢这样抛出错误我明白为什么这行不通
即使没有异步，CallContext.LogicalGetData 也会恢复。为什么？

我注意到CallContext LogicalSetData LogicalGetData不按照我期望的方式工作内部设置的值async方法得到恢复即使没有异步或任何类型的线程切换无论如何这是一个简单的例子 using System u
不同 C++ 文件中的相同类名

如果两个 C 文件具有相同名称的类的不同定义那么当它们被编译和链接时即使没有警告也会抛出一些东西例如 a cc class Student public std string foo return A void foo a Stude
什么是空终止字符串？

它与什么不同标准字符串 http www cplusplus com reference string string 字符串实际上只是一个数组chars 空终止字符串是指其中包含空字符的字符串 0 标记字符串的结尾不一定是数组的结尾
在 C# 中检查 PowerShell 执行策略的最佳方法是什么？

当你跑步时Get ExecutionPolicy在 PowerShell 中它得到有效的执行政策 https learn microsoft com en us powershell module microsoft powershell
在 C 中使用枚举而不是 #defines 作为编译时常量是否合理？

在 C 工作了一段时间后我将回到 C 开发领域我已经意识到在不必要的时候应该避免使用宏以便让编译器在编译时为您做更多的工作因此对于常量值在 C 中我将使用静态 const 变量或 C 11 枚举类来实现良好的作用域在 C 中
memcpy/memmove 到联合成员，这是否设置“活动”成员？

重要说明一些评论者似乎认为我是从工会抄袭的仔细看memcpy 它从普通旧地址复制uint32 t 它不包含在联合中另外我正在复制通过memcpy 到工会的特定成员 u a16 or u x in a union 不直接到整个联盟本
Oauth2中如何同时撤销RefreshToken和使AccessToken失效

我正在使用 Owin Oauth2 授权和资源服务器相同开发单页面应用程序 AngularJS Net MVC Json Rest API 的身份验证流程我选择了 Bearer Token 路由而不是传统的 cookie session
C++ 对象用 new 创建，用 free() 销毁；这有多糟糕？

我正在修改一个相对较大的 C 程序不幸的是并不总是清楚我之前的人使用的是 C 还是 C 语法这是在一所大学的电气工程系我们 EE 总是想用 C 来做所有事情不幸的是在这种情况下人们实际上可以逃脱惩罚但是如果有人创建一个对象
模板类中的无效数据类型生成编译时错误？

我正在使用 C 创建一个字符串类我希望该类仅接受数据类型 char 和 wchar t 并且我希望编译器在编译时使用 error 捕获任何无效数据类型我不喜欢使用assert 我怎样才能做到这一点您可以使用静态断言促进提供一个 ht
C++：为什么 numeric_limits 对它不知道的类型起作用？

我创建了自己的类型没有任何比较器也没有专门化std numeric limits 尽管如此由于某种原因 std numeric limits
没有“对 *this”功能的右值引用的解决方法

我有一个围绕可移动对象的代理容器类并希望代理能够隐式生成对底层对象的右值引用但仅当代理本身被移动时我相信我将能够按照提案 n2439 实施此行为将移动语义扩展到 this http www open std org jtc1 sc2
MySqlConnectionStringBuilder - 使用证书连接

我正在尝试连接到 Google Cloud Sql 这是一个 MySql 解决方案我能够使用 MySql Workbench 进行连接我如何使用 C 连接MySqlConnectionStringBuilder 我找不到提供这三个证书的

随机推荐

Apple MDM 推送错误，但仅限于某些 iOS 设备

我们在某些 iPhone 设备上使用 MDMpush 时遇到错误 7 月 30 日 17 52 46 Mirnas iPhone apsd 49 发生流错误错误 Domain NSPOSIXErrorDomain Code 54 操作无法
检查 PHP 中的字符串是否序列化

我正在为我的应用程序构建 Redis DB 缓存层并且已经到了要处理数组的地步我想知道是否有任何好的高性能方法来控制 PHP 中的字符串是否被序列化多谢 array unserialize string if array fals
如何解决因APK文件无效而安装失败的问题？

我正在尝试构建 Dolphin Player 但我收到了错误 2012 09 21 09 46 23 DolphinPlayer Installation failed due to invalid APK file 2012 09 21
std::string 在 std::cin 的 4095 个字符后被截断

我的程序需要从 stdin 读取最多 50k 个字符长的字符串代码如下 include
使用 API 17 渲染时 Android 按钮文本不居中

在布局的图形视图中当我从下图所示的按钮中选择 API 15 或更低版本时圆圈按钮中的文本看起来不错当我选择 API 17 时即使 xml 代码相同文本也会被替换更改按钮填充没有帮助这只是 Eclipse 的问题还是 Andro
在 OpenGL 中快速绘制多个相同的对象

所以我正在开发一款游戏我需要绘制很多相同的对象相同的形状相同的大小相同的颜色只是位置不同现在我的设置是这样的我有一些课Renderer想要在屏幕上绘制的对象可以调用static void addVertex float x f
Spring框架中子文档数组字段中的过滤数组

我正在尝试从 Spring 框架项目中的 MongoDB 数组中获取元素我已经找到了MongoDB shell的解决方案但我不知道如何通过Spring data core aggregation实现它 Spring不支持聚合运算符之一
Dlib面部标志起始指数

我正在使用 dlib 来获取面部标志点我的问题是关于索引 68 个地标的参考图是从 1 开始的是dlib代码Dlib 面部标志 https github com davisking dlib blob master examples
Python 多重处理和组合 DF

我正在将一个大数据源读入 pandas 并将其分成 3 个块我想使用多重处理以便我可以同时完成每个块的分析功能每个函数之后的输出是一个数据帧然后我需要组合这三个小数据框 This part creates an empty data
如何将导航栏存储在一个文件中？

我的网站有一个导航栏 div ul li a href index html Home a li li a href about html About Us a li li a href http www brownpapertickets
Web 部署 3 (IIS) 的自动备份 - 在备份中排除文件夹

我已成功通过以下方式设置 Web 部署自动备份本指南 http www iis net learn publish using web deploy web deploy automatic backups 效果很好但是在我的网站中我
$在mongodb查询中分别展开2个字段

我想要 unwind2 个字段 school and home 数据库结构就像 id 1 school path school1 code code1 path school2 code code2 path school3 code co
是否可以使用 PropTypes 来验证类似 Dictionary 的对象？

我需要在我的减速器中验证类似字典的对象但由于我已经在使用 Babel 所以我不想求助于 Typescript 等工具以此对象为例 posts byId post1 id post1 author user1 body comments
url 的最大重试次数超出（无法建立新连接：[Errno 110] 连接超时）

raise ConnectionError e request request requests exceptions ConnectionError HTTPSConnectionPool host mycompanyurl in por
在 Powershell 上获取行号？

所以我一直在寻找但找不到任何不会给我带来任何回报的东西我有一个带有变量的代码并且有一个包含很多行的文件例如我有以下文件 things txt Ketchup Mustard Pumpkin Mustard Ketchup 而我要取
复选框绑定 CHANGE 事件

我想在用户单击触摸复选框后提交表单 THE HTML
如何在c中通过指针传递二维数组[重复]

这个问题在这里已经有答案了可能的重复将表示二维数组的指针传递给 C 中的函数 https stackoverflow com questions 5329107 passing a pointer representing a 2d a
LLVM 6.0.0 的构建大小很大 (42G)

I built llvm 6 0 0从源头开始一切正常我只是想知道它的尺寸怎么这么大 42G 我可以轻松删除一些目标文件或其他文件以使构建目录更小吗 du hs GIT llvm 6 0 0 build 42G home oren GI
当 Bash 脚本编写和捕获输出时，在后台使用与号 (&) 分叉命令

我希望在后台分叉一个进程同时捕获 bash 脚本中的输出我可以运行以下脚本来 ping IP 列表它将每个调用移至后台并且运行速度非常快但它不会捕获执行命令的输出以供进一步处理 for i in cat list txt do pi
如何在 Visual C++ 2008 中创建 UTF-8 字符串文字

在 VC 2003 中我可以将源文件保存为 UTF 8 并按原样使用所有字符串换句话说以下代码将按原样将字符串打印到控制台如果源文件保存为 UTF 8 则输出将为 UTF 8 printf Chinese Traditional p

如何在 Visual C++ 2008 中创建 UTF-8 字符串文字

如何在 Visual C++ 2008 中创建 UTF-8 字符串文字 的相关文章

随机推荐

热门标签

如何在 Visual C++ 2008 中创建 UTF-8 字符串文字的相关文章