编译/运行时字符串文字的原始字节流入/流出 Windows（非宽）执行字符集，以及 ANSI 代码页与 UTF-8

2024-03-22

我想确认我对原始字符串文字和（非宽）的理解execution character set在 Windows 上。

我希望具体确认的相关段落以粗体显示。但首先，有一些背景知识。

背景

（相关问题见下文bold)

由于下面的有益讨论@TheUndeadFish 的回答 https://stackoverflow.com/a/27871269/368896 to 我昨天发布的这个问题 https://stackoverflow.com/questions/27871124/does-the-multibyte-to-wide-string-conversion-function-mbstowcs-when-passed-a，我试图理解决定的规则字符集 and encoding用作execution character set在 Windows 上的 MSVC 中（在 C++ 规范意义上execution character set; see @DietmarKühl 的帖子 https://stackoverflow.com/questions/27872517/what-are-the-different-character-sets-used-for).

我怀疑有些人可能会认为尝试理解 ANSI 相关行为是浪费时间。char *MSVC 中非 ASCII 字符的（即非宽）字符串。

例如，考虑@IInspectable 的评论在这里 https://stackoverflow.com/q/27871124/368896:

您不能将 UTF-8 编码的字符串扔到 ANSI 版本的 Windows API 并希望一切正常。

请注意，在我当前基于 Windows MFC 应用程序的 i18n 项目中，我将removing对 API 调用的非宽（即 ANSI）版本的所有调用，我希望编译器生成execution wide-character set字符串，NOT execution character set（非宽）内部字符串。

然而，我想理解现有代码已经具有一些使用 ANSI API 函数的国际化。即使有些人认为 ANSI API 对非 ASCII 字符串的行为很疯狂，我也想理解它。

我认为像其他人一样，我发现很难找到有关非广泛的澄清文档execution character set在 Windows 上。

特别是，因为（非宽）execution character set由 C++ 标准定义为一个序列char（相对于wchar_t），UTF-16不能在内部使用来存储非宽字符execution character set。在当今时代，通过 UTF-8（achar基于编码），因此将用作字符集和编码execution character set。据我了解，Linux 上就是这样。然而，可悲的是，这是notWindows 上的情况 - 甚至是 MSVC 2013。

这引出了我的两个问题中的第一个问题。

问题#1: 请确认我在以下段落中的正确性。

有了这个背景，我的问题就来了。在MSVC中，包括VS 2013，似乎execution character set是（许多可能的）ANSI 字符集之一，使用（许多可能的）字符集之一代码页对应于特定给定的 ANSI 字符集来定义编码——而不是用 UTF-8 编码的 Unicode 字符集。（请注意，我问的是非宽execution character set。）它是否正确？

背景（续）（假设我在问题#1中是正确的）

如果我理解正确的话，上面的粗体段落可以说是在 Windows 上使用 ANSI API 的“疯狂”原因的很大一部分。

具体来说，考虑“正常”情况 - 其中 Unicode 和 UTF-8 用作execution character set.

在这种情况下，代码在什么机器上或何时编译并不重要，并且代码在什么机器上或何时运行也无关紧要。字符串文字的实际原始字节始终在内部以 UTF-8 编码的 Unicode 字符集表示，并且运行时系统在语义上始终将此类字符串视为 UTF-8。

在“疯狂”的情况下就没有这样的运气了（如果我理解正确的话），其中 ANSI 字符集和代码页编码被用作execution character set。在这种情况下（Windows 世界），运行时行为可能是affected与代码运行的机器相比，编译代码的机器。

那么，这是问题#2：再次请确认我在以下段落中的正确性。

考虑到这一背景，我怀疑：具体来说，对于 MSVC，execution character set它的编码以某种不太容易理解的方式取决于由compiler在编译时，在运行编译器的机器上。这将确定“烧录”到可执行文件中的字符文字的原始字节。并且，在运行时，MSVC C 运行时库可能正在使用不同的 execution character set并编码为解释烧录到可执行文件中的字符文字的原始字节。我对么？

（我可能会在某个时候在这个问题中添加例子。）

最终评论

从根本上来说，如果我理解正确的话，上面的粗体段落解释了在 Windows 上使用 ANSI API 的“疯狂”。由于 ANSI 字符集和所选择的编码之间可能存在差异compiler由于 C 运行时选择的 ANSI 字符集和编码，当程序中使用 ANSI API 时，字符串文字中的非 ASCII 字符可能不会按预期出现在正在运行的 MSVC 程序中。

（请注意，ANSI“疯狂”实际上仅适用于字符串文字，因为根据 C++ 标准，实际的源代码必须以 ASCII 的子集编写（并且源代码注释将被编译器丢弃）。）

上面的描述是我目前对 Windows 上的 ANSI API 字符串文字的最好理解。我想确认我的解释是正确的并且我的理解是正确的。

这是一个很长的故事，我很难找到一个明确的问题。不过，我认为我可以解决导致这一情况的一些误解。

首先，“ANSI”是（窄）执行字符集的同义词。 UTF-16 是执行宽字符集。

编译器不会为你选择。如果您使用窄char字符串，就编译器（运行时）所知，它们是 ANSI 的。

是的，特定的“ANSI”字符编码可能很重要。如果你编译一个L"ä"字面量在你的PC上，并且你的源代码在CP1252中，那么ä字符被编译为 UTF-16ä。但是，同一字节可能是其他编码中的另一个非 ASCII 字符，这将导致不同的 UTF-16 字符。

但请注意，MSVCis完全能够编译 UTF-8 和 UTF-16 源代码，只要它以U+FEFF“物料清单”。这使得整个理论问题几乎不再是问题。

[编辑] “具体来说，与MSVC，执行字符集及其编码取决于...”

不，MSVC 与执行字符集无关，真的。的含义char(0xE4)由操作系统决定。要查看这一点，请检查 MinGW 编译器。 MinGW 生成的可执行文件的行为与 MSVC 的相同，因为两者都针对相同的操作系统。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编译/运行时字符串文字的原始字节流入/流出 Windows（非宽）执行字符集，以及 ANSI 代码页与 UTF-8 的相关文章

使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
是否可以通过引用以基类作为参数的函数来传递派生类

假设我们有一个抽象基类IBase使用纯虚方法接口然后我们推导出CFoo CFoo2来自基类我们有一个知道如何使用 IBase 的函数 Foo IBase input 这些情况下通常的场景是这样的 IBase ptr static ca
函数的不明确的引用/值版本

考虑以下函数原型 void Remove SomeContainer Vec const std size t Index SomeContainer Remove SomeContainer Vec const std size t In
Windows CE 6.0 和运行时链接到调试 DLL /MDd

我在 x86 PC 上使用 Windows CE 6 0 R3 我已经为该平台构建了 NK bin 和 SDK 但我有一些问题需要了解如何使用 MTd 调试 DLL 构建控制台应用程序如果我尝试构建这个 main c with MDd i
ASP.NET 数据集 getdataBy 无法启用约束。一行或多行包含违反非空、唯一或外键约束的值

你好我有一个非常简单的网络表单我在此表单上有一个按钮和一个网格视图以及一个包含链接表 bill docket docket bill 等的数据集在按钮上单击我使用以下代码 protected void button click ob
通过 EUSART PIC18F45K80 打印消息

我正在尝试向 Docklight 发送串行消息但始终收到空值我正在使用带有 XC8 MPLAB X 的 PIC18F45K80 我的代码中的所有内容似乎都是正确的但我想我错了我该如何修复它 include
是否返回 std::move (x)？

Are std vector
使用 CMake 对 SDL 的未定义引用

我正在使用 SDL v1 2 15 7 和 CMake 3 2 1 开发一个项目在 h 文件中我添加了 include
使用 Process.Start() 打开文件夹时访问被拒绝异常

我有一个 C 中的 winforms 应用程序我必须在其中打开某个文件夹我用 System Diagnostics Process Start pathToFolder 这会导致以下异常 System ComponentModel Wi
对无符号 8 位整数进行左移操作 [重复]

这个问题在这里已经有答案了我试图理解 C C 中的移位运算符但它们给我带来了困难我有一个无符号 8 位整数初始化为一个值例如 1 uint8 t x 1 根据我的理解它在内存中的表示方式如下 0 0 0 0 0 0 0 1 现在
使用 ADFS 本地组织身份验证和 Visual Studio 2013 本地主机开发的 MVC5 Web 应用程序

我正在尝试创建一个配置为使用本地组织身份验证选项 ADFS 的 MVC5 Web 应用程序如下所述维托里奥贝尔托奇的作品 http www cloudidentity com blog 2014 02 12 use the on pre
为什么Windsor只能拦截虚方法或接口方法？

我正在阅读文档发现如果不使用接口那么 Windsor 只能拦截虚拟方法这是 Windsor 的限制还是 C 语言的限制我正在寻找深入的答案 C 语言在这里完全无关问题是拦截在运行时级别如何工作一种技术是从类继承实现接口并将其用
DataContractJsonSerializer 包含元素类型子类型的通用列表

我要使用DataContractJsonSerializer用于 JSON 序列化反序列化我在 JSON 数组中有两种对象类型并希望将它们都反序列化为相应的对象类型具有以下类定义 DataContract public class
为什么 C++20 范围不只提供管道语法？

我知道这个问题听起来很奇怪所以这里有一些背景信息最近我很失望地了解到 C 20 范围内的映射缩减并不像人们所期望的那样工作即 const double val data transform accumulate 不起作用你必须这样
函数中的重复参数检查

我经常有调用层次结构因为所有方法都需要相同的参数如果我不想将它们放在实例级别类的成员那么我总是问我在每个方法中检查它们的有效性是否有意义例如 public void MethodA object o if null o throw
将华氏温度转换为摄氏度的 C 程序始终打印零

我需要一些关于用 C 语言将华氏温度转换为摄氏度的程序的帮助我的代码如下所示 include
std::iota 的 iota 代表什么？

我假设 i 是增量 a 是分配但我无法弄清楚或找到答案而且它看起来与非标准非常相似itoa我认为这很令人困惑 C iota is not an acronym or an initialism It is the word iota
C++ 项目编译为静态库，编译为动态库失败（链接器错误）。为什么？

我有一个 VS2008 本机 C 项目我希望将其编译为 DLL 它仅引用一个外部库 log4cplus lib 并使用其功能当然也使用 log4cplus 的 h 文件当我尝试将我的项目编译为静态库时它成功了当我尝试作为 DLL
使用 QTestLib 时抑制 qDebug

我正在向 Qt 中的项目添加单元测试并希望使用 QTestLib 我已经设置了测试并且它们运行良好问题是在项目中我们重写了 qDebug 以输出到我们自己的日志文件这在运行应用程序时效果很好问题是当我测试类时它有时会开始记录然后
如何正确地将十六进制转义添加到字符串文字中？

当你有C语言的字符串时你可以在里面直接添加十六进制代码 char str abcde a b c d e 0x00 char str2 abc x12 x34 a b c 0x12 0x34 0x00 这两个示例在内存中都有 6 个字节

随机推荐

如何解决 SAM Docs 中的循环依赖关系，同时将 API 端点放入 lambda 函数的环境变量中

AWSTemplateFormatVersion 2010 09 09 Transform AWS Serverless 2016 10 31 Description hello Resources ApiGatewayApi Type A
为什么 webpack 2 包使用 `eval()` 来包装代码？

我刚刚学习webpack 我注意到在生成的bundle js中它使用了这样的eval 当处于开发模式而不是生产模式时它会产生完全不同的东西 function module exports webpack require use
Viewstate - 完全混乱。

这让我完全困惑有人能解释一下吗 Markup
Android SDK 管理器中未显示其他 Android API

我安装了安卓SDK管理器两个月前我拿到安卓2 3 3 SDK安装了但我不太记得我遵循的步骤因为我是 Android 开发新手现在当我打开 Android SDK 管理器时我只看到 SDK平台Android 2 3 3 我看不到我
将分配给 Fortran 数组的 C_PTR 传递给 C

我在访问 C 中的数组时遇到段错误该数组在下面的 Fortran 文件中分配有一些调试问题例如文件写入没有写入任何有意义的内容并且我初始化了一个变量i我从来没有用过但是我发现了以下内容未初始化i 但仍然声明没有段错误未在
是否可以从 DataContext.ExecuteQuery 返回匿名对象的 IEnumerable？

我开发了一个报告引擎其中报告基于模板每个模板都有带有 SQL 查询的字符串每个报告都有 SQL 查询参数的特定值为了呈现报告我设置参数并调用数据上下文执行查询 http msdn microsoft com en us libr
npm start 上的 webpack-dev-server 错误

我正在尝试在 ng2 admin 上运行 npm start 一切正常直到我执行 npm update 来尝试更新软件包之后 npm 启动并出现错误 webpack dev server config config webpack de
从 Android WebView 中启动地图

我有一个 Android 应用程序它在 WebView 中显示内容其中包含一个应该打开地图的链接我有要链接的位置的纬度经度和街道地址但我不确定链接的正确格式大约一周时间没有收到社区对此的任何答复或评论最后我只是选择 http
D3D11 不知从何增加了引用计数？

我已经使用 d3d11 有一段时间了在发现 directx 调试器之后我最近发现我的程序从所有未正确释放的 com 对象中到处泄漏内存经过一番窥探和盯着代码几个小时后我开发了一些方法来隔离引用计数意外增加的位置首先所有对象都被包
在数据库中存储 JS 数组和对象

我有一个应用程序可以让用户用 JS 构建东西我希望用户能够保存其工作的当前状态以重用或共享它但他拥有的是存储在 JS 数组中的 JS 对象的集合具有非常不同的属性颜色标签 x y 位置大小等 SQL 对于该特定任务来说似乎很糟
Jenkins：Git 推送将触发仅针对该分支的 Jenkins 构建

我们正在多个 Git 分支上并行工作当推送特定的 Git 分支时我们如何启动 Jenkins 项目作业来触发该特定分支的构建举个例子我们推送一个 Git 分支 feature abc gt 这应该会触发使用拉动该分支 featu
我可以阻止 numpy.array 将元素转换为 numpy 数组吗？

我正在尝试将以下内容转换为间隔对象的 2x2 numpy 数组 from interval import interval from the pyinterval package import numpy as np np array in
在循环内附加到 numpy 数组

我真的希望没有遗漏一些东西之前已经澄清过但我在这里找不到东西这个任务看起来很简单但我失败了我想在 for 循环中连续将一个 numpy 数组附加到另一个数组 step n 10 steps np empty step n 1 f
如何将 groovy 变量传递给 shell 块 jenkins

我有一个常规变量我想将其传递给 shell 块以进行进一步处理但我不断收到粘贴在下面的错误 stages stage First Stage echo out available variables steps script def s
有什么方法可以在免费的heroku dyno上添加免费的SSL证书吗？

我有一个 heroku 免费计划它在带有 PointDNS 附加组件的自定义域上运行因此它可以为 DNS 提供商提供名称服务器如果这很重要我已在我的自定义域 https 上启动并运行该网站但 ssl 证书指向 herokuapp
将引导面板宽度设置为文本宽度

我是 HTML Bootstrap 新手所以也许这相当简单 How do you set the panel width引导面板 http getbootstrap com components panels其文本的长度如果面板无法实现
wsdl2py 复杂类型

如何向 SOAP 请求添加复杂类型我正在使用 WSDL2py 生成的请求并尝试使用它在 types py 文件中创建的其他 TypeDefinitions 例如 AccountInfo 用于身份验证它会进入每个请求然后将其传递给 w
基于 webkit 的浏览器将 json 解释为脚本

我只是尝试通过 js 获取我的 Zootool 项目将它们推送到我的博客页脚中但没有成功这是我使用的代码 jquery框架 jQuery document ready function first try var url http z
使用 jspdf 将图像 url 转换为 pdf

function convertImgToBase64 url var canvas document createElement canvas var ctx canvas getContext 2d img document creat
编译/运行时字符串文字的原始字节流入/流出 Windows（非宽）执行字符集，以及 ANSI 代码页与 UTF-8

我想确认我对原始字符串文字和非宽的理解execution character set在 Windows 上我希望具体确认的相关段落以粗体显示但首先有一些背景知识背景相关问题见下文bold 由于下面的有益讨论 TheUndead

编译/运行时字符串文字的原始字节流入/流出 Windows（非宽）执行字符集，以及 ANSI 代码页与 UTF-8

编译/运行时字符串文字的原始字节流入/流出 Windows（非宽）执行字符集，以及 ANSI 代码页与 UTF-8 的相关文章

随机推荐

热门标签