在使用平面内存模型(基本上是所有东西)的实现上,转换为uintptr_t
会正常工作。
(但请参阅在 64 位 x86 中指针比较应该有符号还是无符号? https://stackoverflow.com/questions/47687805/should-pointer-comparisons-be-signed-or-unsigned-in-64-bit-x86讨论是否应该将指针视为有符号,包括在对象外部形成指针的问题(C 中的 UB)。)
但是具有非平坦内存模型的系统确实存在,并且思考它们可以帮助解释当前的情况,例如 C++ 对于不同的内存模型具有不同的规范<
vs. std::less
.
部分要点<
指向 C 中 UB 的单独对象的指针(或者至少在某些 C++ 修订版中未指定)是为了允许奇怪的机器,包括非平面内存模型。
一个著名的例子是 x86-16 实模式,其中指针是段:偏移量,通过形成 20 位线性地址(segment << 4) + offset
。同一个线性地址可以由多个不同的 seg:off 组合来表示。
C++ std::less
奇怪的 ISA 上的指针可能需要昂贵的代价,例如“规范化”x86-16 上的段:偏移量,使其偏移量 portable的方式来实现这一点。标准化所需的操作uintptr_t
(或指针对象的对象表示)是特定于实现的。
但即使在使用 C++ 的系统上std::less
一定很贵,<
不一定是。例如,假设一个“大”内存模型,其中一个对象适合一个段,<
可以只比较偏移部分,甚至不用理会段部分。 (同一对象内的指针将具有相同的段,否则它是 C 中的 UB。C++17 更改为仅“未指定”,这可能仍然允许跳过规范化并仅比较偏移量。)这是假设所有指针都指向任何部分一个对象总是使用相同的seg
值,永远不会标准化。这就是您期望 ABI 对“大”而不是“巨大”内存模型的要求。 (看评论里讨论 https://stackoverflow.com/questions/58322107/does-c-have-an-equivalent-of-stdless-from-c/58332627#comment103050729_58332627).
(例如,此类内存模型的最大对象大小可能为 64kiB,但最大总地址空间要大得多,可以容纳许多此类最大大小的对象。ISO C 允许实现对对象大小进行限制,该限制低于最大值(无符号)size_t
可以代表,SIZE_MAX
。例如,即使在平面内存模型系统上,GNU C 也将最大对象大小限制为PTRDIFF_MAX
因此大小计算可以忽略有符号溢出。)请参阅这个答案 https://stackoverflow.com/questions/9386979/what-is-the-maximum-size-of-an-array-in-c/9387041#9387041以及评论里的讨论。
如果你想允许大于段的对象,你需要一个“巨大”的内存模型,在执行时必须担心指针的偏移部分溢出p++
循环遍历数组,或者进行索引/指针算术时。这会导致到处代码变慢,但可能意味着p < q
碰巧适用于指向不同对象的指针,因为针对“巨大”内存模型的实现通常会选择始终保持所有指针标准化。看什么是近指针、远指针和大指针? https://stackoverflow.com/questions/3575592/what-are-near-far-and-huge-pointers- 一些用于 x86 实模式的真实 C 编译器确实有一个选项来编译“巨大”模型,其中所有指针默认为“巨大”,除非另有声明。
x86 实模式分段并不是唯一可能的非平坦内存模型,它只是一个有用的具体示例,用于说明 C/C++ 实现如何处理它。在现实生活中,实施扩展了 ISO C 的概念far
vs. near
指针,允许程序员选择何时可以只存储/传递相对于某些公共数据段的 16 位偏移部分。
但纯 ISO C 实现必须在小型内存模型(除了具有 16 位指针的同一 64kiB 中的代码之外的所有内容)或大型或巨大(所有指针均为 32 位)之间进行选择。有些循环可以通过仅增加偏移部分来优化,但指针对象无法优化为更小。
如果您知道任何给定实现的神奇操作是什么,您可以用纯 C 实现它。问题在于不同的系统使用不同的寻址,并且任何可移植宏都没有对细节进行参数化。
或者也许不是:它可能涉及从特殊的段表或其他东西中查找某些内容,例如就像x86保护模式而不是实模式一样,其中地址的段部分是索引,而不是要左移的值。您可以在保护模式下设置部分重叠的段,并且地址的段选择器部分甚至不一定按照与相应段基地址相同的顺序进行排序。如果 GDT 和/或 LDT 未映射到进程中的可读页面,则在 x86 保护模式下从 seg:off 指针获取线性地址可能会涉及系统调用。
(当然,x86 的主流操作系统使用平面内存模型,因此段基数始终为 0(除了使用线程本地存储)fs
or gs
段),并且只有 32 位或 64 位“偏移”部分用作指针。)
您可以手动添加各种特定平台的代码,例如默认情况下假设平坦,或者#ifdef
检测 x86 实模式和分割的东西uintptr_t
分为 16 位半部分seg -= off>>4; off &= 0xf;
然后将这些部分组合回 32 位数字。