为什么GCC的VLA（可变长度数组）实现中有数字22？

2023-12-27

int read_val();
long read_and_process(int n) {
    long vals[n];
    for (int i = 0; i < n; i++)
        vals[i] = read_val();
    return vals[n-1];
}

x86-64 GCC 5.4编译的汇编语言代码为：

read_and_process(int):
        pushq   %rbp
        movslq  %edi, %rax
>>>     leaq    22(,%rax,8), %rax
        movq    %rsp, %rbp
        pushq   %r14
        pushq   %r13
        pushq   %r12
        pushq   %rbx
        andq    $-16, %rax
        leal    -1(%rdi), %r13d
        subq    %rax, %rsp
        testl   %edi, %edi
        movq    %rsp, %r14
        jle     .L3
        leal    -1(%rdi), %eax
        movq    %rsp, %rbx
        leaq    8(%rsp,%rax,8), %r12
        movq    %rax, %r13
.L4:
        call    read_val()
        cltq
        addq    $8, %rbx
        movq    %rax, -8(%rbx)
        cmpq    %r12, %rbx
        jne     .L4
.L3:
        movslq  %r13d, %r13
        movq    (%r14,%r13,8), %rax
        leaq    -32(%rbp), %rsp
        popq    %rbx
        popq    %r12
        popq    %r13
        popq    %r14
        popq    %rbp
        ret

为什么需要计算 8*%rax+22，然后与 -16 进行 AND，因为可能有 8*%rax+16，这会给出相同的结果并且看起来更自然？

x86-64 GCC 11.2 编译的其他汇编语言代码看起来几乎相同，只是数字 22 被替换为 15。那么这个数字只是随机确定的，还是因为某些原因？

摘要：该数字不是随机的，它是确保正确堆栈对齐的计算的一部分。这个数字应该是 15，而 22 是旧版本 GCC 中一个小错误的结果。

回想起那个x86-64 SysV ABI 要求 16 字节堆栈对齐 https://stackoverflow.com/q/49391001;堆栈指针必须是 16 的倍数call操作说明。因此当我们进入read_and_process，堆栈指针比 16 的倍数小 8，因为call这让我们推送了 8 个字节。所以在打电话之前read_val()，堆栈指针必须减 8，且大于 16 的倍数，即 8 的奇数倍。序言压入奇数个寄存器（5 个，即rbp, r14, r13, r12, rbx），每个 8 个字节。所以剩余的堆栈调整必须是16的倍数。

因此，无论为数组分配多少内存vals，它必须向上舍入为 16 的倍数。执行此操作的标准方法是添加 15，然后与 -16 进行 AND 操作：adjusted = (orig + 15) & -16.

为什么这样有效？-16，由于二进制补码运算，低 4 位被清除，其他位被设置，因此 AND 与-16结果是 16 的倍数 - 但由于 AND 清除了低位，因此结果x & -16小于x;这是四舍五入down。如果我们先加上 15（当然，比 16 少 1），最终效果就是四舍五入up反而。添加 15 至orig会导致它通过 16 的倍数，然后& -16将向下舍入为that16的倍数。Unless orig已经是 16 的倍数了，在这种情况下orig+15向下舍入回到orig本身。所以这在所有情况下都是正确的。

这就是 GCC 从 8.1.0 开始所做的事情。加15烤成一样lea乘以n乘以 8，并与-16几行之后出现。

在这种情况下，由于orig = 8*n已经是 8 的倍数，除了 15 之外还有其他值也可以；例如 8（虽然不是 16，见下文）。但使用 15 在数学上以及代码大小和速度方面是完全等效的，并且由于无论先前的对齐方式如何，15 都可以工作，因此编译器作者可以无条件地使用 15，而无需编写额外的代码来跟踪什么对齐方式orig可能已经有了。

但像旧版 GCC 那样添加 22 显然是错误的。如果orig已经是 16 的倍数了orig = 32, then orig+22是 54，向下舍入为 48。但是 32 字节已经是一个完美的大小，所以我们无缘无故地浪费了 16 字节。（这里orig is 8*n所以如果输入的话就会发生这种情况n是偶数。）出于类似的原因，您使用 16 而不是 22 的建议也是错误的。

所以22是一个错误。这是一个相当小的错误；生成的代码仍然可以正常工作并符合 ABI，唯一的不良影响是有时会浪费一点堆栈空间。但它在 GCC 8.1.0 中被修复了题为“改善分配对齐”的提交 https://gcc.gnu.org/git/?p=gcc.git;a=commitdiff;h=ae85ad3a95d6df3c4131d02fd327809a29d10b33;hp=54c430044ba9a35a590e591108b184535eba5763. (alloca是一个执行动态堆栈分配的旧非标准函数，编译器编写者经常使用该术语来指代任何堆栈分配。）

显然，问题在于编译器之前的一些传递已确定需要将大小对齐到（至少）8 字节，这可以通过添加 7 并与 -8 进行 AND 运算来完成（稍后可能会在编译器后来意识到n*8已经对齐到 8 字节）。现在，当编译器意识到实际上需要 16 字节对齐时，这个约束应该是多余的，因为 16 的每个倍数都已经是 8 的倍数。但是编译器错误地adds偏移量 7 和 15，当正确的做法是取它们的最大值时（这就是提交所实现的）。 7 + 15 是... 22。

如果您使用 GCC 5.4 并关闭优化来编译代码，您可以看到这两个操作分别发生：

        lea     rdx, [rax+7]  ; add 7 to rax and write to rdx
        mov     eax, 16
        sub     rax, 1        ; now rax = 15
        add     rax, rdx      ; add 15 to rdx

当优化开启时，优化器将这些组合成一个 22 的加法 - 没有注意到 7 的加法一开始就不应该存在。在较新版本的 GCC 中-O0, the lea rdx, [rax+7]离开了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么GCC的VLA（可变长度数组）实现中有数字22？的相关文章

一种链接到类、方法，尤其是 C# 注释中的特定代码行的方法

我想使用代码中指向目标的链接来构建某种文档目标可以是Class or a Method或特定的代码行指向特定的代码行是最重要的我想到了VS2010的扩展或者特定的评论标签有什么办法可以建立这种类型的链接吗 xml注释沙堡可能就是你
预加载整个模型以估计 Tensorflow Serving 的内存消耗

当执行预测时 Tensorflow Serving 延迟初始化模型 DAG 中的节点这使得很难估计保存整个模型所需的内存 RAM 是否有一种标准方法可以强制 Tensorflow Serving 将模型完全初始化加载到内存中您可以使用
使用和重载基类的模板成员函数？

下面构造Y超载X的成员函数f 两个重载都是模板函数但采用不同的参数 typename and int 明确指定 struct X template
替换大字符串中的多个字符串的最快方法

我正在寻找替换大 1mb 字符串的多个 500 子字符串的最快方法无论我尝试过什么 String Replace 似乎都是最快的方法我只关心最快的方式不是代码的可读性可维护性等我不在乎是否需要使用不安全的代码或预处理原始字符串每
在 SelectSingleNode 中使用 XPath：从 XML 中检索单个元素（如果存在）

我的 XML 看起来像
我想要 Linux 上的 C 函数来收集核心转储而不终止进程

abort 确实收集核心转储但我不希望进程终止 dump core 收集核心转储但在内核空间中用户空间中是否有与 dump core 等效的函数自己做的一个简单方法是fork进程创建父进程的完整副本并调用abort来自子进程子
处理可选依赖项 (C#)

我们有一个可以选择与 TFS 集成的应用程序但是由于集成是可选的所以我显然不希望所有机器都需要 TFS 程序集作为要求我应该怎么办我是否可以在主程序集中引用 TFS 库并确保在使用 TFS 集成时仅引用 TFS 相关对象或者更
Unix 编程。不确定如何使用 passwd 结构

我做了一些研究但仍在努力解决passwd结构 http www opengroup org onlinepubs 000095399 basedefs pwd h html http www opengroup org onlinepub
在 UserControl C# .NET 中添加/停靠控件

我正在编写一个 UserControl 它以编程方式添加子控件目前我正在添加新的控件如下所示 this Controls Add new Control Height 16 Dock DockStyle Top 我遇到的问题是新控件添加
如何将值从 ASP.NET MVC 控制器传递到 MVC 视图内的 ASP.NET Webforms 控件？

我的 ASP NET MVC 方法并未跨越 ASP NET Web 窗体因此我很难理解如何更好地将值从 ASP NET MVC 控制器传递到 MVC 视图内的 ASP NET Webforms 脚本例如控制器动作 public Vie
为什么 VS 2008 在 Intellisense 中不显示 String 类的扩展方法

由于 String 实现了IEnumerable
WCF：通用接口的序列化可能吗？

我正在尝试实现一个服务契约其中包含一个采用通用接口的方法并且该通用接口本身被赋予一个接口参数我用 ServiceKnownType 装饰了服务接口用常规 KnownType 装饰了服务实现并用常规 KnownType 装饰了数据契
在 Silverlight 中调用 WCF 服务时使用 Observable.FromEvent

我正在尝试使用 NET Reactive Framework 来简化对我正在编写的 Silverlight 3 应用程序使用的 WCF 服务的一些异步调用问题是我很难找到一种有效的方式来构建我的代码毫无疑问部分问题是了解 Reacti
如何使用 SonarQube 的 C# 插件设置 FxCop 安装路径

我正在尝试使用 SonarQube C 插件分析 NET C 项目从C Plugin 3 0开始即使sonar project properties中的 sonar fxcop mode skip FxCop也会自动执行所以我将FxC
使用二维动态数组编写一个类

我有一个家庭作业我并不是在寻找任何人为我做这项工作我只是在一个小方面遇到了麻烦尽管我也接受其他方面的建议任务是使用二维动态数组编写一个类构造函数传入数组的维度构造函数还将动态数组中的所有值初始化为行索引乘以列索引交换二维数组
如何使用 Dictionary 属性序列化对象？

在下面的示例代码中我得到了这个error 元素 TestSerializeDictionary123 Customer CustomProperties 呕吐型 System Collections Generic Dictionary
我使用 difftime 的 c 函数有时会返回 65535

我有一个函数使用 difftime 来检测自通信心跳停止以来的时间以秒为单位该函数的运行速度可以达到每 50 毫秒一次该函数似乎可以工作除了偶尔返回 65535 之外我可以将执行次数减少到每秒一次因为 difftime 的返回
着色器可以旋转形状以面向相机吗？

我制作了一个球出现在 3D 空间中的场景三角球耗费大量资源所以我使用带有球纹理的二维表面四边形来完成此操作但现在我需要在每次相机移动时调整形状的方向我使用位置变换和 LookAt 方法来完成此操作问题是我可以优化这个吗如果可
C++ 中的 golang 风格“延迟”[重复]

这个问题在这里已经有答案了我正在阅读有关 go 语言的defer http blog golang org defer panic and recover陈述它允许您指定函数结束时要执行的操作例如如果您有一个文件指针或资源则只需指
使用 CRTP 模式时继承中的不明确方法

我正在定义一个DoubleWrapper类继承自两个 CRTP 基类 Ratioable and Divable 两者都定义operator 具有不同的签名 T operator double const scalar const retu

随机推荐

如何从 numpy ndarray 中删除特定值

我有一个 numpy ndarray 如下所示 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 225 224 228 163 164 174 205 212 229 116 130 153 81 101
使用 Prolog 解决脑筋急转弯（Master Mind）

一位工作中的朋友在我们的 Whatsapp 群组中分享了这一点这把锁有一个 3 位数的代码仅使用这些提示你能猜出来吗我们使用类似于真值表的东西解决了这个问题不过我很好奇在 Prolog 中如何解决这个问题直接编码check谓词
如何将整个向量复制到队列中？

我希望将向量的全部内容复制到 C 中的队列中这是一个内置函数还是有必要循环每个元素如果创建一个新队列可以使用构造函数 std vector
AWS Aurora MySQL 无服务器：如何从 MySQL Workbench 进行连接

我试图在我的项目中使用 AWS Aurora Serverless for MySQL 但我无法连接到它尽管我有端点用户名密码我做了什么从 AWS 控制台管理中我选择 RDS gt 实例 gt Aurora gt 无服务器保留
C# 中使用 XmlReader 读取 Xml

我试图尽可能快地读取以下 Xml 文档并让其他类管理每个子块的读取
就地修改字典值

我想将函数应用于 a 的值dict位于dict like map在函数式编程设置中假设我有这个dict d a 2 b 3 我想应用该功能divide by 2 0字典的所有值导致 d a 1 b 1 5 最简单的方法是什么 I use
自动引用 Microsoft.Data.Tools.Schema.Sql.UnitTesting

以下引用将自动添加到我的控制台应用程序项目中 Microsoft Data Tools Schema Sql UnitTesting dll Microsoft Data Tools Components dll 我的老板无法在他的机器
使用 VBA 编辑器创建 DLL

我的职位是全职编写 Visual Basic 宏来支持公司的多个部门我做得很好学到了很多东西也很喜欢我的职位我们正在制定未来的计划虽然我非常擅长搜索这些项目所需的信息堆栈溢出是一个很好的资源但我已经干了一些我已经做过的事情一直
为什么注销后点击页面后退按钮会显示上一页内容？

我正在开发一个 Struts 2 项目当用户点击一个logout按钮logout使用操作清除会话session clear 但是当用户点击back注销后浏览器中的按钮仍显示上一页内容我想将用户重定向到登录页面如果back注销后在浏览
Richfaces 列过滤器：如何在介绍键上触发事件

我有一个rich extendedDataTable我正在使用列过滤我希望一旦用户输入 intro 键就触发过滤器但在javascript中没有这样的事件我想这样做是因为如果我使用诸如onkeyup我收到了太多的请求因此遇到了问题
使用 mysql_free_result($result) 是一个好习惯吗？

我知道所有关联的结果内存都会在脚本执行结束时自动释放但是如果我使用了很多如下类似的操作您会建议使用它吗 sql select from products result mysql query sql if result mysql n
为什么要在 python 中使用类方法？ [复制]

这个问题在这里已经有答案了我正在 python 的某个类中编写一个函数人们建议我向这个函数添加一个 classmethod装饰师 My code import random class Randomize RANDOM CHOICE a
如何将表单数据从角度传递到nodejs

我是 Angular5 的新手我需要将用户详细信息从 Angular 传递到 Nodejs 应用程序组件 ts import Component from angular core import FormBuilder FormGroup
删除 MultiIndex 中带有重复项的 NaN 行

使用重现我的确切问题的 DataFrame 进行更新我有一个问题NaN出现在我的索引中会导致非唯一的行因为NaN NaN 我需要将所有行删除到NaN出现在索引中我之前的问题有一个示例 DataFrame 其中包含一个NaN行但是原始
Backbone.js 与 Eco 模板：如何在模板中包含模板？

是否可以在模板中包含模板也许类似于 ERB 处理部分的方式与其尝试以 ERB 之类的方式渲染嵌套模型不如让 Backbone js 来处理这个问题注意我使用的是 Coffeescript 语法项目 IndexView templ
如何将 Variant 数组转换为 Range？

我有一个 2D 数组类型Variant 填充数组的大小和值是根据工作表中的数据生成的该数组需要进一步处理主要是几个值的插值我正在用这个插值函数 http www ozgrid com forum showthread php t 64
vue合成api如何解决命名冲突？

据说composition api解决了mixin带来的命名冲突这是我在网上找到的关于composition API的内容 export default setup const someVar1 someMethod1 useCompFu
Android - 使用 PackageInstaller 和 PackageInstaller.Session 静默安装 APK

调查Android AOSP 的来源 installPackage被标记为已弃用并检查 Android 的 PackageManager 应用程序它使用PackageInstaller类来创建一个PackageInstaller Sess
为什么GCC的VLA（可变长度数组）实现中有数字22？

int read val long read and process int n long vals n for int i 0 i lt n i vals i read val return vals n 1 x86 64 GCC 5 4

为什么GCC的VLA（可变长度数组）实现中有数字22？

为什么GCC的VLA（可变长度数组）实现中有数字22？ 的相关文章

随机推荐

热门标签

为什么GCC的VLA（可变长度数组）实现中有数字22？的相关文章