在 x86-64 中使用 32 位寄存器/指令的优点

2024-04-02

有时 gcc 使用 32 位寄存器，而我希望它使用 64 位寄存器。例如以下 C 代码：

unsigned long long 
div(unsigned long long a, unsigned long long b){
    return a/b;
}

使用 -O2 选项编译（省略一些样板内容）：

div:
    movq    %rdi, %rax
    xorl    %edx, %edx
    divq    %rsi
    ret

对于无符号除法，寄存器%rdx需要是0。这可以通过以下方式实现xorq %rdx, %rdx, but xorl %edx, %edx似乎有同样的效果。

至少在我的机器上没有性能增益（即加速）xorl over xorq.

我其实有不止一个问题：

为什么gcc更喜欢32位版本？
为什么 gcc 停止在xorl并且不使用xorw?
是否有机器xorl比xorq?
如果可能的话，人们是否应该总是选择 32 位寄存器/操作而不是 64 位寄存器/操作？

为什么gcc更喜欢32位版本？

主要是代码大小：机器代码编码中不需要 REX 前缀。

为什么 gcc 停止在xorl并且不使用xorw?

写入 8 位或 16 位部分寄存器不会零扩展到寄存器的其余部分。（仅写入 32 位寄存器隐式零扩展到 64 https://stackoverflow.com/questions/11177137/why-do-x86-64-instructions-on-32-bit-registers-zero-the-upper-part-of-the-full-6)

除了，xorw需要一个操作数大小前缀来编码，所以它的大小与xorq，比大xorl. 32 位操作数大小是 x86-64 机器代码中的默认值，不需要前缀。（对于大多数指令；一些指令如push/pop and call/jmp默认为 64 位，包括内存间接call [rdi] = ff 17与内存中的指针。）8 位操作数大小使用单独的操作码，而不是前缀，但仍然可能存在部分寄存器损失。

也可以看看为什么 GCC 不使用部分寄存器？ https://stackoverflow.com/questions/41573502/why-doesnt-gcc-use-partial-registers32位寄存器是not被视为部分寄存器，因为写入它们总是写入整个 64 位寄存器。（主要问题是写入部分寄存器，而不是在全角写入后读取它们。）

是否存在 xorl 比 xorq 更快的机器？

是的，Silvermont / KNL 只承认xor-zeroing 作为归零惯用语 https://stackoverflow.com/questions/33666617/what-is-the-best-way-to-set-a-register-to-zero-in-x86-assembly-xor-mov-or-and（依赖关系破坏，以及其他好东西）具有 32 位操作数大小。因此，即使代码大小相同，xor %r10d, %r10d比xor %r10, %r10. (xor需要 REX 前缀r10无论操作数大小）。

On all CPUs, code size always potentially matters for decode and I-cache footprint (except when a later .p2align directive would just make more padding if the preceding code is smaller¹). There's no downside to using 32-bit operand size for xor-zeroing (or to implicit zero-extending in general instead of explict², including using AVX vpxor xmm0,xmm0,xmm0 to zero AVX512 zmm0 https://stackoverflow.com/questions/43713273/is-vxorps-zeroing-on-amd-jaguar-bulldozer-zen-faster-with-xmm-registers-than-ymm.)

大多数指令对于所有操作数大小都具有相同的速度，因为现代 x86 CPU 可以承担宽 ALU 的晶体管预算。例外情况包括imul r64,r64慢于imul r32,r32在 Ryzen 之前的 AMD CPU 和 Intel Atom 上 https://stackoverflow.com/questions/37925143/x86-64-is-imul-faster-than-2x-shl-2x-add/37925245#37925245和 64 位div所有 CPU 上的速度都明显变慢。 AMD Ryzen 之前的版本速度较慢popcnt r64。 Atom/Silvermont 速度慢shld/shrd r64 vs. r32。主流Intel（Skylake等）速度较慢bswap r64.

如果可能的话，人们是否应该总是选择 32 位寄存器/操作而不是 64 位寄存器/操作？

是的，至少出于代码大小的原因更喜欢 32 位操作，但请注意，在指令中的任何位置（包括寻址模式）使用 r8..r15 也需要 REX 前缀。因此，如果您有一些数据，您可以使用 32 位操作数大小（或指向 8/16/32 位数据的指针），最好将其保留在低 8 个命名寄存器（e/rax..）中，而不是高位8 个编号寄存器。

但不要花费额外的指令来实现这一点；节省几个字节的代码大小通常是最不重要的考虑因素。例如只需使用r8d而不是保存/恢复rbx所以你可以使用ebx如果您需要一个不必调用保留的额外寄存器。使用 32 位r8d而不是 64 位r8对代码大小没有帮助，但对于某些 CPU 上的某些操作来说它可能会更快（见上文）。

这也适用于您只关心寄存器的低 16 位的情况，但使用 32 位加法而不是 16 位仍然会更有效 https://stackoverflow.com/questions/34377711/which-2s-complement-integer-operations-can-be-used-without-zeroing-high-bits-in.

也可以看看http://agner.org/optimize/ http://agner.org/optimize/和x86 /questions/tagged/x86标签维基。

脚注1：极少数情况下指令的长度会超过必要的长度（可以使用哪些方法来有效地扩展现代 x86 上的指令长度？ https://stackoverflow.com/questions/48046814/what-methods-can-be-used-to-efficiently-extend-instruction-length-on-modern-x86)

无需 NOP 即可对齐稍后的分支目标。
针对特定微架构的前端进行调整（即通过控制指令边界的位置来优化解码）。插入 NOP 会消耗额外的前端带宽并完全达不到目的。

汇编程序不会为您执行此操作，并且每次更改任何内容时都要手动执行此操作非常耗时（并且您可能必须使用.byte手动编码指令的指令）。

脚注2：我发现隐式零扩展至少与更广泛的操作一样便宜这一规则的一个例外：由 256 位指令读取的 Haswell/Skylake AVX 128 位负载有额外的 1c 存储转发延迟与被 128 位指令消耗相比。（细节在 Agner Fog 的博客论坛上的一个帖子中 http://www.agner.org/optimize/blog/read.php?i=415#854.)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 x86-64 中使用 32 位寄存器/指令的优点的相关文章

如何知道寄存器是否是“通用寄存器”？

我试图了解寄存器必须具备什么标准才能被称为通用寄存器我相信通用寄存器是一个可以用于任何用途的寄存器用于计算将数据移入移出等并且是一个没有特殊用途的寄存器现在我读到了ESP寄存器是通用寄存器我猜是ESP寄存器可以用于任何事情
错误：“std::this_thread”尚未声明

我尝试使用 std this thread sleep for 函数但收到错误 error std this thread has not been declared 包括标志 GLIBCXX USE NANOSLEEP 还需要什么来强制它
代码块 - 使用大地址感知标志进行编译

如何使用以下命令在 64 位系统上编译 32 位应用程序LARGE ADRESS AWARE使用代码块标记我需要使用超过 2GB 的内存应该是添加的情况 Wl large address aware到链接标志我不使用 CodeBloc
如何在 Debian 上编译 DOS 程序？

在我的汇编语言课程中我们使用 DPMI 编写 DOS 程序不幸的是我无法一直使用 32 位 Windows 机器我在我使用的几乎每台计算机上都安装了 Debian 虚拟机我已经安装了 DOSBox 和 DOSEMU 有什么办法可以
“mov (%ebx,%eax,4),%eax”如何工作？ [复制]

这个问题在这里已经有答案了一直在从事装配作业并且在很大程度上我对装配非常了解或者至少对于这项任务来说足够好但这个 mov 的声明让我很困惑如果有人能解释这个 mov 语句如何操作寄存器值我将非常感激 mov ebx eax 4
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
错误：“uint16_t”未声明？ [复制]

这个问题在这里已经有答案了我有代码 include
为什么这个未使用的变量没有被优化掉？

我使用了 Godbolt 的 CompilerExplorer 我想看看某些优化有多好我的最小工作示例是 include
'goto *foo' 其中 foo 不是指针。这是什么？

我正在玩标签作为值 https gcc gnu org onlinedocs gcc Labels as Values html并最终得到这段代码 int foo 0 goto foo 我的 C C 经验告诉我 foo means dere
带有适用于 MS-Windows 的工具链的预构建 MIPS 交叉编译器

我在我的 Linux 机器上使用 MIPS 交叉编译器效果很好现在我需要在 Windows 上编译相同的应用程序我正在网上搜索一些适用于 MS Windows 的预构建 MIPS 交叉编译器带有工具链但没有成功由于我不确定该怎么
INT_MIN % -1 是否会产生未定义的行为？

gcc 生成浮动代码引发SIGFPE对于以下代码 include
CPU Relax 指令和 C++11 原语

我注意到许多使用特定于操作系统的原语实现的无锁算法例如所描述的自旋锁here http locklessinc com articles locks 使用 Linux 特定的原子原语经常使用 cpurelax 指令使用 GCC 可以通
std::类似向量的类经过优化以容纳少量项目[重复]

这个问题在这里已经有答案了在程序的一个时间关键部分中有一个类成员如下所示 std vector m vLinks 在分析过程中我注意到该向量大约 99 98 的执行仅包含 0 或 1 个项目然而在极少数情况下它可能会容纳更多根
这个反斜杠在这段汇编代码中起什么作用？

我不确定这些推线有什么区别修剪下来来自 Linux 的 x86 entry calling h https github com torvalds linux blob 241e39004581475b2802cd63c111fec43b
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
编译器如何实现位域运算？

当询问如何做的问题时包裹 N 位有符号减法 https stackoverflow com questions 8309538 integer subtraction with wrap around for n bits我得到了以下答案
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
长多字节 NOP：通常理解的宏或其他符号

x86 和 x86 64 处理器不仅具有单字节这不是什么大秘密NOP指令还包括各种类型的多字节类 NOP 指令这些是我设法找到的 AMD 推荐参考 AMD 系列 15h 处理器的 AMD 软件优化指南文档 47414 http s

随机推荐

如何更快地解决欧拉项目#21？

原始问题令 d n 定义为 n 的真因数之和小于 n 的数能被 n 整除如果 d a b 且 d b a 其中 a b 则 a 和 b 是友好对并且 a 和 b 中的每一个称为友好数例如 220的真因数是1 2 4 5 10 11
iphone uipickerview：图像和文本

是否可以在文本旁边添加图像如图标 UIPickerView 我看到的例子UIPickerViews有两列一列有图像另一列有文本这不是我需要的我需要一个包含文本和图像的列 Thanks 您需要为选择器的每一行创建自己的视图如果只是
将 python 模块添加到 AzureML 工作区

我最近一直致力于将机器学习模型部署为 Web 服务我使用 Azure 机器学习工作室创建自己的工作区 ID 和授权令牌然后我训练了 LogisticRegressionCV 模型sklearn 线性模型在我的机器本地使用 pytho
地理距离 MySQL

要搜索距给定位置最近的位置请按距离排序我应该使用浮动还是点我应该预先计算 cos sin sqrt 的值吗http www movable type co uk scripts latlong db html http www mov
如何获取UIBarButtonItem中心位置

我正在做一些自定义视图控制器转换我希望我的转换从按下的按钮的中心开始 For UIButton我可以 myCustomTransition startingPoint buttonPressed center 但如果我想使用UIBarBu
性别表标准化是否太过分了？

我不是数据库专家但我正在尝试清理另一个数据库所以我的问题是性别表正常化会不会太过分了 User table userid int pk genderid char 1 fk etc gender table genderid char
在jframe中创建java的正方形，矩形，三角形[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 Java 问题据我了解无法在 Java 中绘制几何图形代码和以下内容您可以帮助我吗这是代码 public class
Primefaces 在 onComplete/onClick 上运行 java 脚本

我有一个 p command 按钮如下所示
在 Javascript 中通过 JSON 获取单个视频（而非 feed）的 Youtube 信息

所以我试图通过 JSON 格式从单个 YouTube 视频中获取信息比如标题描述类别等等除了评论之外我能得到的任何东西我正在尝试用 JavaScript 来做到这一点我注意到下面的链接但他们的所有示例都是如何从提要中获取视频信息
Android 8 通知设置声音不起作用

我有以下代码但每次我只听到默认的 android 声音 create channel NotificationChannel channel new NotificationChannel ANDROID CHANNEL ID ANDRO
如何异步加载场景以便获得加载屏幕？

我的场景加载可能需要一段时间并且我希望能够显示加载动画但是一切都锁定了有没有办法异步加载下一个场景并在准备好时获取回调您可以使用以下命令安排并发执行块异步调度 https developer apple com library m
文本（字体）在旧版 api 上看起来褪色

我正在使用自定义字体它在较新的 Android 版本上完美显示在 API 17 Asus 选项卡 18 Dell 选项卡 19 Nex4 设备上测试然而相同的字体在旧版本 API 8 SE X10i 10 LG P500H 上看起来
如何检查 UI 事件（例如单击按钮）后是否发生刷新页面事件

得到以下代码 driver findElement By id input search click driver findElement By id input search clear if lower3 true read a lin
networkx 边到节点节点到边表示

有一个图 G e v 有 N 个节点和 M 个边它的距离矩阵D是一个NxN矩阵现在让我们想象一下该图的另一种表示形式G e v v e 即 G 中的节点 v 实际上是图 G 中的边保持连通性相同现在它的距离矩阵 D 是 MxM Ne
Azure Ad 作为 keycloak 中的 OIDC 身份提供程序，但随机 UUId 被添加为 IDP“userid”，并且无法与现有用户同步

我已使用 azure ad 配置 keycloak 作为 OIDC 身份提供商当我从我的网络应用程序登录时我会重定向到微软登录页面登录后我看到我被自动添加为 keycloak 中的用户我看到 keycloak 使用特定的身份提供者
如何在 ruby/rails 中合并两个列表并删除重复项？

我有一个源对象其中 class Source def other return false if self url nil other nil self url other url end 我有以下内容 def self merge in
x86 TEST 指令不起作用？

我一直在用头撞墙来解决这个问题但这对我来说毫无意义为什么这个程序会进入死循环我以为你可以用test比较两个值是否相等如图所示here https stackoverflow com questions 6002079 为什么不起作用
MySQL 因表中的文本字段较大而运行缓慢

我们在 MySQL 以及 MariaDB 方面遇到了一个奇怪的问题一个简单的数据库有 2 个表 InnoDB 引擎两个表都包含以及其他一些 3 或 4 个文本列其中 XML 数据大约为 10 个大小1 5kB 每个表大约有 40
谷歌登录auth2自定义范围没有openid

我想自定义范围以仅允许电子邮件和个人资料没有 openid 因为我想让它只要求访问电子邮件和基本个人资料信息我尝试使用元来做到这一点或js gapi auth2 init client id xxxxxxxxx apps goo
在 x86-64 中使用 32 位寄存器/指令的优点

有时 gcc 使用 32 位寄存器而我希望它使用 64 位寄存器例如以下 C 代码 unsigned long long div unsigned long long a unsigned long long b return a b

在 x86-64 中使用 32 位寄存器/指令的优点

在 x86-64 中使用 32 位寄存器/指令的优点 的相关文章

随机推荐

热门标签

在 x86-64 中使用 32 位寄存器/指令的优点的相关文章