x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？

2024-03-14

当查看 Visual Studio (2015U2) 生成的程序集时/O2（发布）模式我看到这段“手工优化”的 C 代码被翻译回乘法：

int64_t calc(int64_t a) {
  return (a << 6) + (a << 16) - a;
}

集会：

  imul        rdx,qword ptr [a],1003Fh

所以我想知道这是否真的比按照编写的方式执行要快，例如：

  mov         rbx,qword ptr [a]  
  mov         rax,rbx  
  shl         rax,6  
  mov         rcx,rbx  
  shl         rcx,10h  
  add         rax,rcx  
  sub         rax,rbx

我一直有这样的印象：乘法总是比几次移位/加法慢？现代 Intel x86_64 处理器不再是这种情况了吗？

没错，现代 x86 CPU（尤其是 Intel）具有非常高性能的乘法器。
imul r, r/m and imul r, r/m, imm在 Intel SnB 系列和 AMD Ryzen 上，两者都是 3 个周期延迟，每 1c 吞吐量一个周期延迟，即使对于 64 位操作数大小也是如此。

在 AMD Bulldozer 系列上，延迟为 4c 或 6c，每 2c 延迟 1 次或每 4c 吞吐量 1 次。（64 位操作数大小的速度较慢）。

数据来自Agner Fog 的说明书 http://agner.org/optimize/。另请参阅中的其他内容x86 /questions/tagged/x86标签维基。

现代 CPU 中的晶体管预算相当庞大，并允许以如此低的延迟执行 64 位乘法所需的硬件并行量。（这需要一个lot加法器的数量 https://en.wikipedia.org/wiki/Dadda_multiplier做一个大快速乘法器 https://en.wikipedia.org/wiki/Binary_multiplier#Implementations. 现代 X86 处理器实际上如何计算乘法？ https://stackoverflow.com/questions/26370287/how-modern-x86-processors-actually-compute-multiplications/62117473#62117473).

受到功率预算而不是晶体管预算的限制，意味着可以为许多不同的功能提供专用硬件，只要它们不能同时切换（https://en.wikipedia.org/wiki/Dark_silicon https://en.wikipedia.org/wiki/Dark_silicon）。例如你不能饱和pext/pdep单元、整数乘法器和向量 FMA 单元同时在 Intel CPU 上运行，因为它们中的许多单元位于相同的执行端口上。

有趣的事实：imul r64也是 3c，因此您可以在 3 个周期内获得完整的 64*64 => 128b 乘法结果。imul r32不过，是 4c 延迟和额外的 uop。我的猜测是，额外的微操作/周期将常规 64 位乘法器的 64 位结果分成两个 32 位一半。

编译器通常会针对延迟进行优化，并且通常不知道如何优化短的独立依赖链以提高吞吐量，而不是优化延迟瓶颈的长循环承载依赖链。

gcc 和 clang3.8 及更高版本最多使用两个LEA指令而不是imul r, r/m, imm。我认为 gcc 会使用imul如果替代方案是 3 个或更多指令（不包括mov），尽管。

这是一个合理的调整选择，因为 3 指令 dep 链的长度与imul关于英特尔。使用两条 1 周期指令会花费额外的 uop，将延迟缩短 1 周期。

clang3.7 及更早版本往往受到青睐imul只需要单个 LEA 或移位的乘法器除外。因此，clang 最近改为针对延迟进行优化，而不是针对乘以小常数的吞吐量进行优化。（或者可能是出于其他原因，例如不与仅与乘法器位于同一端口上的其他事物竞争。）

e.g. Godbolt 编译器浏览器上的这段代码 http://gcc.godbolt.org/#compilers:!((compiler:g6,options:'-xc+-std%3Dgnu11+-Wall+-Wextra+-fverbose-asm+-O3+-march%3Dhaswell',source:'int+foo+(int+a)+%7B+return+a+*+63%3B+%7D')),filterAsm:(commentOnly:!t,directives:!t,intel:!t,labels:!t),version:3:

int foo (int a) { return a * 63; }
    # gcc 6.1 -O3 -march=haswell (and clang actually does the same here)
    mov     eax, edi  # tmp91, a
    sal     eax, 6    # tmp91,
    sub     eax, edi  # tmp92, a
    ret

clang3.8 及更高版本生成相同的代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？的相关文章

在Python中为什么ifrank：比ifrank！= 0更快：

当我改变的时候 for i in range 0 100 rank ranks i if rank 0 pass to for i in range 0 100 rank ranks i if rank pass 我发现第二个代码效率更高
MSMQ 慢速队列读取

我正在使用一个开源 Net 库它在底层使用 MSMQ 大约一两周后服务速度变慢时间不准确但一般猜测看来发生的情况是来自 MSMQ 的消息每 10 秒才被读取一次通常它们会立即被读取因此它们将在 T 10 秒 T 20 秒
为什么比较匹配的字符串比比较不匹配的字符串更快？ [复制]

这个问题在这里已经有答案了这里有两个测量值 timeit timeit toto 1234 number 100000000 1 8320042459999968 timeit timeit toto toto number 100000
内容长度标头与分块编码

我正在尝试权衡设置的利弊Content LengthHTTP 标头与使用分块编码从我的服务器返回可能大文件的比较使用持久连接需要其中之一来符合 HTTP 1 1 规范我看到了的优点Content Length标头是下载对话框可以显
JMeter：tearDown Thread Group的目的是什么

我想了解JMeter中tearDown Thread Group的实际用法在什么场景下可以使用tearDown Thread Group 根据提供的帮助JMeter 拆解线程组 http jmeter apache org userman
如何提高QNX6下Eclipse IDE的性能

我们在 VMWare 环境中通过 QNX6 运行 Eclipse 速度非常慢 Eclipse 是这样启动的 usr qnx630 host qnx6 x86 usr qde eclipse eclipse data root workspa
Python：多重分配与单独分配速度

我一直在寻求从我的代码中挤出更多的性能最近在浏览时这个 Python 维基页面 https wiki python org moin PythonSpeed 我发现了这个说法多重分配比单独分配慢例如 x y a b 比 x a y
PrintStream是有缓冲的，但是flush不会降低性能，而BufferedOutputStream会加速性能

我预计由于 PrintStream 是缓冲的通过在每次 print 之后添加刷新操作速度性能应该会显着降低但事实并非如此如下面的代码片段所示此外将 PrintStream 包裹在 BufferedOutputStream 周围可
有没有办法使用 i387 fsqrt 指令获得正确的舍入？

有没有办法使用 i387 fsqrt 指令获得正确的舍入除了改变精确模式在 x87 控制字中我知道这是可能的但这不是一个合理的解决方案因为它存在令人讨厌的重入型问题如果 sqrt 操作中断精度模式将出错我正在处理的问题如下 x
“rep stos”x86 汇编指令序列有什么作用？

我最近偶然发现了以下汇编指令序列 rep stos dword ptr edi For ecx重复存储内容eax到哪里edi指向递增或递减edi 取决于方向标志每次 4 个字节通常这用于memset型操作通常该指令简单地写成r
如何知道寄存器是否是“通用寄存器”？

我试图了解寄存器必须具备什么标准才能被称为通用寄存器我相信通用寄存器是一个可以用于任何用途的寄存器用于计算将数据移入移出等并且是一个没有特殊用途的寄存器现在我读到了ESP寄存器是通用寄存器我猜是ESP寄存器可以用于任何事情
更改二维数组元素的值会更改整个列

当我打印我的arrvalue 我得到了 2D 数组的正确值但是当我退出 while 循环时我的值都是错误的我不确定我做错了什么 num runs n 4 x np linspace 1 1 n y np linspace 1 1 n
AVX-512CD（冲突检测）与原子变量访问有何不同？

所以我在看他们展示了如何 void Histogram const float age int const hist const int n const float group width const int m const float o
访问特征矩阵的行向量时复制或引用

我正在使用的代码Eigen http eigen tuxfamily org index php title Main Page矩阵库我注意到在整个代码中有如下访问器 RowVector3f V size t vertex index
php字符串是值类型吗？

为什么php的string是值类型每次将参数传递给函数时每次进行赋值时每次连接都会导致字符串被复制时它都会被复制到各处我的 NET 经验告诉我它似乎效率低下迫使我几乎在任何地方都使用引用考虑以下替代方案替代方案1 This
CPU寄存器和多任务处理

我目前正在学习汇编我很困惑 CPU 寄存器如何与多任务一起工作所以在多任务系统中 CPU可以随时暂停某个程序的执行并运行另一个程序那么在这一步中寄存器值是如何保存的呢寄存器是压入堆栈还是以其他方式 CPU 寄存器如何与多任务一起工作
我应该增强客户端上的 Jquery Mobile 元素还是发送带有 data-enhance="false" 的增强标记？

我有一个产品搜索我正在发送回结果每个结果都包含两个按钮 JQM 控制组我一次发送 24 条记录因此需要增强 24 个控制组如下所示 div class submitButton linkBox div
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
展开 std::reference_wrapper 的成本

Given include
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu

随机推荐

在 Qt Quick 中从 ListView 制作自定义 TableView 的规范方法

制作桌子的最佳方法是什么ListView 假设给定一个二维字符串数组并且delegate因为所有列都是Labels 仅使用 QML 时如何以及何时计算每列的最大项目宽度各内容Label不是恒定的即implicitWidth在生命周期中是
为什么我的服务总是绑定到 ipv6 localhost 而不是 ipv4？

我有一个创建 ServerSocket 并绑定到的服务localhost 7060 当我在 Android 设备上执行 netstat an 时我看到它使用 ipV6 localhost 而不是 ipv4 localhost 接口输出是
Golang - 如何将 XML 文件的一部分提取为字符串？

我的 XML 看起来像这样 a b b a
使用 Automapper 中的 Profiles 将相同类型映射到不同逻辑

我在 ASP NET MVC 网站中使用 AutoMapper 将数据库对象映射到 ViewModel 对象并且尝试使用多个配置文件来映射相同的类型但使用另一种逻辑我有通过阅读来做到这一点的想法马特的博客文章 http mhinze
将目录拆分为子模块

我在这里进行了很好的搜索但似乎没有任何东西可以回答我的问题所以就这样吧我有一个具有当前文件夹结构的 git 存储库 app folder app folder2 app bundles bundle1 app bundles bund
如何使用 Python 查找 Windows 通用应用程序数据文件夹？

我希望我的应用程序存储一些数据以供所有用户访问使用Python 我怎样才能找到数据应该去哪里如果您不想添加像 winpaths 这样的第三方模块的依赖项我建议使用 Windows 中已有的环境变量 Windows 中有哪些可用的环境变
根据某些条件登录到不同的文件

我们有一个应用程序其中我们有一个条件根据条件如果条件为真那么我们会将一些日志消息写入一个文件否则我们会将消息记录到另一个文件并且日志记录应该根据条件而不是根据日志级别进行 dropwizard 如何使用 yaml 文件这是开箱
什么是 __NSArrayI 和 __NSArrayM？如何转换为NSArray？

什么是 NSArrayI 和 NSArrayM NSArrayI 或M 导致无法识别的选择器错误如何转换为NSArray 我做了测试来解析 json twitter api gt 工作正常解析的对象是 NSCFDictionary
用于删除 unbox_any 的抖动逻辑

我正在调查此 C 代码的执行 public static void Test
想要将网站密码加密从 SHA1 转换为 SHA256

只是寻求一些建议我有一个大约有 2500 名用户的网站规模虽小但正在不断增长我通过对密码使用 SHA1 加密来构建它我已经了解到 SHA1 是不安全的并且想更改为带有盐的 SHA256 有人对如何进行这样的过渡有任何建议吗如果我
H2O 和 Scikit-Learn 指标评分之间有什么区别吗？

我尝试使用H2O创建一些用于二元分类问题的机器学习模型测试结果非常好但后来我查了一下发现了一些奇怪的事情出于好奇我尝试打印测试集模型的预测我发现我的模型实际上一直预测为 0 负但 AUC 在 0 65 左右并且精度不是 0
Rails 7 注册表单不显示错误消息

我正在关注一个导轨教程 https www learnenough com ruby on rails 6th edition tutorial sign up sec signup form 在注册表单中如果提交了无效的用户信息注册页
如何向“ng-disabled”添加多个条件？

我需要检查两个条件bothtrue 在启用按钮之前这是一个例子
将子 DIV 拉伸到父级的高度（没有硬编码高度）

我有一个父级 DIV 和一个子级 DIV 我希望将其拉伸到父级的底部目前还没有尽管有height auto important 可以看到说明问题的屏幕截图here https i stack imgur com bJ4qt jpg 相关
将选择的 GFS-ensemble openDAP 数据加载到内存中 (Python)

我想通过 netCDF 和 xarray 从 OpenDAP 服务器下载 GFS 集合数据的子选择但是当尝试将子选择加载到内存中时程序会在一段时间后崩溃并返回 RuntimeError netCDF I O 故障我希望获取的数据点数
pylint 警告“例外：”

对于这样的块 try some stuff except Exception pass pylint 引发警告 W0703 捕获异常为什么通常不捕获根 Exception 对象而是捕获更具体的对象例如 IOException 这被
numpy 二进制光栅图像到多边形转换

我想将 2d numpy 数组转换为多边形性能对我来说非常重要但我想避免进行 C 扩展可以通过腐蚀来制作二值轮廓图像然后我发现this https stackoverflow com questions 6282462 conver
不再需要视图时取消事件委托的最佳方法

打电话是一种不好的做法吗undelegateEvents 在视图中remove 方法为什么骨干人员没有默认包含它我意识到当简单地重新初始化视图变量时我陷入了很多绑定问题虽然undelegateEvents 创建新视图时会自动调用
.Net 4.0 JSON序列化：双引号改为\"

我正在使用 System Web Script Serialization JavaScriptSerializer 将字典对象序列化为 JSON 字符串我需要将此 JSON 字符串发送到云端的 API 但是当我们序列化它时序列化程序
x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？

当查看 Visual Studio 2015U2 生成的程序集时 O2 发布模式我看到这段手工优化的 C 代码被翻译回乘法 int64 t calc int64 t a return a lt lt 6 a lt lt 16 a 集会

x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？

x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？ 的相关文章

随机推荐

热门标签

x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？的相关文章