如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？

2023-11-24

如何告诉 MSVC 编译器使用 64 位/32 位除法运算来计算 x86-64 目标的以下函数的结果：

#include <stdint.h> 

uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
  if (a > b)
        return ((uint64_t)b<<32) / a;   //Yes, this must be casted because the result of b<<32 is undefined
  else
        return uint32_t(-1);
}

我想要代码，当if陈述正确，编译以使用 64 位/32 位除法运算，例如像这样的东西：

; Assume arguments on entry are: Dividend in EDX, Divisor in ECX
mov edx, edx  ;A dummy instruction to indicate that the dividend is already where it is supposed to be
xor eax,eax
div ecx   ; EAX = EDX:EAX / ECX

...但是x64 MSVC编译器坚持使用128位/64位div指令，例如：

mov     eax, edx
xor     edx, edx
shl     rax, 32                             ; Scale up the dividend
mov     ecx, ecx
div rcx   ;RAX = RDX:RAX / RCX

See: https://www.godbolt.org/z/VBK4R71

根据答案这个问题, 128位/64位div指令是不更快比 64 位/32 位div操作说明。

这是一个问题，因为它不必要地减慢了我的 DSP 算法，而该算法会产生数百万个这样的缩放除法。

我通过修补可执行文件以使用 64 位/32 位 div 指令来测试此优化：性能提升28%根据产生的两个时间戳rdtsc指示。

（编者注：大概是在最近的一些 Intel CPU 上。AMD CPU 不需要这种微优化，如链接的问答中所述。）

当前的编译器（gcc/clang/ICC/MSVC）不会从可移植的 ISO C 源代码中进行此优化，即使您让他们证明这一点b < a所以商将适合 32 位。（例如使用 GNU Cif(b>=a) __builtin_unreachable(); 在戈德螺栓上）。这是一个错过的优化；在这个问题得到解决之前，您必须使用内在函数或内联汇编来解决它。

（或者使用 GPU 或 SIMD 代替；如果许多元素具有相同的除数，请参见https://libdivide.com/用于 SIMD 计算一次乘法逆元并重复应用它。）

_udiv64可用从 Visual Studio 2019 RTM 开始。

在 C 模式下（-TC）它显然总是被定义的。在C++模式下，你需要#include <immintrin.h>，根据 Microsoft 文档。或者intrin.h.

https://godbolt.org/z/vVZ25L (Or on Godbolt.ms because recent MSVC on the main Godbolt site is not working¹.)

#include <stdint.h>
#include <immintrin.h>       // defines the prototype

// pre-condition: a > b else 64/32-bit division overflows
uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
    uint32_t remainder;
    uint64_t d = ((uint64_t) b) << 32;
    return _udiv64(d, a, &remainder);
}

int main() {
    uint32_t c = ScaledDiv(5, 4);
    return c;
}

_udiv64 将产生 64/32 div。左右两移是一个错过的优化。

;; MSVC 19.20 -O2 -TC
a$ = 8
b$ = 16
ScaledDiv PROC                                      ; COMDAT
        mov     edx, edx
        shl     rdx, 32                             ; 00000020H
        mov     rax, rdx
        shr     rdx, 32                             ; 00000020H
        div     ecx
        ret     0
ScaledDiv ENDP

main    PROC                                            ; COMDAT
        xor     eax, eax
        mov     edx, 4
        mov     ecx, 5
        div     ecx
        ret     0
main    ENDP

所以我们可以看到 MSVC 并没有通过_udiv64，即使在这种情况下它不会溢出并且它可以编译main只是mov eax, 0ccccccccH / ret.

更新#2 https://godbolt.org/z/n3Dyp-添加了使用英特尔 C++ 编译器的解决方案，但这效率较低，并且会破坏常量传播，因为它是内联汇编。

#include <stdio.h>
#include <stdint.h>

__declspec(regcall, naked) uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
    __asm mov edx, eax
    __asm xor eax, eax
    __asm div ecx
    __asm ret
    // implicit return of EAX is supported by MSVC, and hopefully ICC
    // even when inlining + optimizing
}

int main()
{
    uint32_t a = 3 , b = 4, c = ScaledDiv(a, b);
    printf( "(%u << 32) / %u = %u\n", a, b, c);
    uint32_t d = ((uint64_t)a << 32) / b;
    printf( "(%u << 32) / %u = %u\n", a, b, d);
    return c != d;
}

脚注 1：Matt Godbolt 的主站点的非 WINE MSVC 编译器暂时（？）消失了。微软运行https://www.godbolt.ms/在真实 Windows 上托管最新的 MSVC 编译器，并且通常主要的 Godbolt.org 站点会转发到 MSVC 的站点。）

看来godbolt.ms会生成短链接，但不会再次扩展它们！无论如何，完整链接更好地抵抗链接腐烂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？的相关文章

线程独占数据：如何存储和访问？

NET 中是否有可能将对象实例绑定到线程的当前执行上下文这样在代码的任何部分我都可以做类似的事情CurrentThread MyObjectData DoOperation 并确保我访问特定于线程的数据谢谢你可以看一下线程静态属性 h
如何创建语法突出显示文本框[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何使用 C Net 创建语法突出显示文本框 Take 闪烁网 http scintillanet codeplex com 并采取其
为什么使用数组索引循环数组比指针访问慢？

我正在读Kochan的书 Programming in C 在第 14 页的指针和数组部分中 264 他说一般来说索引数组的过程比执行索引过程花费更多的时间访问指针内容的过程其实这也是主要原因之一为什么使用指针来访问数组的元素
OpenCV SVM 给出奇怪的预测结果

我对 OpenCV 和支持向量机都很陌生我想使用 SVM 训练具有两个标签的数据集然后预测给定集合的标签我当前的集合包含大约 600 行具有相等的类分布 1 为 300 行 1 为 300 行包含 34 列这是我当前用于设置 O
C++：字符串流有什么好处？

谁能告诉我一些在 C 中使用字符串流的实际例子即使用流插入和流提取运算符输入和输出到字符串流您可以使用字符串流来转换任何实现operator lt lt 到一个字符串 include
.NET 中的 Class.forName() 等效项？

动态获取对象类型然后创建它的新实例的 C 方法是什么例如如何在 C 中实现以下 Java 代码的结果 MyClass x MyClass Class forName classes MyChildClass newInstance Lo
析构函数与成员函数竞赛

当我在析构函数内时其他线程是否可能开始执行对象的成员函数遇到这种情况该如何处理呢 C 没有内在的保护来防止在删除对象后使用它忘记竞争条件另一个线程可以在完全删除你的对象后使用你的对象 Either 确保只有一个位置代码拥有该对象
我如何知道向量的实际最大大小？（不使用 std::vector::max_size）

在在线课程中我正在学习向量在其中一个例子中他们解释说 std vector max size 应该给我向量可以达到的最大大小我决定测试一下 include
可以通过模板间接访问基类中的私有类型

我试图在编译时根据类型是否在给定范围内公开可用来选择要使用的类型最好直接看代码 include
使用 FromBase64Transform 解码 base64 文件流

The example https msdn microsoft com en us library system security cryptography frombase64transform 28v vs 110 29 aspx从M
如何解析多态 JSON 数组？

我有一个 JSON 格式的文件其中包含个人用户的记录一些用户的记录中间有一个评论字段我只想解析顶级项目全名贡献者姓名电子邮件使用 Newtonsoft JSON 解析器但我似乎无法让它识别单个对象当我将整个字符串解析为一个
当一对迭代器初始化时，向量是否知道先保留？

考虑以下代码 struct MyData MyData const BYTE pData size t uSize bucket pData pData uSize std vector
使用“const cv::Mat &”、“cv::Mat &”、“cv::Mat”或“const cv::Mat”作为函数参数的区别？

我已经彻底搜索过但没有找到一个简单的答案传递 opencv 矩阵 cv Mat 作为函数的参数我们传递一个智能指针我们对函数内部的输入矩阵所做的任何更改也会改变函数范围之外的矩阵我读到通过将矩阵作为 const 引用传递它不会
为什么我无法通过 lambda 捕获“this”指针？

考虑以下代码 class A public void foo auto functor this A a this auto functor a The compiler won t accept this instead of a a g
使用 DataGridViewCheckboxCell 真正禁用 DataGridView 中的复选框

有谁知道如何使用 DataGridViewCheckboxCell 禁用 DataGridView 中的复选框我可以将其设置为只读并设置背景颜色但我无法让复选框本身显示为禁用状态有什么想法吗 Guess 你必须自己画 http so
调用泛型类的方法

这是上下文我尝试编写一个映射器来动态地将域模型对象转换为 ViewModel 对象我遇到的问题是当我尝试通过反射调用泛型类的方法时出现此错误 System InvalidOperationException 无法对 Contains
从数据库配置中的连接字符串中删除 SSIS 密码

我有一个 SSIS 包它使用 SQL 服务器中的 SSIS 配置表来检索 OLE DB 连接管理器的连接字符串属性问题是我还需要相同的连接字符串来调用使用实体框架的程序集我尝试访问连接管理器连接字符串属性但 SSIS 总是删除密码
如何从 C# 中的 Web Api 方法正确获取字节数组？

我有以下控制器方法 HttpPost Route SomeRoute public byte MyMethod FromBody string ID byte mybytearray db getmybytearray ID working
Selenium - 模式对话框存在 - 如何接受信息？

我有以下问题在页面上提交一些日期后我有一个如图所示的模式对话框我想单击 ENTER 来浏览该模式但它不起作用我有以下代码 driver FindElement By CssSelector input submit Click A
DbContext.SaveChangesAsync 异常处理

当搭建新的脚手架时ApiController通过 Visual Studio 2013 中的异步操作和实体框架支持某些方法可以包装DbContext SaveChangesAsync https msdn microsoft com en

随机推荐

如何使用 EPPLus 修改图表系列？

我想问一下如何使用 EPPLUS 库更新 Excel 中现有图表的系列值我还不知道该怎么做我已经成功创建图表但仍然无法更新系列值任何人都可以给我提供一些示例代码或参考链接吗抱歉这么晚才回答在搜索其他内容时看到您的帖子如果图表有
vscode "python.jediEnabled": false，显示为未知配置设置

这是settings json文件代码 python autoComplete addBrackets true python linting enabled true python pythonPath C Program Files P
一次一密，加密解密

我正在尝试学习密码学并且一直在尝试这个练习编写一个程序最好是Java 生成一次性的pad 这是所有文件中比较大的一个随机数据例如 1 MB 该程序还应该能够根据以下内容加密解密文件生成一次性本提示使用以下测试向量来检查您的程
使用 C# 将日期时间格式转换为 SQL 格式

我正在尝试从 C 保存当前日期时间格式并将其转换为 SQL Server 日期格式如下所示yyyy MM dd HH mm ss所以我可以用它来我的UPDATE query 这是我的第一个代码 DateTime myDateTime Da
找不到 -lboost_system 的库

我使用 macports 安装了 boost 这些文件似乎位于 opt local include boost 中我的 makefile 不再工作并且出现以下错误 Undefined symbols boost system generi
在 C# 中以编程方式设置 dllimport

我在用DllImport在我的解决方案中我的问题是我有同一个 DLL 的两个版本一个是为 32 位构建的另一个是为 64 位构建的它们都公开具有相同名称和相同签名的相同函数我的问题是我必须使用两个静态方法来公开这些方法然后在运行
如何使用 ember-rails 启用 query-params-new 功能

我在使用 query params new 功能时遇到问题我的 ember 版本是 1 4 0 beta 2 Ember js 通过 ember rails 和 ember source gems 加载到我的 Rails 应用程序中在初
从模板（视图）中动态加载 AngularJS 模块

背景为了便于讨论我们假设您有 100 000 次观看部分观看我们还假设您有附带的视图范围控制器以及潜在的视图范围服务和过滤器尝试设想一个托管 100 000 个不同小型应用程序的聚合应用程序 Issue 当您有需要附带控制器的
ASP.NET MVC 忽略所有 url 末尾的“.html”

我是 ASP NET MVC 新手现在正在努力解决 url 路由问题我正在使用 asp net mvc 3 RC2 如何创建一个 url 路由IGNORESurl 中最末尾的扩展名扩展名可以是 html aspx php anythi
如何实现类似于 jQuery UI 自动完成的 Dojo 自动完成？

美好的一天我使用 JSP 和 jQuery UI 成功实现了文本输入的自动完成功能自动完成数据从数据库中检索并通过服务器端的 q 参数进行过滤它返回包含查询字符串的所有项目 SELECT name FROM organization
NHibernate 代理的 JSON.Net 序列化 (NH 3.3.2.4000)

I m still让 Json Net 和 NHibernate 很好地协同工作一直存在困难即让 Json NET 序列化代理的 NHibernate 对象我已遵循建议here 无论是已接受的答案还是修正案但没有骰子上述解决方案的
具有多个构造函数的 MEF 构造函数参数

我开始使用 MEF 并且我有一个具有多个构造函数的类如下所示 Export typeof ifoo class foo ifoo void foo ImportingConstructor void foo object par1 我在用
如何连接 WAMP 服务器上的 MySQL？

这对你来说可能非常简单但我已经为此奋斗了一个小时这是我尝试运行的代码您可以看到我使用 8080 作为端口号当然我也有 HTML 代码但是每当我尝试打开 PHP 文件时它都会显示以下错误消息 Warning mysql con
按比例缩放 HTML 以完全适合 PDF A4 尺寸

我正在使用 PHP Mysql jQuery 我有一个网页需要转换为高分辨率 A4 尺寸的 PDF http optisolbusiness com funeral site sample index id 255 我已使用以下方法将 HT
WindowsError：[错误 5] 尝试终止子进程时访问被拒绝 (python)

所以我有一个 python 脚本它运行一个循环在该循环中它通过 subprocess Popen 调用程序 A 等待其输出然后保存输出然后再次调用它依此类推在我设置为输入的多次运行中这种情况不断发生问题是我有一个计时器这样
使用 WSDL (SOAP) 将 PayPal 集成到 C#/.NET 解决方案中

环境 Visual Studio 2010 专业版 NET框架4 C 使用以下 WSDL 添加了服务参考 https www paypalobjects com wsdl PayPalSvc wsdl 问题1 像这样简单编译时从 Refe
Scikit-Learn 决策树：预测为 a 或 b 的概率？

我有一个带有 Scikit Learn 的基本决策树分类器 Used to determine men from women based on height and shoe size from sklearn import tree he
强制 GVim 在关闭前提示

我最近一直在过渡到 GVim 因为我发现它比终端中的 vim 更美观而且速度更快一些我有一个非常坏的习惯我正在努力改掉当我从命令行使用 vim 时我的工作流程是这样的 vim filename txt make some edit
如何在 R 中绘制 3D 堆叠直方图？

我想在 R 中绘制堆积直方图即在三维中堆叠各个直方图感谢大家的建议尤其是 Shane 的建议 hadley 我同意你的观点但是我的情况有所不同我试图通过绘制四个堆叠直方图来传达的要点是尾部变化很大将被遮挡的部分没有任何后果在我
如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？

如何告诉 MSVC 编译器使用 64 位 32 位除法运算来计算 x86 64 目标的以下函数的结果 include

如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？

如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？ 的相关文章

随机推荐

热门标签

如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？的相关文章