是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？

2024-03-13

我有两个双打a and b，都在 [0,1] 内。我想要的最小值/最大值a and b出于性能原因而无需分支。

鉴于a and b都是正数，并且都低于 1，有没有一种有效的方法来获取两者的最小值/最大值？理想情况下，我不希望有分支。

是的，有一种方法可以计算两个的最大值或最小值doubles 没有任何分支。执行此操作的 C++ 代码如下所示：

#include <algorithm>

double FindMinimum(double a, double b)
{
    return std::min(a, b);
}

double FindMaximum(double a, double b)
{
    return std::max(a, b);
}

我打赌你以前见过这个。免得你不相信这是无分支的，查看拆解 https://gcc.godbolt.org/#g:!((g:!((g:!((h:codeEditor,i:(fontScale:0.8957951999999999,j:1,lang:c%2B%2B,source:%27++++%23include+%3Calgorithm%3E%0A%0A++++double+FindMinimum(double+a,+double+b)%0A++++%7B%0A++++++++return+std::min(a,+b)%3B%0A++++%7D%0A%0A++++double+FindMaximum(double+a,+double+b)%0A++++%7B%0A++++++++return+std::max(a,+b)%3B%0A++++%7D%27),l:%275%27,n:%270%27,o:%27C%2B%2B+source+%231%27,t:%270%27)),k:31.467710371819962,l:%274%27,m:100,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((g:!((h:compiler,i:(compiler:clang700,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),fontScale:0.8957951999999999,lang:c%2B%2B,libs:!(),options:%27-O2+-fverbose-asm%27,source:1),l:%275%27,n:%270%27,o:%27x86-64+clang+7.0.0+(Editor+%231,+Compiler+%231)+C%2B%2B%27,t:%270%27)),header:(),k:64.41182865840402,l:%274%27,m:22.5,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((h:compiler,i:(compiler:g83,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),lang:c%2B%2B,libs:!(),options:%27-O2+-fverbose-asm%27,source:1),l:%275%27,n:%270%27,o:%27x86-64+gcc+8.3+(Editor+%231,+Compiler+%232)+C%2B%2B%27,t:%270%27)),header:(),l:%274%27,m:25.963673057517656,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((h:compiler,i:(compiler:vcpp_v19_16_x64,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),lang:c%2B%2B,libs:!(),options:/O2,source:1),l:%275%27,n:%270%27,o:%27x64+msvc+v19.16+(Editor+%231,+Compiler+%233)+C%2B%2B%27,t:%270%27)),header:(),l:%274%27,m:51.53632694248234,n:%270%27,o:%27%27,s:0,t:%270%27)),k:68.53228962818004,l:%273%27,n:%270%27,o:%27%27,t:%270%27)),l:%272%27,n:%270%27,o:%27%27,t:%270%27)),version:4:

FindMinimum(double, double):
    minsd   xmm1, xmm0
    movapd  xmm0, xmm1
    ret

FindMaximum(double, double):
    maxsd   xmm1, xmm0
    movapd  xmm0, xmm1
    ret

这就是您从所有针对 x86 的流行编译器获得的结果。使用的是SSE2指令集，具体是minsd/maxsd指令，无分支地计算两个双精度浮点值的最小值/最大值。

所有 64 位 x86 处理器均支持SSE2 https://en.wikipedia.org/wiki/SSE2; AMD64 扩展需要它。即使大多数不带 64 位的 x86 处理器也支持 SSE2。它于 2000 年发布。您必须走很长的路才能找到不支持 SSE2 的处理器。但如果你这样做了呢？好吧，即使在那里，您可以在最流行的编译器上获得无分支代码 https://gcc.godbolt.org/#g:!((g:!((g:!((h:codeEditor,i:(fontScale:0.8957951999999999,j:1,lang:c%2B%2B,source:%27++++%23include+%3Calgorithm%3E%0A%0A++++double+FindMinimum(double+a,+double+b)%0A++++%7B%0A++++++++return+std::min(a,+b)%3B%0A++++%7D%0A%0A++++double+FindMaximum(double+a,+double+b)%0A++++%7B%0A++++++++return+std::max(a,+b)%3B%0A++++%7D%27),l:%275%27,n:%270%27,o:%27C%2B%2B+source+%231%27,t:%270%27)),k:31.467710371819962,l:%274%27,m:100,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((g:!((h:compiler,i:(compiler:clang700,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),fontScale:0.8957951999999999,lang:c%2B%2B,libs:!(),options:%27-O2+-fverbose-asm+-mno-sse+-m32%27,source:1),l:%275%27,n:%270%27,o:%27x86-64+clang+7.0.0+(Editor+%231,+Compiler+%231)+C%2B%2B%27,t:%270%27)),header:(),k:64.41182865840402,l:%274%27,m:22.5,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((h:compiler,i:(compiler:g83,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),lang:c%2B%2B,libs:!(),options:%27-O2+-fverbose-asm+-mno-sse+-m32%27,source:1),l:%275%27,n:%270%27,o:%27x86-64+gcc+8.3+(Editor+%231,+Compiler+%232)+C%2B%2B%27,t:%270%27)),header:(),l:%274%27,m:25.963673057517656,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((h:compiler,i:(compiler:vcpp_v19_16_x86,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,libraryCode:%271%27,trim:%271%27),lang:c%2B%2B,libs:!(),options:%27/O2+/arch:IA32%27,source:1),l:%275%27,n:%270%27,o:%27x86+msvc+v19.16+(Editor+%231,+Compiler+%233)+C%2B%2B%27,t:%270%27)),header:(),l:%274%27,m:51.53632694248234,n:%270%27,o:%27%27,s:0,t:%270%27)),k:68.53228962818004,l:%273%27,n:%270%27,o:%27%27,t:%270%27)),l:%272%27,n:%270%27,o:%27%27,t:%270%27)),version:4:

FindMinimum(double, double):
    fld      QWORD PTR [esp + 12]
    fld      QWORD PTR [esp + 4]
    fucomi   st(1)
    fcmovnbe st(0), st(1)
    fstp     st(1)
    ret

FindMaximum(double, double):
    fld      QWORD PTR [esp + 4]
    fld      QWORD PTR [esp + 12]
    fucomi   st(1)
    fxch     st(1)
    fcmovnbe st(0), st(1)
    fstp     st(1)
    ret

The fucomi指令执行比较，设置标志，然后fcmovnbe指令根据这些标志的值执行条件移动。这完全是无分支的，并且依赖于 1995 年 Pentium Pro 引入 x86 ISA 的指令，自 Pentium II 以来所有 x86 芯片都支持该指令。

唯一的编译器won't这里生成无分支代码是MSVC，因为它没有利用FCMOVxx操作说明 https://stackoverflow.com/questions/13661285/generating-cmov-instructions-using-microsoft-compilers/41144749#41144749。相反，你会得到：

double FindMinimum(double, double) PROC
    fld     QWORD PTR [a]
    fld     QWORD PTR [b]
    fcom    st(1)            ; compare "b" to "a"
    fnstsw  ax               ; transfer FPU status word to AX register
    test    ah, 5            ; check C0 and C2 flags
    jp      Alt
    fstp    st(1)            ; return "b"
    ret
Alt:
    fstp    st(0)            ; return "a"
    ret
double FindMinimum(double, double) ENDP

double FindMaximum(double, double) PROC
    fld     QWORD PTR [b]
    fld     QWORD PTR [a]
    fcom    st(1)            ; compare "b" to "a"
    fnstsw  ax               ; transfer FPU status word to AX register
    test    ah, 5            ; check C0 and C2 flags
    jp      Alt
    fstp    st(0)            ; return "b"
    ret
Alt:
    fstp    st(1)            ; return "a"
    ret
double FindMaximum(double, double) ENDP

注意分支JP指令（如果奇偶校验位设置则跳转）。这FCOM指令用于进行比较，它是基本 x87 FPU 指令集的一部分。不幸的是，这会在 FPU 状态字中设置标志，因此为了在这些标志上进行分支，需要提取它们。这就是该项目的目的FNSTSW指令，它将 x87 FPU 状态字存储到通用AX寄存器（它也可以存储到内存中，但是......为什么？）。那么代码TESTs 适当的位，并相应地分支以确保返回正确的值。除了分支之外，检索 FPU 状态字也会相对较慢。这就是 Pentium Pro 推出FCOM指示。

然而，它是unlikely您可以通过使用位旋转操作来确定最小值/最大值来提高任何代码的速度。有两个基本原因：

唯一生成低效代码的编译器是 MSVC，并且没有好方法强制它生成您想要的指令。尽管 MSVC 中支持 32 位 x86 目标的内联汇编，当寻求性能改进时，这是一个愚蠢的差事 https://stackoverflow.com/questions/3323445/what-is-the-difference-between-asm-asm-and-asm/35959859#35959859。我也引用一下我自己的话：

内联汇编以相当显着的方式破坏优化器，所以除非你正在编写重要的在内联汇编中使用大量代码，不太可能获得实质性的净性能提升。此外，微软的内联汇编语法极其有限。它在很大程度上牺牲了灵活性以换取简单性。特别是，没有办法指定input值，因此您必须将输入从内存加载到寄存器中，并且调用者被迫将输入从寄存器溢出到内存中以进行准备。这创造了一种现象，我喜欢称之为“一大堆乱七八糟的事情”，或者简称为“缓慢的代码”。在可以接受慢速代码的情况下，您不会放弃内联汇编。因此，最好（至少在 MSVC 上）弄清楚如何编写 C/C++ 源代码来说服编译器发出您想要的目标代码。即使你只能得到close对于理想的输出，这仍然比使用内联汇编所付出的代价要好得多。
为了访问浮点值的原始位，您必须进行域转换，从浮点到整数，然后再返回到浮点。那很慢，尤其没有 SSE2，因为从 x87 FPU 获取值到 ALU 中通用整数寄存器的唯一方法是通过内存间接获取。

如果您无论如何都想采用这种策略（例如，对其进行基准测试），您可以利用浮点值按照其字典顺序排序的事实IEEE 754 https://en.wikipedia.org/wiki/IEEE_754表示，符号位除外。因此，既然您假设两个值都是正数：

FindMinimumOfTwoPositiveDoubles(double a, double b):
    mov   rax, QWORD PTR [a]
    mov   rdx, QWORD PTR [b]
    sub   rax, rdx              ; subtract bitwise representation of the two values
    shr   rax, 63               ; isolate the sign bit to see if the result was negative
    ret

FindMaximumOfTwoPositiveDoubles(double a, double b):
    mov   rax, QWORD PTR [b]    ; \ reverse order of parameters
    mov   rdx, QWORD PTR [a]    ; /  for the SUB operation
    sub   rax, rdx
    shr   rax, 63
    ret

或者，为了避免内联汇编：

bool FindMinimumOfTwoPositiveDoubles(double a, double b)
{
    static_assert(sizeof(a) == sizeof(uint64_t),
                  "A double must be the same size as a uint64_t for this bit manipulation to work.");
    const uint64_t aBits = *(reinterpret_cast<uint64_t*>(&a));
    const uint64_t bBits = *(reinterpret_cast<uint64_t*>(&b));
    return ((aBits - bBits) >> ((sizeof(uint64_t) * CHAR_BIT) - 1));
}

bool FindMaximumOfTwoPositiveDoubles(double a, double b)
{
    static_assert(sizeof(a) == sizeof(uint64_t),
                  "A double must be the same size as a uint64_t for this bit manipulation to work.");
    const uint64_t aBits = *(reinterpret_cast<uint64_t*>(&a));
    const uint64_t bBits = *(reinterpret_cast<uint64_t*>(&b));
    return ((bBits - aBits) >> ((sizeof(uint64_t) * CHAR_BIT) - 1));
}

请注意，有severe此实施的注意事项。特别是，如果两个浮点值具有不同的符号，或者两个值都是负数，它将中断。如果两个值都是负数，则可以修改代码以翻转它们的符号，进行比较，然后返回相反的值。为了处理两个值具有不同符号的情况，可以添加代码来检查符号位。

    // ...

    // Enforce two's-complement lexicographic ordering.
    if (aBits < 0)
    {
        aBits = ((1 << ((sizeof(uint64_t) * CHAR_BIT) - 1)) - aBits);
    }
    if (bBits < 0)
    {
        bBits = ((1 << ((sizeof(uint64_t) * CHAR_BIT) - 1)) - bBits);
    }

    // ...

处理负零也会是一个问题。 IEEE 754 规定 +0.0 等于 −0.0，因此您的比较函数必须决定是否要将这些值视为不同的值，或者向比较例程添加特殊代码，以确保负零和正零被视为等效。

添加所有这些特殊情况代码将当然将性能降低到我们将通过简单的浮点比较收支平衡的程度，并且很可能最终会变慢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？的相关文章

如何使 Windows 窗体的关闭按钮不关闭窗体但使其不可见？

该表单有一个 NotifyIcon 对象当用户单击关闭按钮时我希望表单不关闭而是变得不可见然后如果用户想再次查看该表单可以双击系统托盘中的图标如果用户想关闭表单可以右键单击该图标并选择关闭有人可以告诉我如何使关闭按钮不
C# 和 Javascript SHA256 哈希的代码示例

我有一个在服务器端运行的 C 算法它对 Base64 编码的字符串进行哈希处理 byte salt Convert FromBase64String serverSalt Step 1 SHA256Managed sha256 new S
pthread_cond_timedwait() 和 pthread_cond_broadcast() 解释

因此我在堆栈溢出和其他资源上进行了大量搜索但我无法理解有关上述函数的一些内容具体来说 1 当pthread cond timedwait 因为定时器值用完而返回时它如何自动重新获取互斥锁互斥锁可能被锁定在其他地方例如在生产者
UML类图：抽象方法和属性是这样写的吗？

当我第一次为一个小型 C 项目创建 uml 类图时我在属性方面遇到了一些麻烦最后我只是将属性添加为变量 lt
C#：如何防止主窗体过早显示

在我的 main 方法中我像往常一样启动主窗体 Application EnableVisualStyles Application SetCompatibleTextRenderingDefault false Application
C 预处理器库

我的任务是开发源分析工具C程序并且我需要在分析本身之前预处理代码我想知道什么是最好的图书馆我需要一些重量轻便于携带的东西与其推出自己的为什么不使用cpp这是的一部分gcc suite http gcc gnu org onlin
从路径中获取文件夹名称

我有一些路c server folderName1 another name something another folder 我如何从那里提取最后一个文件夹名称我尝试了几件事但没有成功我只是不想寻找最后的然后就去休息了 Thank
for循环中计数器变量的范围是多少？

我在 Visual Studio 2008 中收到以下错误 Error 1 A local variable named i cannot be declared in this scope because it would give a
clang 实例化后静态成员初始化

这样的代码可以用 GCC 编译但 clang 3 5 失败 include
Discord.net 无法在 Linux 上运行

我正在尝试让在 Linux VPS 上运行的 Discord net 中编码的不和谐机器人我通过单声道运行但我不断收到此错误 Unhandled Exception System Exception Connection lost at
实体框架 4 DB 优先依赖注入？

我更喜欢创建自己的数据库设置索引唯一约束等使用 edmx 实体框架设计器从数据库生成域模型是轻而易举的事现在我有兴趣使用依赖注入来设置一些存储库我查看了 StackOverflow 上的一些文章和帖子似乎重点关注代码优先方法
C++ 复制初始化和直接初始化，奇怪的情况

在继续阅读本文之前请阅读在 C 中复制初始化和直接初始化之间有区别吗 https stackoverflow com questions 1051379 is there a difference in c between copy i
为什么 C# Math.Ceiling 向下舍入？

我今天过得很艰难但有些事情不太对劲在我的 C 代码中我有这样的内容 Math Ceiling decimal this TotalRecordCount this PageSize Where int TotalRecordCount
Process.Start 阻塞

我正在调用 Process Start 但它会阻止当前线程 pInfo new ProcessStartInfo C Windows notepad exe Start process mProcess new Process mProce
const、span 和迭代器的问题

我尝试编写一个按索引迭代容器的迭代器 AIt and a const It两者都允许更改容器的内容 AConst it and a const Const it两者都禁止更改容器的内容之后我尝试写一个span
x86 上未对齐的指针

有人可以提供一个示例将指针从一种类型转换为另一种类型由于未对齐而失败吗在评论中这个答案 https stackoverflow com questions 544928 reading integer size bytes from a
如何使用 std::string 将所有出现的一个字符替换为两个字符？

有没有一种简单的方法来替换所有出现的 in a std string with 转义 a 中的所有斜杠std string 完成此操作的最简单方法可能是boost字符串算法库 http www boost org doc libs 1 46
C 中的异或运算符

在进行按位操作时我在确定何时使用 XOR 运算符时遇到一些困难按位与和或非常简单当您想要屏蔽位时请使用按位 AND 常见用例是 IP 寻址和子网掩码当您想要打开位时请使用包含或然而 XOR 总是让我明白我觉得如果在面试中被问
如何在 C++ BOOST 中像图形一样加载 TIFF 图像

我想要加载一个 tiff 图像带有带有浮点值的像素的 GEOTIFF 例如 boost C 中的图形我是 C 的新手我的目标是使用从源 A 到目标 B 的双向 Dijkstra 来获得更高的性能 Boost GIL load tiif
防止索引超出范围错误

我想编写对某些条件的检查而不必使用 try catch 并且我想避免出现 Index Out of Range 错误的可能性 if array Element 0 Object Length gt 0 array Element 1 Ob

随机推荐

在大型文本文件中搜索字符串 - 分析 python 中的各种方法

这个问题已经被问过很多次了花了一些时间阅读答案后我做了一些快速分析来尝试前面提到的各种方法我有一个600 MB文件与600万字符串行 DMOZ 项目的类别路径每行的条目都是唯一的我想要load文件once 不停寻找用于数据中的匹配
如何撤消 SQL Server UPDATE 查询？

在 SQL Server Management Studio 中我执行了以下查询不幸的是我忘记取消注释WHERE clause 更新了 1647 行而不是 4 行如何撤消最后一条语句 Unfortunately I ve only
完成活动后如何取下键盘？

我有一个用户在其中输入的活动然后单击确定按钮完成后活动关闭并返回到旧活动但软键盘仍然在屏幕上我试过了android windowSoftInputMode stateHidden and getWindow setSoftIn
阻止直接 URL 访问返回部分视图的控制器？

如果有一个名为 UsersController 的控制器其操作如下 public ActionResult ActiveUsers IQueryable
如何获取数组值作为curl php请求的返回值？

由于我是 PHP 新手所以我很难使用 PHP 问题是我没有从curl 请求中获得任何返回值我正在访问一个远程文件其中包含以下代码测试 php test gt getCall public function getCall var a
为什么 easy_install 适用于某些 Windows 二进制文件？

背景 Windows 默认情况下不包含编译器安装编译器或许还需要配置 Python 来使用它是一项足够复杂的任务许多开发人员都避免这样做为此许多具有二进制依赖项的包可以作为包含二进制文件的预编译 Windows 可执行文件提供
如果未找到元素，C# 中的 XmlSerializer 反序列化是否会失败？

我正在使用 XmlSerializer 在 C 中将对象写入和读取到 xml 我目前使用的属性XmlElement and XmlIgnore操纵对象的序列化如果我的 xml 文件缺少我需要的 xml 元素我的对象仍然可以很好地反序列化
Python 中的方法参数[重复]

这个问题在这里已经有答案了假设我有这样的代码 class Num def init self num self n num def getn self return self n def getone return 1 myObj Num
将特定线程绑定到特定处理器核心

我在大学里谈过一些关于并行处理的内容现在我正在努力提高它我可以编写可以并行运行的代码然后启动线程但之后我就失去了对线程执行操作的控制我想知道如何控制线程例如将特定线程绑定到特定处理器核心我对 C 最感兴趣但我已经用 Java
BigQuery 重复数据删除和分区表

我想在 BigQuery 中创建一个允许执行以下操作的视图重复记录删除将 PARTITIONTIME 公开为用于过滤的列以允许分区修剪我知道执行重复数据删除的建议查询是 SELECT EXCEPT row number FROM S
创建指向向量中元素的指针>

如果我想要一个指向 int 向量向量中的元素的指针我会写 vector
org.apache.hadoop.mapred.FileAlreadyExistsException

我试图在 Hadoop 中运行示例程序here http hadoop apache org common docs r0 20 2 mapred tutorial html Example 3A WordCount v1 0 当我尝试运行
深度复制嵌套可迭代（或改进的 itertools.tee 用于可迭代的可迭代）

Preface 我有一个测试我正在使用嵌套迭代通过嵌套迭代我的意思是仅可迭代作为元素作为测试级联考虑 from itertools import tee from typing import Any Iterable def foo
如何实现Android Open Accessory模式即服务？

我一直在研究 Android 开放配件开发套件依照指示Google 提供的 DemoKit 示例 http developer android com guide topics usb accessory html 我在使解决方案适应我的
ASP.net MVC DropDownList 预选项目被忽略

我面临着问题中概述的类似问题 ASP NET MVC RC 刷新中的 Html DropDownList 未预选择项目 https stackoverflow com questions 589935 html dropdownlist
Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

我正在使用熊猫和xlsxwriter在 AWS lambda 中创建 Excel 报告我遇到了一个问题创建 60MB 区域内相当大的 Excel 文件时磁盘空间已满但还有 512MB 的可用磁盘空间我一直在试图弄清楚发生这种情况的
有eot字体编辑器吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有eot字体编辑器吗已知的编辑器如 Font Forge Font Creator 和 Font
列出 PostgreSQL 中物化视图的授予和权限

我需要确定当前为数据库中的某些物化视图授予了哪些权限对表或标准视图执行此操作的查询非常简单 SELECT grantee string agg privilege type AS privileges FROM information s
您上传了可调试的 APK。出于安全原因，您需要先禁用调试，然后才能在 Google Play 中发布 - 将 apk 上传到 google play

我想将我的 apk 上传到 google play store 但它显示这样的错误 You uploaded a debuggable APK For security reasons you need to disable debuggi
是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？

我有两个双打a and b 都在 0 1 内我想要的最小值最大值a and b出于性能原因而无需分支鉴于a and b都是正数并且都低于 1 有没有一种有效的方法来获取两者的最小值最大值理想情况下我不希望有分支是的有一种方

是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？

是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？ 的相关文章

随机推荐

热门标签

是否有一种无分支方法可以快速找到两个双精度浮点值的最小值/最大值？的相关文章