为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？

2023-12-27

一位同事向我展示了我认为没有必要的代码，但果然，这是必要的。我希望大多数编译器会将所有这三种相等测试尝试视为等效：

#include <cstdint>
#include <cstring>

struct Point {
    std::int32_t x, y;
};

[[nodiscard]]
bool naiveEqual(const Point &a, const Point &b) {
    return a.x == b.x && a.y == b.y;
}

[[nodiscard]]
bool optimizedEqual(const Point &a, const Point &b) {
    // Why can't the compiler produce the same assembly in naiveEqual as it does here?
    std::uint64_t ai, bi;
    static_assert(sizeof(Point) == sizeof(ai));
    std::memcpy(&ai, &a, sizeof(Point));
    std::memcpy(&bi, &b, sizeof(Point));
    return ai == bi;
}

[[nodiscard]]
bool optimizedEqual2(const Point &a, const Point &b) {
    return std::memcmp(&a, &b, sizeof(a)) == 0;
}


[[nodiscard]]
bool naiveEqual1(const Point &a, const Point &b) {
    // Let's try avoiding any jumps by using bitwise and:
    return (a.x == b.x) & (a.y == b.y);
}

但令我惊讶的是，只有那些memcpy or memcmp由 GCC 转换为单个 64 位比较。为什么？ (https://godbolt.org/z/aP1ocs https://godbolt.org/z/aP1ocs)

对于优化器来说，如果我检查连续的四个字节对的相等性，这与比较所有八个字节相同，这不是很明显吗？

尝试避免分别对两个部分进行布尔化可以在某种程度上提高编译效率（减少一条指令并且不会错误地依赖 EDX），但仍然是两个独立的 32 位操作。

bool bithackEqual(const Point &a, const Point &b) {
    // a^b == 0 only if they're equal
    return ((a.x ^ b.x) | (a.y ^ b.y)) == 0;
}

GCC 和 Clang 在传递结构时都有相同的错过优化value (so a在 RDI 中并且b位于 RSI 中，因为这就是 x86-64 System V 的调用约定将结构打包到寄存器中的方式）：https://godbolt.org/z/v88a6s https://godbolt.org/z/v88a6s。 memcpy / memcmp 版本都编译为cmp rdi, rsi / sete al，但其他的则执行单独的 32 位操作。

struct alignas(uint64_t) Point令人惊讶的是，在参数位于寄存器中的按值情况下仍然有帮助，优化了 GCC 的 naiveEqual 版本，但不是 bithack XOR/OR。 (https://godbolt.org/z/ofGa1f https://godbolt.org/z/ofGa1f）。这是否给我们提供了有关 GCC 内部结构的任何提示？对齐对 Clang 没有帮助。

如果你“修复”对齐方式，所有的都会给出相同的汇编语言输出（使用 GCC）：

struct alignas(std::int64_t) Point {
    std::int32_t x, y;
};

Demo https://godbolt.org/z/75bhvE

请注意，做一些事情的一些正确/合法的方法（如类型双关）是使用memcpy，因此在使用该函数时进行特定的优化（或更积极的优化）似乎是合乎逻辑的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？的相关文章

错误：表达式不可赋值三元运算符

我有以下代码 MPLABX XC8 编译器给出此错误错误表达式不可分配 U1ERRIRbits RXFOIF uart1 oerr 1 uart1 oerr 0 这是相关代码部分 typedef union struct bool fe
SOAP Web 服务：多台服务器，一个接口

我有一个场景需要任意数量的服务器来提供相同的 SOAP Web 服务我想生成一组代理类并能够为它们提供一个位置以便在运行时将它们指向不同的服务器不幸的是看起来好像wsdl port节点子节点wsdl service 要求对特定
从结构调用 C++ 成员函数指针

我找到了有关调用 C 成员函数指针和调用结构中的指针的信息但我需要调用结构内部存在的成员函数指针但我无法获得正确的语法我在类 MyClass 的方法中有以下代码片段 void MyClass run struct int MyClas
如何在 C# 中以编程方式将行添加到 DataGrid？

正如标题所述我正在尝试使用 C 以编程方式将行添加到 DataGrid 但我似乎无法使其工作这是我到目前为止所拥有的 I have a DataGrid declared as dg in the XAML foreach string
C# 结构默认值

我有一个方法它接受一个包含许多具有基本数据类型的字段的结构我想传递大部分默认值但需要进行一些调整但我了解结构声明中的基本字段不能包含默认值声明例如struct S int a 42 现在是这样的 OptionsStruct opt
公交车公共交通算法

我正在开发一个可以查找公交路线的离线 C 应用程序我可以提取时间表巴士路线数据我正在寻找适用于基本数据的最简单的解决方案可以使用什么算法来查找从巴士站 A 到巴士站 B 的路线是否有适用于 C Java 的开源解决方案数据库的
大量互斥体对性能的影响

假设我有一个包含 1 000 000 个元素的数组以及多个工作线程每个线程都操作该数组中的数据工作线程可能会使用新数据更新已填充的元素但每个操作仅限于单个数组元素并且独立于任何其他元素的值使用单个互斥锁来保护整个数组显然会导致高
如何在 C 中链接目标文件？失败并显示“架构 x86_64 的未定义符号”

因此我尝试在我的文件 file2 c 中使用另一个 C file1 c 文件中定义的函数为了做到这一点我包含了 file1 file1 h 的标头但是每当我尝试使用 gcc 编译文件时我都会收到以下错误 Undefined sy
DateTime.ParseExact - 为什么 yy 变成 2015 而不是 1915

为什么 NET 假定以下年份是 2015 年而不是 1915 年 var d DateTime ParseExact 20 11 15 dd MM yy new CultureInfo en GB 我想它会尝试接近但其背后是否有合理的
当我尝试传递临时地址作为参数时，它是一个 UB 吗？

对于以下 C 代码 include
如何从 Powerpoint 2010 导出电影？

如何使用 MS Office PIA 主互操作程序集或其他方式以编程方式将嵌入视频从 powerpoint 2010 导出到外部文件在演示文稿中嵌入视频是 Powerpoint 2010 中的一项新功能我找不到解决方案 PPTX 文件
使用任一默认捕获模式时，这是通过复制捕获还是 (*this) 通过引用捕获？是一样的吗？

当我看到以下工作时我有点困惑 struct A void g void f g 但后来我发现this https stackoverflow com a 16323119 5825294答案非常详细地解释了它是如何工作的本质上它归结为t
C# 可以为控制台应用程序部分类“程序”类吗？

我想知道是否可以将为任何控制台应用程序创建的默认程序类更改为部分类我想这样做是因为我想要更好的组织而不是将所有方法都放在按区域分类的 1 个文件中对我来说将某些方法类别放在单独的文件中会更有意义我对分部类的理解是它是多个文件
MINIX内部碎片2

我正在用 C 语言编写一些软件它递归地列出给定目录中的所有文件现在我需要计算出内部碎片我花了很长时间研究这个问题发现 ext2 上的内部碎片只发生在最后一个块中我知道理论上你应该能够从索引节点号获得第一个和最后一个块地址但我不知
fgets溢出后如何清除输入缓冲区？

当输入字符串超出其预定义限制时我遇到了 fgets 的小问题以下面的例子为例 for index 0 index lt max index printf Enter the d string index 1 if fgets input
在一个解决方案中调用不同项目的方法

1 个解决方案中有 3 个项目我对第一个项目中的主文件进行的主要操作但是我需要调用第三个项目中的方法并使用类例如第三个项目有 public DataClasses1DataContext base global WindowsFor
如何防止 Lotus Notes 用户转发或复制通过 System.Net.Mail 发送的邮件？

我想使用 SMTP 客户端 uiing microsft net 以 C 作为编程语言发送电子邮件但是对于通过SMTP客户端发送的电子邮件我们是否可以添加禁止转发或禁止复制等安全功能我不希望电子邮件的收件人转发或复制电子邮件的
使用通用存储库模式和流畅的 nHibernate

我目前正在开发一个中型应用程序它将访问不同站点上的 2 个或更多 SQL 数据库等我正在考虑使用类似的东西 http mikehadlow blogspot com 2008 03 using irepository pattern w
将同步 zip 操作转换为异步

我们有一个现有的库其中一些方法需要转换为异步方法但是我不确定如何使用以下方法执行此操作错误处理已被删除该方法的目的是压缩文件并将其保存到磁盘请注意 zip 类不公开任何异步方法 public static bool ZipAndS
如何使用 Microsoft Graph API 更新 MailboxSettings

我想从不同的日历更新邮箱设置如何构建可以通过 Microsoft Graph 更新 MailboxSetting 的请求这是我的代码示例但有例外代码示例 User obj GraphServiceClient Users roomC

随机推荐

VB.Net 中具有多个属性的 LINQ Group by

我在这个问题上花了很多时间我能够执行简单的 Group By LINQ 查询在一个属性上但对于多个字段我有点卡住了这是我想要做的 LINQPad 示例 dim lFinal new with Year 2010 Month 6 Va
面向方面的编程 - 什么是“cflow”？

我参考了AspectJ参考here http www eclipse org aspectj doc released progguide quick html它指出 cflow 是 cflow Pointcut 每个连接点每个连接点P的
您可以通过 T 的结构为 T 的数组添加别名吗，类似于 std::complex[N] 如何为 T[N * 2] 别名？ [复制]

这个问题在这里已经有答案了从 C 11 开始std complex
在 unix/linux 系统上，如何了解有关 mylib.a 存档的更多信息？

在这种特殊情况下我试图发现 mylib a 文件是否兼容 32 位或 64 位我熟悉共享对象 mylib so 的 ldd 但如何检查常规 a 存档 nm 和 ar 将为您提供有关图书馆档案的一些信息
如何检查 R 中是否通过“...”（省略号）传递了任何参数？ Missing(...) 有效吗？

我想检查 R 函数的省略号参数是否已提供一些值参数目前我正在使用类似的东西 test1 lt function if missing TRUE else FALSE test1 1 TRUE test1 something 2 FA
在派生类中重写运算符 new/delete

我有一个无状态的抽象基类各种具体类都从中继承其中一些派生类也是无状态的因为其中许多是在运行期间创建的所以我希望通过重写运算符 new delete 让所有无状态派生类模拟单例从而节省内存和开销一个简化的例子看起来像这样 incl
带动态参数的递归[重复]

这个问题在这里已经有答案了这是一道面试题我还没搞清楚考虑以下 function recurse a return function b console log a b This will log 5 in the console re
android mediacodec：实时解码h264 nals

我正在尝试使用 android 低级媒体 api 实时解码 h264 nals 每个 nal 包含一个完整的帧所以我希望在用我的 nal 提供输入并调用之后dequeueOutputBuffer它会立即当然有一点延迟显示我的框架但
如何使用 boost::date_time 获取两个日期之间的天数

boost date time 中是否有可用的 API 来获取两个特定于日历的日期之间的天数例如 2005 01 01 和 2006 12 31 之间的天数在 7 天日历中为 730 在 5 天日历中为 504 是的 posix time
Android 12 启动画面 API - 增加启动画面持续时间

我正在学习 Android 12 中引入的 Android 新 SplashScreen API 到目前为止我已经让它可以在我的模拟器和 Google Pixel 4A 上运行但我想增加其持续时间在我的启动屏幕中我不需要花哨的动画
C# - 尝试找到剩余的事件处理程序以防止控制超出范围

长话短说我继承了一个相当复杂的应用程序我正在尝试追踪涉及表单的内存泄漏现在每次关闭表格并提出新表格时旧表格都会保留在内存中我跟踪到了程序中控件拥有和设置的静态事件的问题显然只要设置了静态事件该控件的实例就不会被认为超出范围
是否有可能处理网站上没有 ID 的元素？

在 Vb net 中通过网络浏览器我通常使用GetElementById来寻址例如按钮我知道有GetElementFromPoint 我觉得这非常费力当ID未知时有没有更好更简单的方法您将需要使用某种类型的选择器 The 通过
实时编码演示的软件或技巧

我很快将举办有关 Ruby on Rails 的介绍培训课程我想让它变得有趣和引人入胜同时仍然看起来精致由于这是一门实践课程大多数人都会与我一起构建应用程序我希望能够展示我的终端编辑器并显示生成的网页但是我不想总是在窗口之
在 C# 中读取 Excel 文件并在数据库中插入记录 - Windows Azure

我的应用程序的要求是浏览 Excel 文件上传文件从 Excel 文件中读取每一行并插入到数据库中我正在 Windows Azure 中构建此应用程序在此之前我已经成功使用过OleDbDataAdapter将excel文件中的数据读
如何使用gradle设置系统属性？

我想知道是否可以使用 Gradle 为 Java 应用程序设置系统属性我尝试使用 gradle properties 文件并将属性定义为 systemProp name my name 但是当我尝试使用 Java 应用程序获取该属性时 S
将图标附加到 vuetify 数据表中的表列？

我有一个 Vuetify 数据表我正在尝试将一个图标附加到 td 其中含有蛋白质但它的呈现方式我无法理解我将如何去做所以我有一个组件正在导入到 Vuetify 数据表模板中并且该组件单独包含图标div td
XCFramework 问题，标识符为“ios-armv7_arm64”的库已存在

创建 XCFramework 时我在终端上收到以下消息但未生成 xcframeworkA library with the identifier ios armv7 arm64 already exists 这是我正在运行的命令 xco
jOOQ - 多字段插入

我想表达以下几点INSERT陈述 context insertInto TABLE A set
计算 pandas DataFrame 中的行百分比？

我的数据位于 pandas DataFrame 中如下所示 cat val1 val2 val3 val4 A 7 10 0 19 B 10 2 1 14 C 5 15 6 16 我想计算该类别的百分比 cat 每个值都有例如对于类别
为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？

一位同事向我展示了我认为没有必要的代码但果然这是必要的我希望大多数编译器会将所有这三种相等测试尝试视为等效 include

为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？

为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？ 的相关文章

随机推荐

热门标签

为什么 GCC 不能为两个 int32 的结构生成最佳运算符 == ？的相关文章