了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）

2024-03-03

我有以下 C++17 代码，是在 x64 模式下使用 VS 2019（版本 16.8.6）编译的：

struct __declspec(align(16)) Vec2f { float v[2]; };
struct __declspec(align(16)) Vec4f { float v[4]; };

static constexpr std::uint64_t N = 100'000'000ull;

const Vec2f p{};
Vec4f acc{};

// Using virtual method:
for (std::uint64_t i = 0; i < N; ++i)
    acc += foo->eval(p);

// Using function pointer:
for (std::uint64_t i = 0; i < N; ++i)
    acc += eval_fn(p);

在第一个循环中，foo is a std::shared_ptr and eval()是一个虚方法：

__declspec(noinline) virtual Vec4f eval(const Vec2f& p) const noexcept
{
    return { p.v[0], p.v[1], p.v[0], p.v[1] };
}

在第二个循环中，eval_fn是指向以下函数的指针：

__declspec(noinline) Vec4f eval_fn_impl(const Vec2f& p) noexcept
{
    return { p.v[0], p.v[1], p.v[0], p.v[1] };
}

最后，我有两个实现operator+= for Vec4f:

一种使用显式循环实现：

Vec4f& operator+=(Vec4f& lhs, const Vec4f& rhs) noexcept
{
    for (std::uint32_t i = 0; i < 4; ++i)
        lhs.v[i] += rhs.v[i];
    return lhs;
}

还有一种是用 SSE 内在函数实现的：

Vec4f& operator+=(Vec4f& lhs, const Vec4f& rhs) noexcept
{
    _mm_store_ps(lhs.v, _mm_add_ps(_mm_load_ps(lhs.v), _mm_load_ps(rhs.v)));
    return lhs;
}

您可以在下面找到测试的完整（独立、仅限 Windows）代码。

以下是两个循环的生成代码，以及在AMD 线程撕裂者 3970XCPU（Zen 2架构）：

随着上证内在实施operator+=(Vec4f&, const Vec4f&):

// Using virtual method: 649 ms
$LL4@main:
  mov rax, QWORD PTR [rdi]            // fetch vtable base pointer (rdi = foo)
  lea r8, QWORD PTR p$[rsp]           // r8 = &p
  lea rdx, QWORD PTR $T3[rsp]         // not sure what $T3 is (some kind of temporary, but why?)
  mov rcx, rdi                        // rcx = this
  call    QWORD PTR [rax]             // foo->eval(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rbp, 1
  jne SHORT $LL4@main

// Using function pointer: 602 ms
$LL7@main:
  lea rdx, QWORD PTR p$[rsp]          // rdx = &p
  lea rcx, QWORD PTR $T2[rsp]         // same question as above
  call    rbx                         // eval_fn(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rsi, 1
  jne SHORT $LL7@main

随着显式循环实施operator+=(Vec4f&, const Vec4f&):

// Using virtual method: 167 ms [3.5x to 4x FASTER!]
$LL4@main:
  mov rax, QWORD PTR [rdi]
  lea r8, QWORD PTR p$[rsp]
  lea rdx, QWORD PTR $T5[rsp]
  mov rcx, rdi
  call    QWORD PTR [rax]
  addss   xmm9, DWORD PTR [rax]
  addss   xmm8, DWORD PTR [rax+4]
  addss   xmm7, DWORD PTR [rax+8]
  addss   xmm6, DWORD PTR [rax+12]
  sub rbp, 1
  jne SHORT $LL4@main

// Using function pointer: 600 ms
$LL7@main:
  lea rdx, QWORD PTR p$[rsp]
  lea rcx, QWORD PTR $T4[rsp]
  call    rbx
  addps   xmm6, XMMWORD PTR [rax]
  sub rsi, 1
  jne SHORT $LL7@main

（据我所知，在 AMD Zen 2 架构上，addss and addps指令有 3 个周期的延迟，最多可以同时执行两条这样的指令。）

让我困惑的情况是使用虚拟方法和显式循环实现时operator+=:

为什么它比其他三个变体快 3.5 倍到 4 倍？

这里有哪些相关的建筑效果？循环后续迭代中寄存器之间的依赖性更少？或者缓存方面运气不好？

完整源代码：

#include <Windows.h>
#include <cstdint>
#include <cstdio>
#include <memory>
#include <xmmintrin.h>

struct __declspec(align(16)) Vec2f
{
    float v[2];
};

struct __declspec(align(16)) Vec4f
{
    float v[4];
};

Vec4f& operator+=(Vec4f& lhs, const Vec4f& rhs) noexcept
{
#if 0
    _mm_store_ps(lhs.v, _mm_add_ps(_mm_load_ps(lhs.v), _mm_load_ps(rhs.v)));
#else
    for (std::uint32_t i = 0; i < 4; ++i)
        lhs.v[i] += rhs.v[i];
#endif
    return lhs;
}

std::uint64_t get_timer_freq()
{
    LARGE_INTEGER frequency;
    QueryPerformanceFrequency(&frequency);
    return static_cast<std::uint64_t>(frequency.QuadPart);
}

std::uint64_t read_timer()
{
    LARGE_INTEGER count;
    QueryPerformanceCounter(&count);
    return static_cast<std::uint64_t>(count.QuadPart);
}

struct Foo
{
    __declspec(noinline) virtual Vec4f eval(const Vec2f& p) const noexcept
    {
        return { p.v[0], p.v[1], p.v[0], p.v[1] };
    }
};

using SampleFn = Vec4f (*)(const Vec2f&);

__declspec(noinline) Vec4f eval_fn_impl(const Vec2f& p) noexcept
{
    return { p.v[0], p.v[1], p.v[0], p.v[1] };
}

__declspec(noinline) SampleFn make_eval_fn()
{
    return &eval_fn_impl;
}

int main()
{
    static constexpr std::uint64_t N = 100'000'000ull;

    const auto timer_freq = get_timer_freq();
    const Vec2f p{};
    Vec4f acc{};

    {
        const auto foo = std::make_shared<Foo>();
        const auto start_time = read_timer();
        for (std::uint64_t i = 0; i < N; ++i)
            acc += foo->eval(p);
        std::printf("foo->eval: %llu ms\n", 1000 * (read_timer() - start_time) / timer_freq);
    }

    {
        const auto eval_fn = make_eval_fn();
        const auto start_time = read_timer();
        for (std::uint64_t i = 0; i < N; ++i)
            acc += eval_fn(p);
        std::printf("eval_fn: %llu ms\n", 1000 * (read_timer() - start_time) / timer_freq);
    }

    return acc.v[0] + acc.v[1] + acc.v[2] + acc.v[3] > 0.0f ? 1 : 0;
}

我正在 Intel Haswell 处理器上对此进行测试，但性能结果相似，我猜原因也相似，但请对此持保留态度。 Haswell 和 Zen 2 之间当然存在差异，但据我所知，我所指责的效果应该适用于它们。

问题是：虚拟方法/通过指针调用的函数/无论它是什么，都会存储 4 个标量，但随后主循环会对同一内存进行向量加载。存储到加载转发可以处理存储值然后立即加载的各种情况，但通常不会处理这样的情况：加载依赖于多个存储（更一般地说：依赖于仅部分提供的存储的加载）负载尝试加载的数据）。假设这是可能的，但这不是当前微架构的特征。

作为实验，更改虚拟方法中的代码以使用向量存储。例如：

__declspec(noinline) virtual Vec4f eval(const Vec2f& p) const noexcept
{
    Vec4f r;
    auto pv = _mm_load_ps(p.v);
    _mm_store_ps(r.v, _mm_shuffle_ps(pv, pv, _MM_SHUFFLE(1, 0, 1, 0)));
    return r;
}

在我的 PC 上，这使时间与快速版本保持一致，这支持了以下假设：问题是由多个标量存储馈入矢量负载引起的。

从 8 字节加载 16 字节Vec2f并不完全合法，如有必要可以解决。只有 SSE(1) 有点烦人，SSE3 会很好_mm_loaddup_pd (aka movddup).

如果 MSVC 返回了Vec4f结果通过寄存器而不是通过外指针，但我不知道如何说服它这样做，除了将返回类型更改为__m128. __vectorcall也有帮助，但使 MSVC 返回结构几个寄存器然后在调用者中通过额外的洗牌重新组合。它有点混乱，比任何一个快速选项都慢，但仍然比存储转发失败的版本快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）的相关文章

如何拦截 .Net 中第三方库对非虚拟方法的调用？

我认为我需要的是 net 人们称之为透明动态代理的东西但到目前为止我所看到的所有实现 Castle DynamicProxy Spring NET AOP 等都要求我至少执行以下操作之一将拦截的方法声明为虚拟方法包装类并创建包装
类型转换 sockaddr 结构

我正在尝试学习网络编程并在这个过程中学习C 我对结构感到困惑sockaddr这是一个通用地址并且sockaddr in 我的书里是这么说的因此我们可以填写 sockaddr in 的字段然后强制转换 a 指向它指向指向 soc
加权 Voronoi 的 CGAL 2D APOLLONIUS 图 - 如何生成和获取面和顶点？

我正在尝试根据阿波罗尼乌斯图生成加权沃罗诺伊我正在使用 CGAL 库我找不到如何从 apollonius 获取面和顶点的好例子我有以下类型定义 typedef double NT typedef CGAL Cartesian lt N
实体框架 - 循环更新属性

我正在尝试找到一种方法来循环 EF 对象的属性并更新这些属性的值更具体地说我有 50 个字段其中最多填充 50 个下拉列表所有 50 个可能都需要填充也可能不需要填充为了解决这个问题我有一个中继器最多可以创建 50 个 DD
如何使用movntdqa避免缓存污染？

我正在尝试编写一个 memcpy 函数该函数不会将源内存加载到 CPU 缓存中目的是避免缓存污染下面的 memcpy 函数可以工作但会像标准 memcpy 一样污染缓存我正在使用带有 Visual C 2008 Express 的
每个 CPU 核心处于 C0 电源状态的时间

任何帮助弄清楚如何做到这一点都会很棒在过去一秒内每个 CPU 核心处于 C0 电源状态的时间有多少这是针对 Mac 应用程序的因此需要 Objective C cocoa 和 c OS X 没有任何公开 CPU c 状态的 API
将数组从 C# 编组到 C++ 并返回：PInvokeStackImbalance

我有一个 C 函数我想从 C 访问它问题是我不断收到 PInvokeStackImbalance 异常但我不知道为什么当检查异常被关闭时一切都运行良好并且符合预期我的 C 函数的签名是 extern C double solve
尝试将元素推入向量

在头文件我没有编写中已经定义了一个结构体如下所示 struct MemoryMessage public boost counted base public FastAlloc explicit MemoryMessage Memo
从空白启动时 VSTO 功能区不显示解决方案

如果我从文件新建项目菜单创建一个新的 Excel 2013 和 2016 VSTO 加载项项目然后单击项目添加新项目 gt 功能区可视化设计器则一切正常我启动了应用程序我的功能区显示在 Excel 中但是如果我首先
使用经度和纬度查找给定距离内的所有附近客户

我有一个包含客户经度和纬度的数据库我有一个搜索表单用户将在其中输入日志纬度距离下拉列表包含 50 英里 100 英里当用户单击搜索时我想编写一个 linq 查询从数据库中获取此距离半径内的所有客户如何使用 C 和 linq 来
未定义条件编译符号

我无法让 Visual Studio 按照我的预期运行我创建了 2 个配置文件一个定义了符号 FOO 另一个定义了符号 BAR 我有这个代码 static class MyClass if FOO public static strin
标准头文件中的 C 编译器错误 - 未定义的 C++ 定义

我正在尝试编译 C 程序但收到许多错误这些错误是在标准 C 头文件 inttypes h stdio h stat h 等中遇到的错误的来源是以下未定义的常量 BEGIN DECLS END DECLS BEGIN NAMESPAC
如何使用包含的转换的排名来比较两个标准转换序列

include
为什么 MISRA:2012 需要函数原型？

我想知道为什么 MISRA 2012 需要函数原型在下面的示例中这两个原型并不是真正必要的 include
无论表单上的焦点控件如何，如何捕获 Keys.F1？

我使用了 KeyDown 事件和一些简单的代码例如if e KeyCode Keys F1 捕获在表单上按下 F1 但如果表单上有一些文本框或者表单上有一些带有 Dock Fill 的电子表格则上面的代码将毫无用处并且不执行任何操作
什么是多重重继承？

我将以下称为多重重新继承直接继承一个类一次并通过继承其一个或多个后代来间接继承一次或多次通过继承一个类的两个或多个后代来间接继承一个类两次或多次我想知道它是否存在以及如何明确访问嵌入的子对象 1 Professional C 2n
使用 LINQ to SQL 的 .NET 架构的最佳设计实践（DAL 必要吗？我们真的可以使用 POCO吗？要采用的设计模式吗？）

我避免在 net arch n 层架构上编写看起来像是另一个线程的内容但请耐心等待希望我和其他人一样在选择用于企业应用程序的架构时考虑到当今的趋势和新兴技术仍然没有 100 满意或不清楚应采取的最佳方法我想我正在寻求大众社区对方
如果未返回，则在一段时间后终止线程

我有一个线程从网络或串行端口获取一些数据如果 5 秒内没有收到数据则线程必须终止或返回 false 换句话说如果线程运行时间超过 5 秒则必须停止我用 C 编写但任何 NET 语言都可以有两种方法 1 封装超时从网络或串行
使用 wmi 获取活动会话（Win32_LogonSession 还返回非活动/旧会话）

有没有办法只显示 wmi 的活动会话问题是 Win32 LogonSession 还显示不活动断开连接的会话 ManagementScope scope new ManagementScope ManagementPath Defaul
C++20 范围太多 |运营商？

我在这段代码中使用 g 10 2 有谁知道为什么我最后收到编译器错误std views reverse on results3 include

随机推荐

设计在不同的屏幕上破碎[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我设计了一个网页其中很少有HTML元素没有响应这些元素是动态生成的jQuery我相信应该有一种方法可以让他们看起来反应灵敏 Me
如何针对 TextReader 使用正则表达式？

在可能非常大的文本中查找模式的最佳方法是什么我可以使用正则表达式但它接受字符串作为参数有没有办法将它与 TextReader 或某种流一起使用不正则表达式可能需要进行回溯由于流只能向前读取这意味着无论如何它都必须将整个流保
无法在 Docker 容器内从 Google API 交换 AccessToken

我有一个用 Go 编写的网络应用程序使用 oauth2 包golang org x oauth2 通过 Google 登录用户按照本教程操作https developers google com identity sign in web
Facebook API - uids 和电子邮件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试开发一个应用程序用户 X 已登录 Facebook 应用程序有一组电子邮件地址可能是用户 X 的朋友应用程序获取用户
为什么要在 Objective C 构造函数中使用 [super init]？

假设我有一个名为 Item 的类它是 NewsItem 和 TwitterItem 的超类如果我想创建一些 NewsItem 我必须使用在构造函数内 self super init 如果是为什么在 Java C 中我会这样做 Ne
Flexbox 实现水平滚动

我正在使用 Flexbox 布局制作一个购物中心网站但 Flexbox 在某些区域会导致问题 Flexbox 似乎在某些区域进行水平滚动但我不希望这样您的问题是横幅中的图像太宽无法适应大多数视口因此它们迫使页面变宽没有简单的方法
在 R 中重复多个 NULL

在我的模拟中我需要一个如下所示的向量 vec NULL NULL NULL NULL 2 2 2 2 4 4 4 4 但是在 R 中当我使用rep NULL 4 它什么也不返回例如 vec all c rep NULL 4 rep
SwiftUI 垂直未对齐的文本

我有一些垂直未对齐的文本我不知道为什么代码 struct IBANInputView View State var securityDigits State var bankCode State var accountNumber va
CSS 动画在 Chrome 中不起作用

对项目的一些见解一个完整的交互式网站动画将在其中播放然后它们会停止一旦它们停止并且动画上发生鼠标悬停事件它将播放直到动画完成 70 当单击另一个对象时在本例中案例文本它将完成它的循环我的项目合作伙伴在 Google Web
语法与运算符结合性之间的关系

一些编译器书籍文章论文谈论语法的设计及其运算符的结合性的关系我是自上而下的忠实粉丝尤其是递归下降解析器到目前为止我编写的大多数如果不是全部编译器都使用以下表达式语法 Expr Term Term Term Factor Fa
适用于 emacs 的交互式拼写检查程序

我最近切换到 emacs24 并升级到 Ubuntu 12 04 我似乎无法让 hunspell 再次正常工作我发现 hunspell 总体上比 aspell 更好 Hunspell 只想使用澳大利亚词典而不是英语美国词典否则会冻结我的
如何将 selenium webelelements 转换为 python 中的字符串列表

我从 Scopus 网站收集了强制性数据我的输出已保存在名为文档的列表中当我对这个列表的每个元素使用 type 方法时 python 返回这个类
接受 Flask url 中的整数列表而不是一个整数

我的 API 有一个通过 url 中传递的 int id 来处理用户的路由我想传递一个 id 列表这样我就可以向 API 发出一个批量请求而不是多个单个请求我如何接受 id 列表 app route user
运行应用程序时，在 VSCode 中启动 ASP.NET Core 应用程序中的特定 URL

如果重要的话可以在 Mac 上运行在 Visual Studio 中您可以在运行或调试 ASP NET Core 项目时使用此方法启动特定 URL 使用 launchUrl 属性这是一个示例 launchSettings json
Laravel 按日期时间格式中的小时进行分组

如何按一天中的时间对网站上的注册进行分组我已经尝试过了但它不起作用 regs DB table registrations gt select createddatetime DB raw COUNT id gt groupBy D
如何访问 docker-compose 在 haproxy 配置中创建的副本

我有一个简单的 haproxy cfg 如下所示 frontend http bind 8080 mode http use backend all backend all mode http server s1 ws 8080 现在我有一
在 Haskell 中查找给定集合 A 和通用集合 U 的补集 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我尝试编写一个函数补集给定一个集合 A 和一个通用集 U 返回 A 相对于 U 的补集包装在 Just 类型构造函数中我必须仔
根据标题开始位置将 CSV 读入 R

我有大量 CSV 文件有些标题从第一行开始有些标题从第三行开始有些则从第七行开始依此类推标题看起来都一样只是在不同文件的不同行上开始有没有办法有条件地读取 csv 文件以从标题开始的位置开始例如如果我知道标题都具有第一个列
在附加的堆栈跟踪中获取了资源但从未释放 - 错误

我不确定为什么会收到此错误五分之二的我使用模拟器设置壁纸时收到错误在附加的堆栈跟踪中获取了资源但从未释放有关避免资源泄漏的信息请参阅 java io Closeable 当我使用手机设置壁纸时效果非常好没有任何故障为什么我
了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）

我有以下 C 17 代码是在 x64 模式下使用 VS 2019 版本 16 8 6 编译的 struct declspec align 16 Vec2f float v 2 struct declspec align 16 Vec4f

了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）

了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构） 的相关文章

随机推荐

热门标签

了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）的相关文章