Intel x86 与 AMD x86 CPU 上的访问性能不一致

2024-03-20

我已经实现了一个带有结构内存布局数组的简单线性探测哈希图。该结构包含键、值和指示条目是否有效的标志。默认情况下，该结构体由编译器填充，因为键和值是 64 位整数，但该条目仅占用 8 个布尔值。因此，我也尝试以未对齐访问为代价来打包结构。由于内存密度更高（我们不会在传输填充字节上浪费带宽），我希望从打包/未对齐版本中获得更好的性能。

When benchmarking this hash map on an Intel Xeon Gold 5220S CPU (single-threaded, gcc 11.2, -O3 and -march=native), I see no performance difference between the padded version and the unaligned version. However, on an AMD EPYC 7742 CPU (same setup), I find a performance difference between unaligned and padded. Here is a graph depicting the results for hash map load factors 25 % and 50 %, for different successful query rates on the x axis (0,25,50,75,100): As you can see, on Intel, the grey and blue (circle and square) lines almost overlap, the benefit of struct packing is marginal. On AMD, however, the line representing unaligned/packed structs is consistently higher, i.e., we have more throughput.

为了研究这一点，我尝试构建一个更小的微基准。在此微基准测试中，我们执行类似的基准测试，但没有哈希映射查找逻辑（即，我们只是在数组中选择随机索引并在那里前进一点）。请在此处查找基准：

#include <atomic>
#include <chrono>
#include <cstdint>
#include <iostream>
#include <random>
#include <vector>

void ClobberMemory() { std::atomic_signal_fence(std::memory_order_acq_rel); }

template <typename T>
void doNotOptimize(T const& val) {
  asm volatile("" : : "r,m"(val) : "memory");
}

struct PaddedStruct {
  uint64_t key;
  uint64_t value;
  bool is_valid;

  PaddedStruct() { reset(); }

  void reset() {
    key = uint64_t{};
    value = uint64_t{};
    is_valid = 0;
  }
};

struct PackedStruct {
  uint64_t key;
  uint64_t value;
  uint8_t is_valid;

  PackedStruct() { reset(); }

  void reset() {
    key = uint64_t{};
    value = uint64_t{};
    is_valid = 0;
  }
} __attribute__((__packed__));

int main() {
  const uint64_t size = 134217728;
  uint16_t repetitions = 0;
  uint16_t advancement = 0;

  std::cin >> repetitions;
  std::cout << "Got " << repetitions << std::endl;
  std::cin >> advancement;
  std::cout << "Got " << advancement << std::endl;
  std::cout << "Initializing." << std::endl;

  std::vector<PaddedStruct> padded(size);
  std::vector<PackedStruct> unaligned(size);
  std::vector<uint64_t> queries(size);

  // Initialize the structs with random values + prefault
  std::random_device rd;
  std::mt19937 gen{rd()};
  std::uniform_int_distribution<uint64_t> dist{0, 0xDEADBEEF};
  std::uniform_int_distribution<uint64_t> dist2{0, size - advancement - 1};

  for (uint64_t i = 0; i < padded.size(); ++i) {
    padded[i].key = dist(gen);
    padded[i].value = dist(gen);
    padded[i].is_valid = 1;
  }

  for (uint64_t i = 0; i < unaligned.size(); ++i) {
    unaligned[i].key = padded[i].key;
    unaligned[i].value = padded[i].value;
    unaligned[i].is_valid = 1;
  }

  for (uint64_t i = 0; i < unaligned.size(); ++i) {
    queries[i] = dist2(gen);
  }

  std::cout << "Running benchmark." << std::endl;

  ClobberMemory();
  auto start_padded = std::chrono::high_resolution_clock::now();
  PaddedStruct* padded_ptr = nullptr;
  uint64_t sum = 0;
  for (uint16_t j = 0; j < repetitions; j++) {
    for (const uint64_t& query : queries) {
      for (uint16_t i = 0; i < advancement; i++) {
        padded_ptr = &padded[query + i];
        if (padded_ptr->is_valid) [[likely]] {
          sum += padded_ptr->value;
        }
      }
      doNotOptimize(sum);
    }
  }

  ClobberMemory();
  auto end_padded = std::chrono::high_resolution_clock::now();
  uint64_t padded_runtime = static_cast<uint64_t>(std::chrono::duration_cast<std::chrono::milliseconds>(end_padded - start_padded).count());
  std::cout << "Padded Runtime (ms): " << padded_runtime << " (sum = " << sum << ")" << std::endl;  // print sum to avoid that it gets optimized out

  ClobberMemory();
  auto start_unaligned = std::chrono::high_resolution_clock::now();
  uint64_t sum2 = 0;
  PackedStruct* packed_ptr = nullptr;
  for (uint16_t j = 0; j < repetitions; j++) {
    for (const uint64_t& query : queries) {
      for (uint16_t i = 0; i < advancement; i++) {
        packed_ptr = &unaligned[query + i];
        if (packed_ptr->is_valid) [[likely]] {
          sum2 += packed_ptr->value;
        }
      }
      doNotOptimize(sum2);
    }
  }
  ClobberMemory();
  auto end_unaligned = std::chrono::high_resolution_clock::now();
  uint64_t unaligned_runtime = static_cast<uint64_t>(std::chrono::duration_cast<std::chrono::milliseconds>(end_unaligned - start_unaligned).count());
  std::cout << "Unaligned Runtime (ms): " << unaligned_runtime << " (sum = " << sum2 << ")" << std::endl;
}

运行基准测试时，我选择重复= 3和进度= 5，即编译并运行后，您必须输入3（并按换行符），然后输入5并按回车/换行符。我更新了源代码，以（a）避免编译器展开循环，因为重复/前进是硬编码的；（b）切换到指向该向量的指针，因为它更类似于哈希映射正在执行的操作。

在 Intel CPU 上，我得到：

填充运行时间（毫秒）：13204 未对齐运行时间（毫秒）：12185

在 AMD CPU 上，我得到：

填充运行时间（毫秒）：28432 未对齐运行时间（毫秒）：22926

因此，虽然在这个微基准测试中，英特尔仍然从未对齐的访问中受益匪浅，但对于AMD CPU来说，绝对和相对改进都更高。我无法解释这一点。一般来说，根据我从相关 SO 线程了解到的情况，单个成员的未对齐访问与对齐访问一样昂贵，只要它保留在单个缓存行 (1) 内。同样在（1）中，给出了对（2）的参考，其中声称缓存读取宽度可以与缓存行大小不同。然而，除了 Linus Torvalds 的邮件之外，我找不到任何其他有关处理器中缓存获取宽度的文档，尤其是我的具体两个 CPU 无法找出这是否与此有关。

有人知道为什么 AMD CPU 从结构打包中获益更多吗？如果是关于减少内存带宽消耗，我应该能够看到对两个 CPU 的影响。如果带宽使用情况相似，我不明白是什么导致了这里的差异。

太感谢了。

(1) 相关SO线程：如何在 x86_64 上准确地衡量未对齐访问速度？ https://stackoverflow.com/questions/45128763/how-can-i-accurately-benchmark-unaligned-access-speed-on-x86-64

(2)

Intel Xeon Gold 5220S（以及所有其他 Skylake/CascadeLake Xeon 处理器）上的 L1 数据缓存读取宽度每个负载每个周期最多 64 个自然对齐字节。

对于不跨越高速缓存线边界的任何大小和对齐组合，核心可以在每个周期执行两次加载。我没有在 SKX/CLX 处理器上测试所有组合，但在 Haswell/Broadwell 上，每当负载跨越缓存线边界时，吞吐量就会减少到每个周期一个负载，并且我假设 SKX/CLX 是相似的。这可以被视为必要的功能而不是“惩罚”——行分割负载可能需要使用两个端口来加载一对相邻的行，然后将行的请求部分组合到目标寄存器的有效负载中。

跨页边界的负载会产生较大的性能损失，但要测量它，您必须非常小心地理解和控制两个页的页表条目的位置：DTLB、STLB、在高速缓存中或在主内存中。我记得最常见的情况是相当快的——部分原因是“下一页预取器”非常擅长在一系列加载到达第一个页面的末尾之前将下一页的 PTE 条目预先加载到 TLB 中页。唯一慢得令人痛苦的情况是跨页边界的存储，英特尔编译器非常努力地避免这种情况。

我没有详细查看示例代码，但如果我执行此分析，我会小心固定处理器频率，测量指令和周期计数，并计算每次更新的平均指令数和周期数。（我通常将核心频率设置为标称（TSC）频率，只是为了使数字更易于使用。）对于自然对齐的情况，查看汇编代码并估计周期计数应该非常容易是。如果测量结果与该情况的观察结果相似，那么您可以开始查看未对齐访问的开销，以更可靠地了解基线。

对于这种情况，硬件性能计数器也很有价值，特别是 DTLB_LOAD_MISSES 事件和 L1D.REPLACEMENT 事件。只需要一些高延迟的 TLB 未命中或 L1D 未命中事件就会导致平均值出现偏差。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Intel x86 与 AMD x86 CPU 上的访问性能不一致的相关文章

在 x86-64 中使用 32 位寄存器/指令的优点

有时 gcc 使用 32 位寄存器而我希望它使用 64 位寄存器例如以下 C 代码 unsigned long long div unsigned long long a unsigned long long b return a b
在 x86_64 linux 中重定位超过 2GB 的程序时出现链接器错误？

我有一个用户程序通常编译为有一个入口点0x400460我必须重新定位才能有一个从以下位置开始的入口点2GBLinux 中加载的共享库例如 linux vdso so 1 gt 0x00007fff109cd000 libc so 6 g
未优化的 clang++ 代码在简单的 main() 中生成不需要的“movl $0, -4(%rbp)”

我创建了一个最小的 C 程序 int main return 1234 并使用 clang 5 0 禁用优化默认 O0 得到的汇编代码是 https gcc godbolt org z OYLghAFBqd5QCxAYwPYBMCmBRd
C 语言的完整 x86/x64 JIT 汇编器

你知道类似的事情吗this http code google com p asmjit 但是可以嵌入到 C 程序中吗一些选项 LibJIT http www gnu org software dotgnu GNU闪电 http www g
在单周期数据路径中加载半字和加载字节

有人询问如何在单周期数据路径中实现加载字节而无需更改数据存储器解决方案如下替代文本 http img214 imageshack us img214 7107 99897101 jpg http img214 imageshack us
从信号处理程序返回而不进入内核+用户空间中断

这是我的旧问题的后续通过 setcontext 从信号处理程序返回 https stackoverflow com questions 69237910 returning from a signal handler via setcon
英特尔 SGX 开发者许可和开源软件

是否可以获得许可的开发人员证书用于在生产模式下签署经过安全审查社区开发的开源 SGX 软件二进制文件并将其发布到 apt 或 rpm 等开源存储库上我刚刚询问了Intel SGX团队他们说只有经过验证的供应商才能获得证书并在生产模
Fork 系统调用失败后 rax 中的返回值是多少？

我知道打电话fork 在C中如果有错误将返回 1 但我想知道当你调用时错误返回值是什么sys fork在装配中我通常会假设它也返回 1 但我已经处理过 sys brk 并且汇编中的原始系统调用返回与 C Brk 包装器不同的东西有谁知道
如何在 x86_64 上准确地衡量未对齐访问速度？

In 一个答案 https stackoverflow com questions 45116212 are packed structs portable 45116730 45116730 我已经说过在很长一段时间内未对齐访问的速度
BOOST_LIKELY 和 __builtin_expect 仍然相关吗？

我明白所解释的内容here https stackoverflow com questions 7346929 why do we use builtin expect when a straightforward way is to us
计算 Amd Zen 2 处理器上的 L3 缓存访问事件

我试图找出与 perf stat 命令一起使用的事件来计算 AMD Zen 2 处理器上的 L3 缓存访问次数根据 PPR http developer amd com wordpress media 2017 11 54945 PPR
Linux 如何在 x86-64 中支持超过 512GB 的虚拟地址范围？

Linux 中 x86 64 的用户虚拟地址空间为 47 位长这本质上意味着 Linux 可以映射大约 128 TB 虚拟地址范围的进程然而令我困惑的是 x86 64 架构支持 ISA 为每个进程定义的 4 级分层页表排列为基数树
RISC-V 规范引用了“hart”一词 - “hart”是什么意思？

我找到了参考文献hart在第 35 页RISC V 2 1 规范 https content riscv org wp content uploads 2016 06 riscv spec v2 1 pdf 但是我找不到它的定义hart在
如何可移植地乘以 64 位操作数并获得 128 位结果？

对于 x64 我可以使用这个 uint64 t hi lo hi lo 64bit x 64bit multiply of c 0 and b 0 asm mulq 3 n t d hi a lo a c 0 rm b 0 cc a 0 h
C#：TurboBoost 激活时如何获取 Intel i 系列 CPU 的当前时钟速度

我知道有可能获得此信息 Intel 自己的 TurboBoost 侧边栏小工具似乎使用 ActiveX 控件来确定 TurboBoost 处于活动状态时 i3 i5 i7 CPU 的当前时钟速度但是我想在 C 中以编程方式执行此操作从
为什么当设置为 TLS 选择器时，ES 和 DS 在 64 位内核上最终会归零？

下面的 32 位程序调用set thread area 2 http linux die net man 2 set thread area在 GDT 中创建一个条目该条目旨在用于 TLS 通常将结果选择器放入FS or GS并成功使用
缓存行对齐（需要文章澄清）

我最近在我的应用程序中遇到了我认为是错误共享的问题我查了一下关于如何将我的数据与缓存行对齐他建议使用以下 C 代码 C using C 0x alignment syntax template
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况
在 x86 Intel VT-X 非根模式下，是否可以在每个指令边界传递中断？

除了不将中断传送到虚拟处理器的某些正常指定条件 cli if 0 等之外客户机中的所有指令实际上都是可中断的吗也就是说当传入的硬件中断先传递给 LAPIC 然后传递给处理器时据说会发生一些内部魔法将其转换为虚拟中断给来宾使用虚
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会

随机推荐

如何将输出重定向到 Gvim 作为要打开的文件列表？

我想findstr m background vim gvim打开全部 vim文件包含background在 gvim 的单个实例中但我无法让管道工作这与此非常相似question https stackoverflow com que
我想减少 VS.NET 项目的编译时间 - 您对此有何想法？

我的项目是在 Visual Studio 08 中使用 C 开发的它是一个独立的桌面应用程序大约有 6 万行代码曾几何时我喜欢使用这个软件现在编译时间已经增长到大约 2 分钟它变得不再那么令人愉快我认为我缺乏 C 经验可能是一
Android OpenGL - ES 纹理渗色

我正在编写一个小应用程序目前可以生成随机纹理图我将这张地图绘制为一组 10 x 15 的四边形它们实际上都是三角形带我使用 map 来获取一个int 然后将其作为textureAtlas 中该正方形的纹理位置例如 0 是左下角的
自定义字段未保存

我尝试使用 WPGraphQL 向用户添加自定义用户字段因此我尝试重新创建官方 WPGraphQL 文档中的示例https docs wpgraphql com extending fields register fields to th
使用 openssl aes 256 cbc 对加密文件进行 Java 解密

几天来我一直在尝试用java解密一条用openssl加密的消息使用以下命令对消息进行加密 openssl enc e aes 256 cbc kfile file key in toto out toto enc 文件file key包含
从子 UIViewController 调用父 UIViewController 方法

我有一个父 UIViewController 它打开一个子 UIViewController let storyboard UIStoryboard name Main bundle nil let vc storyboard instan
在 C# 中创建或替换没有根的 XML 中的节点

我有一个像这样的 XML 文件
在 Tkinter 中按下按钮后如何清除 Entry 小部件？

我正在尝试清除Entry用户使用 Tkinter 按下按钮后的小部件我尝试使用ent delete 0 END 但我收到错误消息说字符串没有该属性delete 这是我的代码我在其中遇到错误real delete 0 END secret
C# 数组是否保证在内存中顺序存储？

根据互联网上的许多资料在 C 中数组是按顺序存储的也就是说如果我有一个指向数组中第一个元素的指针比如说int start array 0 然后我可以访问array i 通过做 start i 但是我正在查看存储在中的 C 语言规
在Python中，使用bisect在字典列表中查找项目

我有一个字典列表如下所示 test data offset 0 data 1500 offset 1270 data 120 offset 2117 data 30 offset 4055 data 30000 字典项在列表中按照以下顺序
将 MBean 从 JBoss 4.x 移植到 JBoss 7

我们目前正在将一些项目从 JBoss 4 x 移植到 JBoss 7 到目前为止一切似乎都工作正常除了 MBean 之外我们通常使用 MBean 来提供简单的管理操作我已经搜索了很长一段时间但要么我无法提出正确的搜索词要么我缺少
在使用“with”子句的查询中使用 Laravel 的 toSql

我正在 Laravel 工作我有兴趣检查由包含 with 语句的 Eloquent 查询生成的 SQL 语句由于某种原因我只得到主要查询例如当我跑步时 class Child extends EloquentVersioned p
jQuery 选择列表删除所有选项

我有一个
如何在iOS项目中使用dylib库和hpp头文件？

我已经获得了一个 dylib 库和一个 hpp 头文件我应该在 Xcode 中的 iOS 项目中使用它们我一直在网上查找但所有答案都很简洁没有具体的步骤可遵循我只需将这些文件复制到我的项目中吗如何在 Obj C 类中创建使用库
如何估计线程上下文切换开销？

我正在尝试通过实时截止日期来提高线程应用程序的性能它运行在 Windows Mobile 上并用 C C 编写我怀疑高频率的线程切换可能会导致有形的开销但既不能证明也不能反驳它众所周知缺乏证据并不是相反的证明因此我的问题是双重的
iPhone UITableView：如何删除组样式表中各部分之间的间距？

我正在创建一个表格视图其中有 10 个部分所有部分都有标题视图但没有单元格所以简而言之我的表视图将仅显示 10 个标题视图任何部分都不会有单元格现在当我这样做时该部分的标题视图之间有一些空间我想删除那个空格那可能吗
在 Flutter 中显示几秒钟后没有执行操作按钮时关闭 AlertDialog

我有一个 AlertDialog 弹出几秒钟然后自动弹出没有执行任何操作按钮弹出后会显示另一个AlertDialog 我怎样才能做到这一点这是我的示例代码初始化计时器以显示第一个对话框 timerToShowFirstDialo
AVFoundation，在预览层中剪掉边缘

我正在开发一些 iOS 应用程序我需要在其中进行一些相机扫描这是我第一次体验 AVFoundation 之前我使用 UIImagePickerController 开发相机应用程序但 AVFoundation 似乎更强大问题是它会切
使用 doPost 将文件上传到 Google Web Apps

我正在尝试使用 doPost e 将文件上传到 Google Web App 如下所示 function doPost e var blob e parameter myFile DriveApp createFile blob 然后将文件
Intel x86 与 AMD x86 CPU 上的访问性能不一致

我已经实现了一个带有结构内存布局数组的简单线性探测哈希图该结构包含键值和指示条目是否有效的标志默认情况下该结构体由编译器填充因为键和值是 64 位整数但该条目仅占用 8 个布尔值因此我也尝试以未对齐访问为代价来打包结构由于

Intel x86 与 AMD x86 CPU 上的访问性能不一致

Intel x86 与 AMD x86 CPU 上的访问性能不一致 的相关文章

随机推荐

热门标签

Intel x86 与 AMD x86 CPU 上的访问性能不一致的相关文章