如何减轻 Intel jcc 勘误表对 gcc 的影响？

2024-01-04

如果我有一个芯片受英特尔 jcc 勘误表 https://stackoverflow.com/questions/61016077/32-byte-aligned-routine-does-not-fit-the-uops-cache/61016915#61016915，如何在 gcc 中启用缓解措施（调整分支位置以避免出现问题的对齐），以及哪些 gcc 版本支持它？

通过编译器：

GCC: -Wa,-mbranches-within-32B-boundaries
叮当声（10+）：-mbranches-within-32B-boundaries直接编译选项，而不是-Wa.
MSVC: /QIntel-jcc-erratum https://learn.microsoft.com/en-us/cpp/build/reference/qintel-jcc-erratum?view=msvc-170 See 英特尔 JCC 勘误表 - 用于缓解的前缀有什么影响？ https://stackoverflow.com/questions/70216761/intel-jcc-erratum-what-is-the-effect-of-prefixes-used-for-mitigation
ICC：TODO，查找文档。

GNU 工具链在汇编器中进行缓解，其中as -mbranches-within-32B-boundaries，这使得 (GAS 手册：x86 选项 https://sourceware.org/binutils/docs/as/i386_002dOptions.html):

-malign-branch-boundary=32（关心 32 字节边界）。除了手册说这个选项需要一个指数，而不是 2 的直接幂，所以可能它实际上是...boundary=5.
-malign-branch=jcc+fused+jmp（默认值是not包括任何+call+ret+indirect)
-malign-branch-prefix-size=5（每个 insn 最多 5 个段前缀）。

所以相关的 GCC 调用是 gcc -Wa,-mbranches-within-32B-boundaries
不幸的是，海湾合作委员会-mtune=skylake不启用此功能。

GAS 的策略似乎是在最后一个对齐指令（例如.p2align) 或在最后一个可以结束的 jcc/jmp 之后before32B 边界。我猜想最终可能会在内循环之前或之后在外循环中进行填充，也许可以帮助它们适应更少的 uop 缓存行？（Skylake 还禁用了 LSD 循环缓冲区，因此跨两个 uop 缓存行的微小循环每次迭代最多可以运行 2 个周期，而不是 1 个。）

它可能会导致相当大量的带有长宏融合跳转的填充，例如-fstack-protector-strong最近海湾合作委员会使用sub rdx,QWORD PTR fs:0x28 / jnz（早期 GCC 曾使用xor，即使在英特尔上也无法融合）。 sub + jnz 总共 11 个字节，因此在最坏的情况下可能需要 11 个字节的 CS 前缀才能将其移动到新的 32B 块的开头。显示其前面的 insn 中的 8 个 CS 前缀的示例：https://godbolt.org/z/n1dYGMdro https://godbolt.org/z/n1dYGMdro

GCC 不知道指令大小，它只打印文本。这就是为什么它需要 GAS 来支持诸如.p2align 4,,10如果需要少于 10 个字节的填充，则按 16 对齐，以实现它想要使用的对齐试探法。（通常后面跟着.p2align 3无条件对齐8。）

as还有其他默认情况下未启用的有趣选项，例如-Os优化手写asm，例如mov $1, %rax => mov $1, %eax / xor %rax,%rax => %eax / test $1, %eax => al甚至 EVEX => VEX 对于 vmovdqa64 => vmovdqa 之类的东西。

还有类似的东西-msse2avx即使助记符不是，也始终使用 VEX 前缀v..., and -momit-lock-prefix=yes它可用于为单处理器系统构建 std::atomic 代码。

And -mfence-as-lock-add=yes组装mfence into lock addl $0x0, (%rsp)。但疯狂的是，它也这样做了sfence乃至lfence，所以它在使用的代码中不可用lfence作为执行障碍，这是主要用例lfence。例如对于 retpolines 或计时，例如lfence;rdtsc.

as还具有 CPU 功能级别检查-march=znver3例如，或者.arch指令。和-mtune=CPU，尽管我不知道那是做什么的。也许设定 NOP 策略？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何减轻 Intel jcc 勘误表对 gcc 的影响？的相关文章

如何让 gcc/clang 警告 switch 语句中缺少中断

有什么办法可以使gcc or clang警告 switch 语句中缺少中断具体来说我几乎总是希望 case 语句以中断结束如果我不这样做的话如果我能让编译器抱怨那就太好了如果它会寻找一个break语句或一个 fall throu
_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

我有一个图像处理算法来计算a b c d与AVX 伪代码如下 float a new float N float b new float N float c new float N float d new float N assign va
类和结构在填充和继承方面的区别

以下所有操作都将在 GCC 9 1 上使用编译器资源管理器 https github com mattgodbolt compiler explorer 在 x86 64 中使用 O3 我有这个代码 struct Base Base do
“const”声明是否有助于编译器（GCC）生成更快的代码？ [复制]

这个问题在这里已经有答案了 Do const声明有助于编译器 GCC 生成更快的代码还是仅对可读性和正确性有用泽德肖认为const在 C C 中无用或过度使用接下来是对 const 的所有奇怪的迷恋由于某些奇怪的原因 C 喜欢让你
安装 Pillow 错误：安装脚本退出并出现错误：命令“x86_64-linux-gnu-gcc”失败，退出状态为 1

当我尝试安装 Pillow 2 5 3 时我收到错误命令 x86 64 linux gnu gcc 失败退出状态为 1 这是所发生事件的完整日志 http pastebin com 5k2TsyJY 我需要这个库作为另一个 pytho
警告：c 中指针和整数之间的比较[默认启用]

我想检查用户输入是否仅包含数字所以我使用以下代码 for i 0 argv 1 i NULL i if isdigit argv 1 i printf Error return 1 它工作得很好但我收到了这个警告 warning co
gcc 的 -Wbad-function-cast 的目的是什么？

根据此处答案的建议我打开了 Wbad function cast看看我的代码是否有 gcc 可以捕获的任何不良行为结果出现了这个示例 unsigned long n int crossover int pow n 14 这里并不重要cr
未初始化成员的警告在 C++11 上消失

我编译这个简单的程序 include
内联 asm 中不支持的指令“mov”将控制寄存器移动到 uint32_t

我在 C 函数中使用汇编代码但海湾合作委员会给出unsupported instruction mov 以下代码的错误 uint32 t faulting address asm volatile mov cr2 0 r faulting
在 x86 Intel VT-X 非根模式下，是否可以在每个指令边界传递中断？

除了不将中断传送到虚拟处理器的某些正常指定条件 cli if 0 等之外客户机中的所有指令实际上都是可中断的吗也就是说当传入的硬件中断先传递给 LAPIC 然后传递给处理器时据说会发生一些内部魔法将其转换为虚拟中断给来宾使用虚
__libc_start_main 发生了什么？

我真的很想理解从高级代码到可执行文件的步骤但是遇到了一些困难我写了一个空的int main C 文件并尝试通过以下方式破译反汇编objdump d 这是发生的事情 in start 设置对齐方式将参数压入堆栈调用 libc star
使用 gcc 的中间 GIMPLE 格式

根据本文 http en wikipedia org wiki Intermediate languagegcc 在生成代码之前使用多种中间格式我读到 GIMPLE 格式使用三个地址代码这似乎是最容易使用的中间语言但我需要更多细节因
有没有办法将 fopen_s() 与 GCC 一起使用，或者至少创建一个 #define ？

MSVC 编译器说fopen 已弃用建议使用fopen s 有什么办法可以使用吗fopen s 并且仍然便携任何想法 define 微软的 s函数是不可移植的我通常使用等效的 C89 C99 函数并禁用弃用警告 define CRT
在 Ubuntu 上用 C 项目编译和链接 GTK 3

我相信这不是重复的问题在发布此问题之前我已经看过所有问题答案我想我这里的情况有所不同我使用Ubuntu 12 04并下载GTK 2 和 3 我从 GNOME 网站复制了一个简单的 GTK 源代码但是当我在终端中使用这个命令时 gc
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
禁止精度损失的整数转换

如何防止此类代码被编译 include
Nasm 打印到下一行

我用 nasm Assembly 编写了以下程序 section text global start start Input variables mov edx inLen mov ecx inMsg mov ebx 1 mov eax 4
`printf()` 中格式说明符“%qd”的用途是什么？

我看到格式说明符 qd浏览时github https github com Microsoft clang blob master test Sema format strings c代码然后我检查了 GCC 编译器它工作正常 incl
如何在编译C代码时禁用警告？

我正在使用 32 位 Fedora 14 系统我正在使用编译我的源代码gcc 有谁知道如何在编译c代码时禁用警告 EDIT 是的我知道最好的办法是修复这些警告以避免任何未定义未知的行为但目前在这里我第一次编写了巨大的代码并且在
“rep stos”x86 汇编指令序列有什么作用？

我最近偶然发现了以下汇编指令序列 rep stos dword ptr edi For ecx重复存储内容eax到哪里edi指向递增或递减edi 取决于方向标志每次 4 个字节通常这用于memset型操作通常该指令简单地写成r

随机推荐

重新启动auditd服务会出现依赖错误

我正在尝试为 docker 守护进程配置审核如下所示将下面的行添加到 etc audit audit rules file w usr bin dockerd k docker 然后使用以下命令重新启动审核守护程序 service a
使用 IB 调整大小构建自定义 UITableViewCell？

我已确保单元格的自动调整大小蒙版允许灵活的宽度但当设备旋转时单元格的大小不会调整我还验证了表格视图已调整大小问题直接出在单元格上这是我用来创建单元格的代码 if cell nil Load the top level object
带系统函数的 C 程序中的大括号扩展

我尝试了命令 cat tmp file 1 3 gt newFile 并且工作完美但是当我编译并执行以下c程序时 include
在最新的 Ember 中，如何仅使用模型的 id/名称链接到路由，而不是在链接页面中提供其所有属性？

从 Ember 1 0 pre2 转换到最新的 master 时我遇到了问题 43354a98 https github com emberjs ember js commit 43354a98a5e441095132b1407f3e1f4
在 React Native 中导入图形工具包会导致错误 500

我正在使用最新版本的Expo 我创建了一个项目expo init my project并添加了React Native 图表套件 https github com indiespirit react native chart kit 这是p
使用 Knockout-ES5 时如何访问自定义绑定中的可观察量

如果模型属性是 ko observable 则可以在自定义绑定中按如下方式访问这些属性 var observable valueAccessor 使用 Knockout ES5 插件时如何在自定义绑定中获取可观察值检查下面的代码并查找注
简单的 Flask 应用服务器使用 ajax 和 jquery 传递数据

我花了一整天的时间修补这个应用程序试图将一些简单的信息传递到应用程序的后端我正在使用一个简单的 Flask 应用程序并尝试使用 ajax 将数据从搜索查询发送到后端然而我却完全没有成功任何帮助将不胜感激下面是app py fr
使用 ClrMD 加载转储文件时出现“加载 DAC 失败：CreateDacInstance 失败”

我正在尝试微软的新库 ClrMD https nuget org packages Microsoft Diagnostics Runtime 分析故障转储和实时进程我已遵循 NET Framework 中的示例博客文章 http blo
Homebrew：木桶“java”定义无效

我最近更新木桶时开始收到以下错误 Error Cask java definition is invalid Token v1 gt java in header line does not match the file name 我使用的
将字符串加密和解密为固定长度

我研究了很多例子并尝试了几篇文章但他们都没有解决我的问题我想加密数据库中的主列值整数值并将其显示在 URL 中我希望我的 URL 简单易读因此我不需要冗长的加密值大多数情况下我会查看 5 到 7 个字符的长度这可能吗如果
如何在 Inno Setup 中用零填充 OutputBaseFilename 的版本组件

我有 Inno Setup 6 1 2 安装脚本其中版本main sub batch是这样形成的 define AppVerText GetVersionComponents app bin Release app exe Local 0
grunt-contrib-uglify v5.0.0 仍然无法支持 ES6 模板文字？

更新 2012 年 1 月 9 日起初我认为这是由于模板文字中的单引号造成的 replyTo MTN Support lt functions config supportgmail email gt 但现在已经证实即使是普通的模板文
无法打开prover9/Mace4

我使用一个代码并在其中尝试使用 Prover9 但由于某种原因这个问题不断弹出我下载了这两个应用程序但我不知道将它们放在哪里才能打开它 NLTK 无法找到 mace4 文件使用软件特定的配置参数或设置 PROVER9 环境变量搜
从 Gradle 输出中删除隐式依赖警告

我的 Gradle 构建中有一个通用任务它复制一些配置文件以包含在构建中但编译或其他任何操作都不需要这些文件它们在运行时使用基本上 val copyConfiguration by tasks registering Copy cl
在检查点 Tensorflow 中找不到键

我正在使用 Tensorflow v1 1 并且一直在尝试找出如何使用 EMA 权重进行推理但无论我做什么我都会不断收到错误未找到在检查点中未找到 W ExponentialMovingAverage 键即使当我循环并打印出所有t
熊猫显示的百分位错误吗？

我正在使用这个 WNBA 数据集here https www kaggle com jinxbe wnba player stats 2017 我正在分析Height变量下表显示了记录的每个高度值的频率累积百分比和累积频率从表中我可以
完成块？嵌入同步工作流中的异步流程

潜伏已久第一次发海报我对 Objective C 比较陌生所以如果我问的问题相当简单我很抱歉我的谷歌和堆栈溢出让我失望了所以我想有人可以提供帮助我有一个同步进程比如说连续执行三个函数称之为 A gt B gt C 其中执
从第三方 DLL 调用 Qt 中的函数在调试模式下工作，在发布模式下崩溃

我使用第三方 DLL FTD2xx 与外部设备通信使用 Qt4 在调试模式下一切正常但在成功完成被调用函数后发布会无声地崩溃它似乎在返回时崩溃但是如果我在函数末尾向控制台使用 qDebug 写入一些内容有时它不会在那里崩溃而
Perl 单行代码仅保留所需的行

我有一个像这样的文本文件 input txt NP 414685 4 15 26 131 138 441 465 NP 418580 2 493 500 NP 418780 2 36 48 44 66 NP 418345 2 NP 4184
如何减轻 Intel jcc 勘误表对 gcc 的影响？

如果我有一个芯片受英特尔 jcc 勘误表 https stackoverflow com questions 61016077 32 byte aligned routine does not fit the uops cache 6101

如何减轻 Intel jcc 勘误表对 gcc 的影响？

如何减轻 Intel jcc 勘误表对 gcc 的影响？ 的相关文章

随机推荐

热门标签

如何减轻 Intel jcc 勘误表对 gcc 的影响？的相关文章