机器码对齐

2024-02-15

我正在尝试了解机器代码对齐的原理。我有一个汇编器实现，可以在运行时生成机器代码。我在每个分支目标上使用 16 字节对齐，但看起来这不是最佳选择，因为我注意到，如果我删除对齐，有时相同的代码会运行得更快。我认为这与缓存线宽度有关，因此某些命令会被缓存线切断，CPU 会因此而停滞。因此，如果在一个地方插入一些对齐字节，它会将指令移动到进一步通过缓存边界线的地方......

我希望实现一个自动对齐程序，它可以将代码作为一个整体进行处理，并根据CPU的规格（缓存线宽，32/64位等）插入对齐......

有人可以提供有关此程序的一些提示吗？例如，目标 CPU 可以是 Intel Core i7 CPU 64 位平台。

谢谢。

我没有资格回答你的问题，因为这是一个如此庞大和复杂的话题。除了缓存行大小之外，可能还有更多机制在起作用。

不过，我想向您指出阿格纳·福格的网站 http://www.agner.org/optimize/#manuals和优化手册 http://www.agner.org/optimize/optimizing_assembly.pdf for 编译器制造商 http://www.agner.org/optimize/microarchitecture.pdf你可以在那里找到。它们包含有关此类主题的大量信息 - 缓存行、分支预测和数据/代码对齐。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器码对齐的相关文章

CSS 选择器在哪个方向进行验证？

我记得不久前在网上看过一个视频是雅虎工程师的演讲他在视频中提到浏览器从右到左读取 CSS 选择器而不是从左到右意义 body header links a实际上会拉出页面上的所有锚点过滤那些具有类父级的锚点links有一个班级的家
规范“毒”方式真的值得吗？（3NF）

我正处于数据库设计的早期阶段所以还没有最终的结果并且我正在为具有可选标签的线程使用 TOXI 3表设计但我忍不住觉得加入是并不是真的必要也许我只需要依赖我的简单标签列posts我可以在其中存储类似 varchar 的表
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
MikeOS 引导加载程序中的堆栈段

我不明白这段代码 mov ax 07C0h Set up 4K of stack space above buffer add ax 544 8k buffer 512 paragraphs 32 paragraphs loader cli
优化mysql中日期类型字段的查询

我目前准备了以下查询 select sum amount as total from incomes where YEAR date 2019 and MONTH date 07 and incomes deleted at is null
std::类似向量的类经过优化以容纳少量项目[重复]

这个问题在这里已经有答案了在程序的一个时间关键部分中有一个类成员如下所示 std vector m vLinks 在分析过程中我注意到该向量大约 99 98 的执行仅包含 0 或 1 个项目然而在极少数情况下它可能会容纳更多根
我们如何计算这段代码片段中缓存的读取/未命中次数？

鉴于我目前正在学习的这本教科书中的代码片段 Randal E Bryant David R O Hallaron 计算机系统程序员的视角第 3 版 2016 年 Pearson 全球版因此本书的练习可能是错误的 for i 31 i
X86 预取优化：“计算 goto”线程代码

我有一个相当重要的问题我的计算图有循环和多个计算路径我没有制作一个调度程序循环其中每个顶点将被一一调用而是将所有预先分配的框架对象放置在堆中代码数据这有点类似于线程代码甚至更好 CPS 只是在堆中跳转执行代码每个代
如何编译GCC生成的asm？

我正在玩一些汇编代码有些事情困扰着我我编译这个 include
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
LC3 LEA指令和存储的值

我对这个问题感到困惑指令后寄存器0中存储的值是多少 LEA R0 A 被处决了吗为什么答案是x370C 我认为应该将A的地址加载到R0中如果是这样我们怎么知道地址有人可以帮忙吗非常感谢 ORIG X3700 LEA R0 A LD
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
模块化算术和 NTT（有限域 DFT）优化

我想使用 NTT 进行快速平方参见快速大数平方计算 https stackoverflow com q 18465326 2521214 但即使对于非常大的数字结果也很慢超过 12000 位所以我的问题是有没有办法优化我的 NTT
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器
JavaScript - 无需布尔值即可运行一次

有没有办法只运行一段JavaScript代码ONCE 而不使用布尔标志变量来记住它是否已经运行过具体来说not就像是 var alreadyRan false function runOnce if alreadyRan return a
整数溢出问题

我不断遇到整数溢出问题我不知道如何解决它有人可以帮忙吗 edx 包含 181 eax 包含 174 xor eax edx mov edx 2 div edx 假设你谈论的是x86 div edx这实际上没有意义 32位div将edx
超标量和 VLIW

我想问一些关于ILP的问题超标量处理器是标量处理器和矢量处理器的混合体那么我可以说矢量处理器的架构遵循超标量吗同时处理多个指令不会使体系结构超标量因为流水线多处理器或多核体系结构也可以实现这一点这意味着什么我读过超标量 CP

随机推荐

PHP 函数与 jQuery AJAX？

我有一个关于 PHP 函数 jQuery 和 AJAX 的问题如果我的 php 索引中有一个像这样的按钮
谷歌recaptcha Remoteip解释

In the 验证码文档 https developers google com recaptcha docs verify它说remoteip参数是可选的但我不明白它的目的因为即使我发送与 REMOTE ADDR 不同的 IP 来自
使用 KnpSnappyBundle 生成 jpg 时没有资源

这似乎是一个已知问题但我找不到解决方案使用 KnpSnappyBundle 生成 jpg pdf 时未加载 css 文件在谷歌群组上但没有提供答案有没有人找到这个问题的解决方案回答有点晚了但我遇到了同样的问题我使用资产的绝
是否有可能有匹配所有有效正则表达式的正则表达式？

是否可以仅使用正则表达式来检测给定字符串是否是有效的正则表达式假设我有一些字符串它们可能是也可能不是有效的正则表达式我想要一个正则表达式与对应于有效正则表达式的那些字符串相匹配那可能吗或者我是否使用一些更高级别的语法即上下文无关
jquery：嵌套标签和悬停（）在 IE 中不起作用

我有这样的结构 div span span span span span span span span div 我需要捕获容器的 mouseout 事件所以我让 jquery 这样做 container hover function al
在 TeamCity 5.1 通知中显示文件更改

我想在 TeamCity 5 1 电子邮件通知中包含更改文件的列表该通知会在构建成功或失败后发送给我的团队我已经审查了在 TeamCity 5 1 中自定义通知 http confluence jetbrains net display
SwiftUI Widget iOS 14 渐变问题

我想使用自定义颜色为我的小部件创建渐变颜色当我只使用两种颜色时我遇到了问题结果没有应用其中一种颜色但背景变成绿色 struct WeatherWidgetMediumView View var gradient LinearGrad
为什么调用shared_from_this会调用std::terminate

考虑这段代码 class A public std enable shared from this a public std shared ptr a f return shared from this int main A a std s
实体框架：全局禁用删除

我们正在开始一个新的应用程序我们想使用实体框架我们很少担心意外删除sql行特别是意外设置相关数据等我想禁用每个删除因为我们只是用 validUntil 列标记每一行并且从不删除行 I saw 它可以通过 sql 中的角色来完成 h
如何以编程方式更改 RecyclerView 中项目的位置？

有没有办法将特定项目移动到特定位置RecyclerView using LinearLayoutManager以编程方式你可以这样做一些活动片段无论什么 List
为什么连接字符串不适用于 EF 迁移？

我创建了一个与 NuGet Gallery 实现一起使用的数据库我可以在 sql manager 2012 中看到数据库并且可以使用我的连接字符串从我编写的测试程序访问它但是当我尝试在包管理器控制台中运行 Update Databa
VB 中的类与模块

在 VB 中使用模块而不是类有什么优势如果有的话它们有何不同使用模块有哪些优点缺点在 VB 或 VB NET 中我两者都使用 A Modules and B 类只有Shared功能解决同样的问题两者都可以让你从逻辑上grou
删除所有早于 X 天的文件，但至少保留 Y 个最新的文件[重复]

这个问题在这里已经有答案了我有一个脚本可以从备份目录中删除早于 X 21 天的数据库转储 DB DUMP DIR var backups dbs RETENTION 21 24 60 3 weeks find DB DUMP DIR t
代号一个应用程序中的额外侧边菜单

在我的应用程序中我有一个右侧菜单但似乎还有一个左侧菜单仅包含后退按钮没有菜单按钮带有三条水平线但如果触摸屏幕左边缘并拖动则会出现菜单我不明白为什么要创建它但是有什么方法可以禁用或删除它吗 None
在 PHP 中查找多个字符串位置

我正在编写一个解析给定 URL 的 PHP 页面我能做的就是仅找到第一个出现的值但是当我回显它时我得到另一个值而不是给定的值这就是我到目前为止所做的我知道可以使用循环但我不知道循环体的条件我怎
在从 PHP 发送的电子邮件中使用 HTML 格式

如何通过 PHP 脚本发送 HTML 格式由于某种原因它总是显示为 b Example b 代替Example 我确信我必须在某个地方包含 HTML 标头我只是不知道需要做什么我是一个十足的 PHP 菜鸟这是我的 PHP 脚本相
Jupyter笔记本导入错误：没有名为tornado.log的模块

我已经安装了 jupyter 当尝试启动它时出现以下错误 File Library Frameworks Python framework Versions 2 7 bin jupyter notebook line 7 in
防病毒软件说我的程序可疑

我在 wpf Visual Studios 中构建了一个程序当我运行它时 avast 说检测到可疑程序然后关闭我的程序我可以采取任何措施来验证它还是必须进入 avast 并将其设置为不阻止我的程序您当然可以在大多数主要防病毒软件包
获取 json 数组的下一个和上一个元素

我的代码需要帮助我想要一个上一个和一个下一个按钮这些按钮将调用函数 viewBlogItem direction cat blogid 在该函数中我将读出 json 文件并按类别进行分类每个 blogItem 都有一个arti
机器码对齐

我正在尝试了解机器代码对齐的原理我有一个汇编器实现可以在运行时生成机器代码我在每个分支目标上使用 16 字节对齐但看起来这不是最佳选择因为我注意到如果我删除对齐有时相同的代码会运行得更快我认为这与缓存线宽度有关因此某些命令

机器码对齐

机器码对齐 的相关文章

随机推荐

热门标签

机器码对齐的相关文章