x86 组装pushad/popad，速度有多快？

2024-02-29

我只是想在 x86 汇编中制作非常快速的基于计算的程序但我需要在调用程序之前推送累加器、计数器和数据寄存器。手动推送它们更快：

push eax
push ecx
push edx

或者只是使用，

pushad

和 pop 一样。谢谢

如果你关心性能，pusha / popa几乎没有用处。它们仅在以牺牲速度为代价来优化代码大小时才有用，例如保存/恢复函数周围的寄存器。但对于非人来说非常不方便void函数，因为它们会重新加载all寄存器，因此您必须将返回值存储在内存中（例如，通过将被加载到的堆栈槽）eax，或其他地方之后重新加载popad).

只压入需要保存的寄存器，或者您想要作为函数参数传递。或者，在内联汇编 /questions/tagged/inline-assembly，只需让编译器通过声明来为您管理寄存器"=r"(dummy1)任何临时寄存器的虚拟输出操作数，或在特定寄存器上使用 clobber。通常，编译器可以选择可以让您破坏而不保存的寄存器。（或者在笨重的 MSVC 风格的内联汇编中，编译器无法为您分配寄存器，因此您必须手动选择。编译器会解析您的汇编以查找破坏者。）

您通常不需要保存/恢复eax;为了性能你应该mov esi, eax/调用/使用中的值esi，如果您无法计算其中的值esi首先。即使用调用保留寄存器来保存需要保存的值call，因此重要值的存储/重新加载不在关键路径上。相反，存储/重新加载位于您（或编译器）调用者的调用保留寄存器之一的关键路径上push/pop围绕整个函数，在任何循环之外。

查看更多关于调用保留寄存器与调用破坏寄存器 https://stackoverflow.com/questions/9268586/what-are-callee-and-caller-saved-registers/56178078#56178078以及保存/恢复通常如何进行。以及什么是良好的调用约定，例如x86-64 System V 是如何设计的 https://stackoverflow.com/questions/4429398/why-does-windows64-use-a-different-calling-convention-from-all-other-oses-on-x86/35619528#35619528，并且本次问答 https://stackoverflow.com/questions/33707228/why-not-store-function-parameters-in-xmm-vector-registers关于应该在寄存器中传递多少个参数，以及为什么不使用 XMM 寄存器来传递整数参数。当然，辅助函数可以使用自定义调用约定。

`pusha` / `popa`在大多数 CPU 上都很慢

即使您确实想推送所有 8 个整数寄存器（包括esp!)，使用8个独立的push现代 CPU 上的指令实际上更快。 Pusha/popa 是微编码的，这对于前端来说可能是一个问题 https://stackoverflow.com/questions/26907523/branch-alignment-for-loops-involving-micro-coded-instructions-on-intel-snb-famil。（尽管 8 个单字节指令也可能对 uop 缓存造成问题。但在实际代码中，您通常只需要推送几个寄存器，而不是全部。）

如果您正在针对过时的 CPU（例如原始的有序 Pentium 和 Pentium II/III）进行优化，则 Pusha/popa 的速度可达 8push r or 8 pop r，实际上更少的微指令，因为他们没有堆栈引擎来消除 ESP 更新微指令。

From Agner Fog 的说明书 http://agner.org/optimize/：现代 CPU 具有单微指令push reg and pop reg，因为编译器始终使用这些指令，因此对性能很重要。推送/弹出吞吐量通常与存储/加载吞吐量相匹配（通常每个时钟 1 次存储或每个时钟 2 次加载）。但pusha / popa编译器不使用它们，因此 CPU 设计者没有特殊的支持来提高它们的速度。popa吞吐量仅限于每个时钟 1 个负载，如果just跑步popa。（我认为在 Intel CPU 上，测量性能最可能的解释是popa不使用堆栈引擎，因此它的瓶颈在于对esp.)

Intel:

天湖：pusha：11 uop，8c 吞吐量。popa：18 uops / 8c 吞吐量。
珊迪大桥：pusha：16 uops / 8c 吞吐量。popa：18 uops / 9c 吞吐量。
尼哈勒姆：pusha：18 uops / 8c 吞吐量。popa：10 uops / 8c 吞吐量。
西尔弗蒙特/KNL：pusha：10 uops / 10c 吞吐量。popa：17 uops / 14c 吞吐量。
奔腾4：pusha：4/10 uops / 19c 吞吐量。popa：4/16 uops / 14c 吞吐量。
P5 Pentium 1 / MMX：5-9 个周期，不可配对。 “如果 SP 能被 4 整除，则为 9（不完美配对）。”

AMD: pusha/popa在某些 AMD CPU 上表现出奇的好，尤其是 K8。

Ryzen: pusha：9 uop，8c 吞吐量。popa： 9 个微指令，4c 吞吐量。（与英特尔不同的是，AMD 的新设计popa不低于8倍pop.)
Jaguar: pusha：9 uops / 8c 吞吐量。popa：9 uops / 8c 吞吐量。（Jaguar 通常每个时钟只能执行一次负载。）
打桩机：pusha：9 uops / 9c 吞吐量。popa：14 uops / 8c 吞吐量。（阿格纳列出了常规pop regBulldozer 系列的吞吐量为每个时钟 1，尽管我认为他们确实有一个堆栈引擎并且每个时钟可以执行 2 个负载。也许堆栈引擎一次只能处理一条堆栈指令？）
K8: pusha：9 uops / 4c 吞吐量！！（不知道这是怎么可能的，要么这是表中的错误或拼写错误，要么 K8 合并了 32 位寄存器并进行了四个 64 位存储）。popa：9 uops / 4c 吞吐量。这些数字看起来确实是真实的：InstLatx86 测量 http://users.atw.hu/instlatx64/AuthenticAMD0000F4A_K8_Clawhammer_InstLatX86.txt同意 4c 吞吐量pushad / popadClawhammer（第一代 K8 微架构）。很明显AMD在优化上付出了一些努力pushad.

您标记了此内联汇编 /questions/tagged/inline-assembly。通常你应该避免使用call在内联汇编中，因此 C 编译器知道该调用。

让编译器关心寄存器；只需告诉它你修改了哪些（GNU Casm("..." ::: "eax", "ecx")或其他），或者在 MSVC 风格的内联汇编中，它会解析您的汇编并知道写入了哪些寄存器。如果其中包含任何调用保留的寄存器，编译器将在整个函数的开始/结束处保存/恢复这些寄存器，即使 asm 语句处于循环中也是如此。（它可能需要在asm语句或块之前/之后溢出和/或重新加载一些本地变量，但会使用mov，而不是push/pop。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86 组装pushad/popad，速度有多快？的相关文章

Asp.net Mvc OutputCache属性和滑动过期

Calling http foo home cachetest for UrlRoute Path home cachetest OutputCache Duration 10 VaryByParam none public ActionR
方法与管道

在 Angular 应用程序中的模板插值中使用管道和方法有区别吗例如 h1 name toLowerCase h1 vs h1 name lowercase h1 就性能而言是有真正的收获还是只是个人喜好我知道调用模板中的方法通常会降
系数函数速度慢

请考虑 Clear x expr Sum x i i 15 30 CoefficientList expr x Timing Coefficient Expand expr x 234 Timing Coefficient expr x 2
如何将 asm 着色器编译为 fxo 文件？

我有一个已编译的 fxo 着色器我正在尝试对其进行稍微编辑仅调整一些常量使用 fxdis https code google com archive p fxdis d3d1x https code google com archiv
将以下机器语言代码（0x2237FFF1）翻译成MIPS汇编

到目前为止我已经翻译了这段代码但我不明白的是如何计算计算 16 位立即地址的数量 0x2237FFF1 转为二进制 0010 0010 0011 0111 1111 1111 1111 0001 现在我正在读取操作码 001000 并知
JS中函数声明速度差异

我运行了一个简单的 jsperf 测试在 Firefox 中运行时一切都按预期进行但当我在 Google Chrome 中运行测试时却感到困惑该测试正在测试在 JavaScript 中声明函数然后调用它们的不同方式我的猜测是 Chr
Python（和 Java）中最快的数据打包

Sometimes http www codinghorror com blog 2009 01 the sad tragedy of micro optimization theater html our host is wrong na
在 qemu 中将扇区加载到 RAM

我编写了一个简单的程序将扇区扇区编号 2 加载到 RAM 但什么也没打印首先我尝试了以下引导扇区代码 org 0x7c00 mov ax 0x1000 ES BX 1000 0000 mov es ax mov bx 0x00 Lo
从 Golang 调用 C 函数

我想在 Golang 中编写控制器逻辑并处理 json 和数据库同时在 C 中使用我的数学处理模型在我看来调用 C 函数的开销必须尽可能低就像设置寄存器 rcx rdx rsi rdi 一样执行一些操作fastcall 并获取 r
如何优化 R 中的 sapply 来计算数据帧上的运行总计

我在 R 中编写了一个函数来按月份计算累积总数但随着数据集变大我的方法的执行时间呈指数增长我是一名 R 程序员新手你能帮我提高效率吗该函数以及我调用该函数的方式 accumulate lt function recordnum d
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
调整 Oracle 数据库以加快启动速度（闪回）

我正在使用 Oracle 数据库 11 2 我有一个场景我发出FLASHBACK DATABASE经常似乎有一个FLASHBACK DATABASECycle 会重新启动数据库实例大约需要 1 分钟我的设置花了 7 秒数据库很小
INT 13h 无法读取超出特定扇区的数据

我正在为我的操作系统编写内核在将磁盘扇区加载到内存时遇到问题以下是从磁盘加载扇区的函数代码部分 mov ax 0x3000 mov es ax mov ax 0x0201 mov bx word ptr bp 6 bx 0x000 0x
NASM：如何正确访问SSD驱动器？

我需要使用 NASM 16 位代码访问 SSD 驱动器访问普通硬盘时需要设置寄存器AX DX CX来选择柱面磁道扇区扇区数 AH 选择读扇区功能 DL 选择驱动器号 CH 选择气缸 DH 选择磁盘上的一侧 CL 选择步入正轨的部门
在 R 中，为什么 sum 与其他方法（例如 cumsum）相比如此慢？

我正在尝试实现一个需要非常快的函数主要是因为它一遍又一遍地处理巨大的数据帧 R 总是让我感到困惑为什么它有时有点慢而有时又慢得离谱不幸的是它从来都不快不管怎样我一直认为如果可能的话当以某种方式推入 apply sapply
每个存储桶的最大沙发底座视图数

假设存储桶中有大量数据 gt 100GB gt 100M 文档 gt 12 种文档类型并且假设每个视图仅适用于一种文档类型那么每个存储桶有多少视图就太多了或者以另一种方式问在什么时候应该将某些文档类型拆分到单独的存储桶中以节省处理
如何阅读英特尔操作码符号

我正在阅读一些引用的材料Intel vol 2 SDM x86 手册 https www intel com content www us en developer articles technical intel sdm html关于汇编
如何在 PHP 数组中的另一个已知（通过键或指针）元素之后有效地插入元素？

给定一个数组 a array abc 123 k1 gt v1 k2 gt v2 78 tt k3 gt v3 当其内部指针指向其元素之一时如何在当前元素之后插入元素如何在键已知元素例如 k1 之后插入元素表现护理您可以通过使用拆
为什么 ConcurrentHashMap::putIfAbsent 比 ConcurrentHashMap::computeIfAbsent 更快？

使用 ConcurrentHashMap 我发现computeIfAbsent 比putIfAbsent 慢两倍这是简单的测试 import java util ArrayList import java util List import
为什么这个函数在额外读取内存时运行速度如此之快？

我目前正在尝试了解 x86 64 上某些循环的性能属性特别是我的 Intel R Core TM i3 8145U CPU 2 10GHz 处理器具体来说在循环体内添加一条额外的指令来读取内存几乎可以使性能提高一倍而细节并不是特别重

随机推荐

整个数组上的多键索引

MongoDB 的docs http docs mongodb org manual core index multikey 解释多键索引考虑一下这个comment文档 id ObjectId title Grocery Quality
Xcode 4.2。问题：标准（armv7）

我想在 App Store 中更新我的应用程序但当我尝试上传它时我收到一条错误消息指出我的应用程序不支持 armv6 问题是我什至不能选择 Armv6 作为架构我有以下架构设置架构标准 armv7 基础 SDK 最新 iOS i
如何在javascript中检查session是否为空？

如何在javascript中检查session是否为空这是正确的方法吗 if alert null session 这是一个解决方案将每 500 毫秒测试一次用户会话是否已过期 function CheckSession var ses
MYSQL特殊字符问题

这个问题困扰我很久了我在网上搜索了很多次解决方案尝试了很多方法但没有找到合适的解决方案我真的不知道该怎么办如果你能帮助我我将非常感激抱歉我的英语不好问题如何解决输入存档和 MYSql 表之间的字符集不兼容问题 Proble
Mysql删除具有给定meta_key的所有帖子[重复]

这个问题在这里已经有答案了我有一个 WordPress 网站其中有一些元密钥分配给我的帖子我想删除 mysql 中所有包含以下内容的帖子meta key value acest meta 使用这个 SQL 命令 SELECT post
Python 中 Postgres 的 jsonb 数组的正确格式是什么？

我有一个看起来像的架构 Column Type message id integer user id integer body text created at timestamp without time zone source
有没有一种简单的方法可以让android studio自动添加版权声明？

我刚刚开始学习 android 并使用 IntelliJ 的 Android Studio 所以如果这是一个非常愚蠢的问题请耐心等待有没有办法通过 android studio IDE 将版权声明文本自动添加到源代码文件中我有 Ecl
Ruby 2.4.1 Dir.children( dirname ) 返回“Dir:Class 的未定义方法‘children’”

我是 Ruby 新手正在尝试学习它我正在使用最新的 Ruby 版本 2 4 1 和交互式 Ruby Shell 我遇到过children方法中的Dir班级我已经尝试过这个例子从文档中 http ruby doc org core 2
将 jsp 链接到 servlet 并再次将 jsp 链接到 servlet 会出现一些问题

我编写了一个 jsp 代码它链接到 servlet 并再次链接到 servlet 代码 mahi1 jsp
获取当前命名空间和函数名称的宏（但不是完整签名）？

是否有获取当前命名空间和函数名的C 宏例子 namespace foo namespace bar void baz int i double d std cout lt lt MACRO lt lt std endl 会打印foo ba
使用 jQuery 验证结束日期大于开始日期

如何在 jQuery 中检查验证结束日期文本框是否大于开始日期文本框只是扩展融合答案此扩展方法使用 jQuery 验证插件工作它将验证日期和数字 jQuery validator addMethod greaterThan f
我们可以在一个应用程序中混合 JSF RI 1.1 和 Tamhawk 以及 primefaces 等吗

我们可以在一个应用程序中将 JSF RI 1 1 与 Tomahawk Primefaces MyFaces 等混合使用吗你可以混合 JSF组件库 Tomahawk RichFaces PrimeFaces 等但不能混合使用 JSF实施
ActionbarSherlock：显示选项卡时隐藏操作栏

我的 UI 使用带有选项卡的 ABS ActionBar NAVIGATION MODE TABS 以及为每个选项卡加载的一堆片段布局我需要一个选项卡隐藏操作栏回收一些屏幕空间用于 UI 但调用getSupportActionBar
AddDbContext 中缺少 UseSqlServer

刚刚升级到asp net core 2 1 看起来像使用SqlServer选项中不再存在添加数据库上下文我在其中传递连接字符串我应该用什么来代替添加了 nuget 包Microsoft EntityFrameworkCore SqlS
无法加载文件或程序集“System.Collections，版本=4.0.0.0”

我已经安装了nuget包 bin 文件夹不显示 system collections dll 当我运行该应用程序时我收到此错误无法加载文件或程序集 System Collections 版本 4 0 0 0 Culture neutra
Web 项目需要缺少具有 Razor 语法 3.0.0.0 的 Web 组件 ASP.NET 网页

我将我的项目迁移到 mvc 5 0 和 razor engin 3微软指令 http www asp net mvc tutorials mvc 5 how to upgrade an aspnet mvc 4 and web api pr
使用 browserhistory 更改 url 反应路由但没有任何反应

我正在尝试让反应路由器工作这是我的代码 var hashHistory require react router dom hashHistory var BrowserRouter require react router dom Bro
xml 文件中的错误标记中的数据过早结束

我制作了这个系统但它不知道发生了什么行 197 core php foreach this gt getAll as banner 行 191 core php xmlBanners simplexml load file PATH X
使用 boost asio 创建 iostream 并指定 ip 和端口

我有一个关于 boost asio 库的问题我成功地尝试在客户端和服务器之间创建一个套接字这涉及创建解析器以便指定服务器的IP和端口服务器只需要端口和其他对象但是最重要的是有必要使用write and read some作为从
x86 组装pushad/popad，速度有多快？

我只是想在 x86 汇编中制作非常快速的基于计算的程序但我需要在调用程序之前推送累加器计数器和数据寄存器手动推送它们更快 push eax push ecx push edx 或者只是使用 pushad 和 pop 一样谢谢如果你

x86 组装pushad/popad，速度有多快？

pusha / popa在大多数 CPU 上都很慢

x86 组装pushad/popad，速度有多快？ 的相关文章

随机推荐

热门标签

`pusha` / `popa`在大多数 CPU 上都很慢

x86 组装pushad/popad，速度有多快？的相关文章