优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器

2023-11-27

我正在尝试针对特定的 Kaby Lake CPU (i5-7300HQ) 优化以下子例程，理想情况下使代码比其原始形式至少快 10 倍。该代码在 16 位实模式下作为软盘式引导加载程序运行。它在屏幕上显示一个十位十进制计数器，计数 0 - 9999999999，然后停止。

我看过 Agner 的优化指南微架构 and Assembly, 指令性能表和英特尔的优化参考手册.

到目前为止我能做的唯一明智的优化就是交换loop指令dec + jnz，解释here.

另一种可能的优化可能是交换lodsb for mov + dec，但我发现的相关信息是相互矛盾的，有些人说它略有帮助，而另一些人则说它实际上可能会损害现代 CPU 的性能。

我还尝试切换到 32 位模式，并将整个计数器保留在未使用的寄存器对中，以消除任何内存访问，但在阅读了一些内容后，我意识到这 10 位将立即被缓存，并且 L1 缓存之间的延迟差异和寄存器大约只有三倍，所以绝对不值得以这种格式使用计数器的额外开销。

（编者注：add reg延迟为1个周期，add [mem]延迟约为 6 个周期，包括 5 个周期的存储转发延迟。或者更糟糕的是如果[mem]与视频 RAM 一样不可缓存。）

org 7c00h

pos equ 2*(2*80-2)  ;address on screen

;init
cli
mov ax,3
int 10h
mov ax,0b800h
mov es,ax
jmp 0:start

start:
    push cs
    pop ds
    std

    mov ah, 4Eh
    xor cx, cx
    mov bl,'9'

countloop:
    mov cl,10           ;number of digits to add to
    mov si,counter+9    ;start of counter
    mov di,pos          ;screen position

    stc                 ;set carry for first adc
next_digit:
    lodsb               ;load digit
    adc al,0
    cmp bl, al
    jnc print
    add al,-10          ;propagate carry if resulting digit > 9
print:
    mov [si+1],al       ;save new digit
    stosw               ;print

    ;replaced loop with a faster equivalent
    ;loop next_digit
    dec cl
    jnz next_digit

    jnc countloop

    jmp $

counter:
    times 10 db '0'

    times 510-($-$$) db 0
    dw 0aa55h

我的问题是 - 我该怎么做才能达到预期的速度提升？我还可以学习哪些其他材料来更好地理解基本概念？

注：这个is学校作业。虽然直接的答案肯定会有所帮助，但我更希望得到相关学习材料的解释或指示，因为我们没有得到任何解释或指示。

编辑：将代码更改为最小的可重现示例

这是我的看法。已应用以下优化：

为了获得最佳性能，最低有效数字已完全展开
剩余的数字已展开为每个数字的一个部分
BCD 算术已用于将代码减少为每个数字一个条件分支
段的使用已被重新调整，以减少使用的前缀数量
指令顺序经过优化，可将长延迟指令移出关键路径

此外，我已将代码更改为 COM 二进制文件，以便于测试。将其变回引导加载程序作为读者的练习。一旦它是引导加载程序，您可以做的一件事就是修复代码，以便CS and SS段基数为0000。这避免了对某些微架构的加载和存储的惩罚。

        org     100h

pos     equ     2*(2*80-12)             ; address on screen

        mov     ax, 3                   ; set up video mode
        int     10h
        mov     ax, 0b800h
        mov     ds, ax
        mov     es, ax

        mov     di, pos
        mov     ax, 4e30h               ; '0' + attribute byte 4e
        mov     cx, 10
        cld
        rep     stosw                   ; set up initial display

        xor     ax, ax
        sub     sp, 10
        push    ax
        push    ax
        push    ax
        push    ax
        push    ax
        mov     bp, sp                  ; set up counter

        dec     di
        dec     di                      ; di points to the last digit on screen
        mov     bx, digits              ; translation table

        jmp     countloop

%macro  docarry 1                       ; digits other than the last one
        mov     al, [bp+%1]             ; second to last digit
        inc     ax                      ; add carry to al
        aaa                             ; generate BCD carry
        mov     [bp+%1], al             ; desposit to counter
        cs xlat                         ; generate ASCII digit
        mov     [di-2*9+2*%1], al       ; display digit
        jnc     countloop               ; exit when carry dies
%endm

docarry2:                               ; place this here so jumps are in range
        docarry 2
        docarry 1
        docarry 0
        int     20h

        align   16                      ; for performance
countloop:
        mov     [di], byte '0'          ; treat last digit separately
        mov     [di], byte '1'
        mov     [di], byte '2'
        mov     [di], byte '3'
        mov     [di], byte '4'
        mov     [di], byte '5'
        mov     [di], byte '6'
        mov     [di], byte '7'
        mov     [di], byte '8'
        mov     [di], byte '9'

        docarry 8
        docarry 7
        docarry 6
        docarry 5
        docarry 4
        docarry 3
        jmp     docarry2

digits:
        db      '0123456789'

与我基于 8 MHz 80286 的机器上的原始代码相比，这将速度提高了约 30 倍，并设法使计数器每秒增加约 329000 次（每个数字约 3.04 µs）。在现代系统上进行测试会有点困难，但我会尝试找到解决方案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器的相关文章

为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
“rep stos”x86 汇编指令序列有什么作用？

我最近偶然发现了以下汇编指令序列 rep stos dword ptr edi For ecx重复存储内容eax到哪里edi指向递增或递减edi 取决于方向标志每次 4 个字节通常这用于memset型操作通常该指令简单地写成r
从 XML 构建树结构的速度很慢

我正在将 XML 文档解析为我自己的结构但对于大型输入来说构建它非常慢是否有更好的方法来做到这一点 public static DomTree
什么是悲观主义？

该问题有评论可以使用C 11的吗auto提高性能 https stackoverflow com questions 32510183 can the use of c11s auto improve performance这获得了很多选票
大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
弹出 x86 堆栈以访问函数 arg 时出现分段错误

我正在尝试链接 x86 程序集和 C 我的C程序 extern int plus 10 int include
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
使用 lpSolve 优化 R 团队名单

我是 R 新手有一个想要解决的特定幻想运动队优化问题我见过其他帖子使用 lpSolve 来解决类似的问题但我似乎无法理解代码下面的示例数据表每个球员都在一个球队中扮演着特定的角色有薪水并且每场比赛都有平均得分我需要的限制是
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
Linux内核页表更新

在linux x86 中分页每个进程都有它自己的页面目录页表遍历从 CR3 指向的页目录开始每个进程共享内核页目录内容假设三个句子是正确的假设某个进程进入内核模式并更新他的内核页目录内容地址映射访问权利等问题由于内核地
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
如何将 x86 GCC 风格的 C 内联汇编转换为 Rust 内联汇编？

我在 C 中有以下内联汇编 unsigned long long result asm volatile byte 15 byte 49 shlq 32 rdx orq rdx rax a result rdx return result
如何使用movntdqa避免缓存污染？

我正在尝试编写一个 memcpy 函数该函数不会将源内存加载到 CPU 缓存中目的是避免缓存污染下面的 memcpy 函数可以工作但会像标准 memcpy 一样污染缓存我正在使用带有 Visual C 2008 Express 的
AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
如何编译GCC生成的asm？

我正在玩一些汇编代码有些事情困扰着我我编译这个 include
是否可以在VM内使用VMX CPU指令？

VM guest 内部的进程是否有可能使用 VMX AMD V VT x CPU 指令然后由外部 VMM 处理而不是直接在 CPU 上处理 Edit 假设外部VM使用VMX本身来管理其虚拟客户机即它在Ring 1中运行如果可能的话是
Visual Studio 2012 本机 C++ DLL x86 编译

我最近将我的工具集从 Win 7 x86 Visual Studio 2010 升级到 Win 8 x64 Visual Studio 2012 但是现在我的本机 C dll 编译为 x64 而不是 x86 除了将代码移至新操作系统并将其
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
make_shared<>() 中的 WKWYL 优化是否会给某些多线程应用程序带来惩罚？

前几天我偶然看到这个非常有趣的演示 http channel9 msdn com Events GoingNative GoingNative 2012 STL11 Magic Secrets作者 Stephan T Lavavej 其中提

随机推荐

如何从 Node.js Lambda 函数调用步骤函数？

我正在尝试从 Node js lambda 函数调用步骤函数我尝试了该解决方案并更新了实现thread 显示错误响应的解决方案但更新后的代码显示成功响应但更新后的代码没有调用step函数 My Code console log Loa
Coldfusion：通过 url 将结构作为字符串传递

有没有一种简单的方法可以将单级结构序列化为字符串以在 url 中使用例如 key1 val1 key2 val2
找不到 ionic.config.json 文件

当我跑步时ionic build android 我收到这个错误 Couldn t find ionic config json file Are you in an Ionic project 我在项目文件夹中请问有人吗转到 ioni
（2006，'MySQL 服务器已经消失'）在 WSGI django 中

我在 WSGI 下有一个 MySQL 和 Django 一起消失了我在 stackoverflow 上找到了这个问题的条目但没有专门针对 Django 的除了解决方法例如每隔一段时间轮询一次网站或增加数据库超时之外谷歌没有提供
使用 .NET CLI 将 NuGet 包推送到 VSTS

我正在尝试将 NuGet 包发布到私有 VSTS 源我想使用来实现这一点only NET CLI 无需创建或修改 nuget config 文件我尝试过这样做 dotnet nuget push
片段和活动之间的通信 - 最佳实践

这个问题主要是为了征求有关处理我的应用程序的最佳方式的意见我有一个活动正在处理三个片段片段 A 有 1 个可点击元素照片片段 B 有 4 个可点击元素按钮另一个片段仅在单击照片时显示详细信息我正在使用 ActionBarShe
QML 中的forceActiveFocus() 与 focus = true

我阅读了有关以下内容的文档 focus财产 activeFocus财产 forceActiveFocus method FocusScope object 和 QtQuick 中的键盘焦点但仍不清楚何时应该使用forceActiveFoc
无法在 redux-form w 中设置默认值。反应

我无法设置带有 redux form 的表单的默认值我正在寻找的结果是一个可编辑的文本字段稍后提交到数据库即更新电子邮件地址我尝试将表单中的属性设置为value or 默认值注意我删除了重复的代码以便仅使用名称字段就可以更
用于从 select row_number() over() 中选择的 JPQL

我在 AS 400 上使用 Db2 并且尝试执行 JPQL 查询该查询将返回从行 x 到行 y 的结果在 SQL 中这是有效的 select cur from SELECT ROW NUMBER OVER AS ROWNUM FROM
调用serve_forever() 时打印语句不起作用？ [复制]

这个问题在这里已经有答案了我有以下小 python 脚本来运行本地服务器来测试一些 html print opened from http server import HTTPServer SimpleHTTPRequestHandler
如何在 App Engine 上实现服务器亲和性或粘性会话？

我的申请希望有自动扩展我希望 App Engine 在流量增加时启动应用程序的新实例当实例空闲时我希望 App Engine 将其关闭客户端服务器关联性在初始客户端 gt 服务器 HTTP 请求之后我想要客户端能够连接到同
iPhone 上的单元测试如何进行？

我是否需要为此使用特殊的库或者我可以创建一个巨大的类来尝试实例化项目的每个对象并测试其中的所有方法吗理论上是如何实现的谷歌搜索 iPhone 单元测试给出这个优秀的链接作为第一击综上所述 Google Toolbox 为 iPho
Django 模板：为页面使用不同的 css

刚接触 Django 我想对不同的页面使用不同的 css 文件即 page1 css 用于 page1 html page2 css 用于 page2 html 有没有办法在扩展 base html 的同时做到这一点在base html
计算字符串中特定字符的数量

抱歉由于我的问题我刚刚发现了一个新问题获取字符串中特定字符串的数量我一直在努力如何找到字符串中特定字符的数量案子是这样的 function get num chars char string 120201M 121212M 1
使用 DAO 和 Web 服务的数据库插入方法的 Junit 测试用例

我正在实施一个基于网络服务的大学管理系统该系统将某些课程添加到数据库中下面是我正在使用的代码课程 java public class Course private String courseName private String lo
如何在 Json.NET Silverlight 中使用 TypeNameHandling.Objects 进行反序列化？

尝试在 Silverlight 中反序列化时出现异常 Test1 失败而 Test2 成功我还尝试过 TypeNameAssemblyFormat 到 Simple 和 Full 但得到相同的结果 Test2可以解析程序集为什么Jso
采用函数式语言的 Kernighan & Ritchie 字数统计示例程序

我最近在网上阅读了一些有关函数式编程的内容我想我对其背后的概念有了基本的了解我很好奇涉及某种状态的日常编程问题是如何用纯函数式编程语言解决的例如 C 编程语言一书中的字数统计程序如何用纯函数语言实现只要解决方案是纯函数式的我们欢
如何迭代通配符泛型？

如何迭代通配符泛型基本上我想内联以下方法 private
浏览器引擎是否会压缩大型重复对象数组中的键名？

本着这两个问题的精神是否值得努力尝试减小 JSON 大小 JSON 响应对象漂亮的键和较大的响应还是短的键和较小的响应浏览器如何处理相同对象类型的大型数组它们的键名是否以某种方式压缩在内存中我曾经使用过一个图形库并通过缩短对
优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器

我正在尝试针对特定的 Kaby Lake CPU i5 7300HQ 优化以下子例程理想情况下使代码比其原始形式至少快 10 倍该代码在 16 位实模式下作为软盘式引导加载程序运行它在屏幕上显示一个十位十进制计数器计数 0 9999

优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器

优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器 的相关文章

随机推荐

热门标签

优化第七代英特尔酷睿视频 RAM 中的递增 ASCII 十进制计数器的相关文章