优化 ARM Cortex M3 代码

2023-12-05

我有一个 C 函数，它尝试将帧缓冲区复制到 FSMC RAM。

这些函数将游戏循环的帧速率降低至 10FPS。我想知道如何分析反汇编的函数，我应该计算每个指令周期吗？我想知道CPU把时间花在哪里，在哪个部分。我确信该算法也是一个问题，因为它的 O(N^2)

C 函数是：

void LCD_Flip()
{

    u8  i,j;


    LCD_SetCursor(0x00, 0x0000);
    LCD_WriteRegister(0x0050,0x00);//GRAM horizontal start position
    LCD_WriteRegister(0x0051,239);//GRAM horizontal end position
    LCD_WriteRegister(0x0052,0);//Vertical GRAM Start position
    LCD_WriteRegister(0x0053,319);//Vertical GRAM end position
    LCD_WriteIndex(0x0022);

    for(j=0;j<fbHeight;j++)
    {
        for(i=0;i<240;i++)
        {
            u16 color = frameBuffer[i+j*fbWidth];
            LCD_WriteData(color);

        }
    }

}

拆解功能：

08000fd0 <LCD_Flip>:
 8000fd0:   b580        push    {r7, lr}
 8000fd2:   b082        sub sp, #8
 8000fd4:   af00        add r7, sp, #0
 8000fd6:   2000        movs    r0, #0
 8000fd8:   2100        movs    r1, #0
 8000fda:   f7ff fde9   bl  8000bb0 <LCD_SetCursor>
 8000fde:   2050        movs    r0, #80 ; 0x50
 8000fe0:   2100        movs    r1, #0
 8000fe2:   f7ff feb5   bl  8000d50 <LCD_WriteRegister>
 8000fe6:   2051        movs    r0, #81 ; 0x51
 8000fe8:   21ef        movs    r1, #239    ; 0xef
 8000fea:   f7ff feb1   bl  8000d50 <LCD_WriteRegister>
 8000fee:   2052        movs    r0, #82 ; 0x52
 8000ff0:   2100        movs    r1, #0
 8000ff2:   f7ff fead   bl  8000d50 <LCD_WriteRegister>
 8000ff6:   2053        movs    r0, #83 ; 0x53
 8000ff8:   f240 113f   movw    r1, #319    ; 0x13f
 8000ffc:   f7ff fea8   bl  8000d50 <LCD_WriteRegister>
 8001000:   2022        movs    r0, #34 ; 0x22
 8001002:   f7ff fe87   bl  8000d14 <LCD_WriteIndex>
 8001006:   2300        movs    r3, #0
 8001008:   71bb        strb    r3, [r7, #6]
 800100a:   e01b        b.n 8001044 <LCD_Flip+0x74>
 800100c:   2300        movs    r3, #0
 800100e:   71fb        strb    r3, [r7, #7]
 8001010:   e012        b.n 8001038 <LCD_Flip+0x68>
 8001012:   79f9        ldrb    r1, [r7, #7]
 8001014:   79ba        ldrb    r2, [r7, #6]
 8001016:   4613        mov r3, r2
 8001018:   011b        lsls    r3, r3, #4
 800101a:   1a9b        subs    r3, r3, r2
 800101c:   011b        lsls    r3, r3, #4
 800101e:   1a9b        subs    r3, r3, r2
 8001020:   18ca        adds    r2, r1, r3
 8001022:   4b0b        ldr r3, [pc, #44]   ; (8001050 <LCD_Flip+0x80>)
 8001024:   f833 3012   ldrh.w  r3, [r3, r2, lsl #1]
 8001028:   80bb        strh    r3, [r7, #4]
 800102a:   88bb        ldrh    r3, [r7, #4]
 800102c:   4618        mov r0, r3
 800102e:   f7ff fe7f   bl  8000d30 <LCD_WriteData>
 8001032:   79fb        ldrb    r3, [r7, #7]
 8001034:   3301        adds    r3, #1
 8001036:   71fb        strb    r3, [r7, #7]
 8001038:   79fb        ldrb    r3, [r7, #7]
 800103a:   2bef        cmp r3, #239    ; 0xef
 800103c:   d9e9        bls.n   8001012 <LCD_Flip+0x42>
 800103e:   79bb        ldrb    r3, [r7, #6]
 8001040:   3301        adds    r3, #1
 8001042:   71bb        strb    r3, [r7, #6]
 8001044:   79bb        ldrb    r3, [r7, #6]
 8001046:   2b63        cmp r3, #99 ; 0x63
 8001048:   d9e0        bls.n   800100c <LCD_Flip+0x3c>
 800104a:   3708        adds    r7, #8
 800104c:   46bd        mov sp, r7
 800104e:   bd80        pop {r7, pc}

不完全回答你的问题，但我看到你渴望快速循环的执行。

以下是书中的一些提示：《ARM 系统开发人员指南：设计和优化系统》软件（摩根考夫曼计算机体系结构系列和设计）'http://www.amazon.com/ARM-System-Developers-Guide-Architecture/dp/1558608745

第 5 章包含名为“C 循环结构”的部分。以下是本节的摘要：

高效地编写循环

使用倒数至零的循环。那么编译器就不需要分配寄存器来保存终止值，并且与零的比较是自由的。
默认使用无符号循环计数器，并且继续条件 i!=0 而不是 i>0。这将确保循环开销只有两条指令。
当您知道循环将至少迭代一次时，请使用 do-while 循环而不是 for 循环。这可以节省编译器检查循环计数是否为零的时间。
展开重要的循环以减少循环开销。不要过度展开。如果循环开销占总开销的比例很小，则展开将增加代码大小并损害缓存的性能。
尝试将数组中的元素数量安排为四或八的倍数。然后，您可以轻松展开循环两次、四次或八次，而不必担心剩余的数组元素。

根据摘要，您的内部循环可能如下所示。

uinsigned int i = 240/4;  // Use unsigned loop counters by default
                          // and the continuation condition i!=0

do
{
    // Unroll important loops to reduce the loop overhead
    LCD_WriteData( (u16)frameBuffer[ (i--) + (j*fbWidth) ] );
    LCD_WriteData( (u16)frameBuffer[ (i--) + (j*fbWidth) ] );
    LCD_WriteData( (u16)frameBuffer[ (i--) + (j*fbWidth) ] );
    LCD_WriteData( (u16)frameBuffer[ (i--) + (j*fbWidth) ] );
}
while ( i != 0 )  // Use do-while loops rather than for
                  // loops when you know the loop will
                  // iterate at least once

您可能还想尝试“pragmas”，例如：

#pragma Otime

http://www.keil.com/support/man/docs/armcc/armcc_chr1359124989673.htm

#pragma unroll(n)

http://www.keil.com/support/man/docs/armcc/armcc_chr1359124992247.htm

由于它是 Cortex-M3，请尝试找出 MCU 硬件是否让您有机会安排代码/数据以利用其优势哈佛建筑（我体验到了 30% 的速度提升）。

看这里我的另一个答案

也许并非所有内容都适用于您的应用程序（以相反的顺序填充缓冲区）。我只是想画画您对本书的关注以及可能的优化点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Assembly

Optimization

arm

STM32

disassembly

优化 ARM Cortex M3 代码的相关文章

如何使用 #pragma 在 G++ 中启用优化

我想在没有命令行参数的情况下启用 g 优化我知道 GCC 可以通过写来做到这一点 pragma GCC optimize 2 在我的代码中但它似乎在 G 中不起作用此页面可能有帮助 http gcc gnu org onlinedoc
scipy-optimize-minimize 不执行优化 - CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL

我试图最小化定义如下的函数 utility decision decision risk cost 其中变量采用以下形式决策二进制数组风险浮点数数组成本常数我知道解决方案将采取以下形式决定 1如果风险 gt 阈值决定 0
NASM 轮班操作员

您将如何在寄存器上进行 NASM 中的位移位我读了手册它似乎只提到了这些操作员 gt gt lt lt 当我尝试使用它们时 NASM 抱怨移位运算符处理标量值您能解释什么是标量值并举例说明如何使用 gt gt and lt lt 另外
Visual Studio 2017 上的简单装配程序

386 model flat c stack 100h printf PROTO arg1 Ptr Byte data msg1 byte Hello World 0Ah 0 code main proc INVOKE printf ADD
为什么 Visual Studio 使用 xchg ax,ax

我正在查看程序的反汇编因为它崩溃了并注意到很多 xchg ax ax 我用谷歌搜索了一下发现它本质上是一个 nop 但是为什么 Visual Studio 会执行 xchg 而不是 noop 该应用程序是一个C NET3 5 64位应
在linux x86平台上学习ARM所需的工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 x86 linux 机器在阅读一些关于 ARM 的各种信息时我很好奇现在我想花一些时间学
汇编8086监听键盘中断

我有与此完全相同的问题边画边听键盘 https stackoverflow com questions 13970325 8086 listen to keyboard while drawing 但第一个答案接受的答案只听键盘一次
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
如何分析Android应用程序的电池使用情况并对其进行优化？

我想分析我的应用程序的电池使用情况我的意思是应用程序的各个部分例如广播接收器监听器服务等使用多少电池我需要一个详细的列表从列表中我想优化电池的使用方法与使用内存分析器类似 http android developers
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
如何知道寄存器是否是“通用寄存器”？

我试图了解寄存器必须具备什么标准才能被称为通用寄存器我相信通用寄存器是一个可以用于任何用途的寄存器用于计算将数据移入移出等并且是一个没有特殊用途的寄存器现在我读到了ESP寄存器是通用寄存器我猜是ESP寄存器可以用于任何事情
什么是悲观主义？

该问题有评论可以使用C 11的吗auto提高性能 https stackoverflow com questions 32510183 can the use of c11s auto improve performance这获得了很多选票
大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
弹出 x86 堆栈以访问函数 arg 时出现分段错误

我正在尝试链接 x86 程序集和 C 我的C程序 extern int plus 10 int include
从 exe 文件中获取汇编级代码？

我当时正在做linux汇编编程在过去的几天里我已经转而学习windows汇编编程我在用ml作为我的汇编器和golink作为我的链接器我有我的汇编代码并已获得我的exe从中现在我需要取回它的十六进制 xff xab x55等等在li
程序集比较标志理解

我正在努力理解汇编程序中的以下代码片段 if EAX gt 5 EBX 1 else EBX 2 在汇编程序中可以写如下根据我的书模拟jge操作说明 https www felixcloutier com x86 jcc您通常会使用
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
优化正则表达式来解析中文拼音[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个有
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
在 any() 语句中迭代一个小列表是否更快？

在低长度迭代的限制下考虑以下操作 d 3 slice None None None slice None None None In 215 timeit any type i slice for i in d 1000000 loops b

随机推荐

在 kotlin lambda 内部返回时“此处不允许返回”

我使用 lambda 来处理异步调用的回调我想在调用方法之外定义回调以避免使用庞大的方法但我似乎无法在 lambda 中使用早期返回这使得代码不必要地难以阅读我尝试将 lambda 定义为变量但 return 在 lambda 内
Promise 的动态顺序执行

我有需要按顺序运行的动态数量的承诺我了解如何按顺序运行承诺但我无法成功地使其与许多可能变化的承诺保持动态这是我发现静态执行此操作的一种方法如何兑现一个又一个的承诺 function waitFor timeout return new
Python实时绘制ROS数据

我正在尝试使用 python 绘制传入计算机的实时数据数据来自 ROS 主题我使用 rospy 订阅该主题以获取数据这是我写的代码 import rospy from sensor msgs msg import ChannelFlo
如何使我的所有网址都无扩展名，且不带尾部斜杠。并将 .php 和尾部斜杠重定向为无？

我想让我的所有网址统一干净这意味着我所有的 URL 都没有扩展名也没有尾部斜线并且如果一个人确实输入了 php或尾部斜杠它只会将用户重定向到干净的 URL Example example com blog file php and
如何对 UTF-8 字符使用 String 方法？

如何对 UTF 8 字符使用 String 方法例如我有一个带有西里尔字符的字符串所以当我使用string upcase它不起作用 Ruby 仅支持字母的大小写转换A Z and a z 原因很简单其他字母的大小写转换没有明确定义
Resteasy 客户端的自定义 Jackson 序列化器

是否可以为 Resteasy 客户端注册自定义 Jackson JSON 序列化器我尝试过做类似的事情 ResteasyClient client new ResteasyClientBuilder register new Custom
为什么没有更多的迭代器随机访问？

我正在尝试了解有关 C 中的 STL 迭代器的更多信息我理解不同的数据结构如何具有不同的迭代器但我不明白为什么有些迭代器不是随机访问例如为什么 LinkedList 迭代器不是随机访问迭代器我知道 LinkedList 本身并不是
汇编 (,%eax,4)

如果我的命令行之一显示 jmp 0x804a180 eax 4 这意味着什么我特别询问是因为第一个逗号之前没有值而且我不确定地址之前的到底是什么意思该指令跳转到其值位于计算得出的地址处的位置 eax 4 0x804a180 The
C# 调用一个 DLL 函数，该函数返回一个指向结构数组的指针

我尝试了各种方法的许多不同组合来封送此调用这是一个 DLL 它返回一个指向结构数组的指针像 debugPort 这样的类型实际上是枚举 struct debugConnectParameters brief Get device cha
从 PHP 脚本执行 shell 脚本

我想从 PHP 脚本执行系统上存在的 Bash 脚本我的系统上有两个脚本其中之一是名为的 PHP 脚本client php目前在 var www html另一个是名为的 Bash 脚本testscript目前在 home testuse
Android的WebView.loadUrl方法中Url的长度有限制吗？

我想将本地资源传输到从远程服务器加载的页面我想做这样的事情 webView loadUrl http my server com page html webView loadUrl javascript function someLo
Perl：无法使用 SSL 访问 Web 服务

这是我的第一个 Perl 脚本我已经使用 CPAN 安装了 SOAP Lite 看起来一切顺利我正在尝试访问一个简单的 HelloWorld NET Web 服务我收到一个错误该错误似乎与 Perl 或 SOAP Lite 无法验证
在 WP7 中向 xml 文件添加元素？

如何在 wp7 中向 xml 文件添加元素我找到了很多资料显示如何在 ASP NET 浏览器上的 Silverlight 等中添加元素但在 wp7 上却没有我一直看到我们应该使用 XDocument XML to Linq 只是不知道
这是什么意思？

我正在分析一些 Python 代码但我不知道是什么 pop population 方法它是类似于Java中的数组列表还是二维数组这是切片表示法的一个示例它的作用取决于切片的类型population If population是一个列
为什么“man bash”页面声明“declare”和“local”“-n”属性“不能应用于数组变量”，但它却可以？

为什么local n当手册时处理数组变量明确表示不说明书有错吗这是否依赖于某种 bash 未定义的行为说明书已经过时了吗我错过了什么吗以下是我从 bash 手册中查看的信息 Run man bash并搜索local 使用正则表达式
Spring 批处理：JdbcPagingItemReader 无法获取第 1 页以后的页面

这是我的读者 Bean public ItemReader
mysql 使用 GROUP BY 进行数据透视查询结果

我有一个数据表我想将其导出为 CSV 理想情况下我想交换行和列以便数据更好地分组进一步解释一下目前数据库看起来像这样 data id data timestamp data value 1 2011 07 07 00 01 00
如果一个块元素包含另一个块元素，将其更改为内联 CSS 是否错误？

我知道将块元素放在内联元素中是错误的但是下面的呢想象一下这个有效的标记 div p This is a paragraph p div 现在添加这个CSS div display inline 这会造成内联元素包含块元素的情况 div
给定一个 ID，找到最后一个句子并将其替换为 Span 包装器

鉴于以下情况 div p blah blah blah p p yada yada yada p p Tada Bing bong the witch is dead Door bell p div JavaScript JQUERY 如何
优化 ARM Cortex M3 代码

我有一个 C 函数它尝试将帧缓冲区复制到 FSMC RAM 这些函数将游戏循环的帧速率降低至 10FPS 我想知道如何分析反汇编的函数我应该计算每个指令周期吗我想知道CPU把时间花在哪里在哪个部分我确信该算法也是一个问题因为它的

优化 ARM Cortex M3 代码

优化 ARM Cortex M3 代码 的相关文章

随机推荐

热门标签

优化 ARM Cortex M3 代码的相关文章