使用 NEON 优化 Cortex-A8 颜色转换

2024-05-11

我目前正在执行颜色转换例程，以便从 YUY2 转换为 NV12。我有一个相当快的函数，但没有我预期的那么快，主要是由于缓存未命中。

void convert_hd(uint8_t *orig, uint8_t *result) {
uint32_t width          = 1280;
uint32_t height         = 720;
uint8_t *lineOdd        = orig;
uint8_t *lineEven       = orig + width*2;
uint8_t *resultYOdd     = result;
uint8_t *resultYEven    = result + width;
uint8_t *resultUV       = result + height*width;
uint32_t totalLoop      = height/2;

while (totalLoop-- > 0) {
  uint32_t lineLoop = 1280/32; // Bytes length: width*2, read by iter 16Bytes

  while(lineLoop-- > 0) {
    __asm__ __volatile__(
        "pld [%[lineOdd]]   \n\t"
        "vld4.8   {d0, d1, d2, d3}, [%[lineOdd],:128]!   \n\t" // d0:Y d1:U0 d2:Y d3:V0
        "pld [%[lineEven]]   \n\t"
        "vld4.8   {d4, d5, d6, d7}, [%[lineOdd],:128]!   \n\t" // d4:Y d5:U1 d6:Y d7:V1
        "vld4.8   {d8, d9, d10, d11}, [%[lineEven],:128]!  \n\t" // d8:Y d9:U0' d10:Y d11:V0'
        "vld4.8   {d12, d13, d14, d15}, [%[lineEven],:128]!  \n\t" // d12:Y d13:U1' d14:Y d15:V1'
        "vhadd.u8   d1, d1, d9    \n\t" // (U0+U0') / 2
        "vhadd.u8   d3, d3, d11    \n\t" // (V0+V0') / 2
        "vhadd.u8   d5, d5, d13    \n\t" // (U1+U1') / 2
        "vhadd.u8   d7, d7, d15    \n\t" // (V1+V1') / 2
        // Save
        "vst2.8 {d0, d2}, [%[resultYOdd],:128]!           \n\t"
        "vst2.8 {d4, d6}, [%[resultYOdd],:128]!           \n\t"
        "vst2.8 {d8, d10}, [%[resultYEven],:128]!          \n\t"
        "vst2.8 {d12, d14}, [%[resultYEven],:128]!          \n\t"
        "vst2.8 {d1, d3}, [%[resultUV],:128]!   \n\t"
        "vst2.8 {d5, d7}, [%[resultUV],:128]!   \n\t"
        : [lineOdd]"+r"(lineOdd), [lineEven]"+r"(lineEven), [resultYOdd]"+r"(resultYOdd), [resultYEven]"+r"(resultYEven), [resultUV]"+r"(resultUV)
        :
        : "memory"
    );
  }
  lineOdd += width*2;
  lineEven += width*2;
  resultYOdd += width;
  resultYEven += width;
}
}

当我问 oprofile 需要什么时间时，它说：

                                           :    220c:   add r2, r0, #2560   ;
                                           :    2210:   add r3, r1, #1280   ;
                                           :    2214:   add ip, r1, #921600 ;
                                           :    2218:   push    {r4, lr}
                                           :    221c:   mov r4, #360    ;
 6  0.1243    10  0.5787     4  0.4561     :    2220:   mov lr, #40 ; 0x28
 9  0.1864     5  0.2894     0       0     :    2224:   pld [r0]
45  0.9321     7  0.4051     3  0.3421     :    2228:   vld4.8  {d0-d3}, [r0 :128]!
51  1.0563     7  0.4051     1  0.1140     :    222c:   pld [r2]
 1  0.0207     1  0.0579     0       0     :    2230:   vld4.8  {d4-d7}, [r0 :128]!
1360 28.1690   770 44.5602   463 52.7936     :    2234: vld4.8  {d8-d11}, [r2 :128]!
 980 20.2983   329 19.0394   254 28.9624     :    2238: vld4.8  {d12-d15}, [r2 :128]!
                                             :    223c: vhadd.u8    d1, d1, d9
1000 20.7125   170  9.8380   104 11.8586     :    2240: vhadd.u8    d3, d3, d11
                                             :    2244: vhadd.u8    d5, d5, d13
   5  0.1036     2  0.1157     2  0.2281     :    2248: vhadd.u8    d7, d7, d15
                                             :    224c: vst2.8  {d0,d2}, [r1 :128]!
1125 23.3016   293 16.9560    15  1.7104     :    2250: vst2.8  {d4,d6}, [r1 :128]!
  34  0.7042    41  2.3727     0       0     :    2254: vst2.8  {d8,d10}, [r3 :128]!
  74  1.5327     8  0.4630     0       0     :    2258: vst2.8  {d12,d14}, [r3 :128]!
  60  1.2428    39  2.2569     6  0.6842     :    225c: vst2.8  {d1,d3}, [ip :128]!
  53  1.0978    24  1.3889    14  1.5964     :    2260: vst2.8  {d5,d7}, [ip :128]!
                                             :    2264: subs    lr, lr, #1
   0       0     0       0     1  0.1140     :    2268: bne 2224 <convert_hd+0x18>
  11  0.2278    14  0.8102    10  1.1403     :    226c: subs    r4, r4, #1
                                             :    2270: add r0, r0, #2560   ;
                                             :    2274: add r2, r2, #2560   ;
   2  0.0414     6  0.3472     0       0     :    2278: add r1, r1, #1280   ;
                                             :    227c: add r3, r3, #1280   ;
   2  0.0414     1  0.0579     0       0     :    2280: bne 2220 <convert_hd+0x14>
                                             :    2284: pop {r4, pc}

前两列是周期计数（绝对和相对）
接下来的两个是 L1 缓存未命中（绝对和相对）
最后一个是 L2 缓存未命中（绝对和相对）

任何帮助将不胜感激，因为现在找出想法并避免缓存丢失是一项相当困难的任务......

Thanks !

高速缓存行长度固定为八个字（32 字节）。除了pld你目前拥有，你需要pld[lineEven+cacheLine]。错过的是vld4.8 {d8-d11}，这是第二半lineEven. pld只会获取缓存行。另外，您应该更改pld位置。一个放在头部，另一个放在前面vhadd，也许是下一个内存目标。然后，ALU 和内存单元会并行活动。

还有，交错vst2.8 {d0, d2}与vhadd;看起来大部分数据都是内存传输。这vhadd将阻止数据依赖性，例如d9您可能/可能没有从中加载pld，但没有安排好。

我不太熟悉NEON，但以下是尝试遵循我所说的。

__asm__ __volatile__(
    "pld [%[lineOdd], #32]\n\t" // 2nd part of odd.
    "vld4.8   {d0, d1, d2, d3}, [%[lineOdd],:128]!\n\t"
    "pld [%[lineEven], #32]\n\t" // 2nd part of even.
    "vld4.8   {d8, d9, d10, d11}, [%[lineEven],:128]!\n\t"
    "vld4.8   {d4, d5, d6, d7}, [%[lineOdd],:128]!\n\t"
    "vld4.8   {d12, d13, d14, d15}, [%[lineEven],:128]!\n\t" 
    "vhadd.u8   d1, d1, d9\n\t"
    // First in memory pipe, so write early.
    "vst2.8 {d0, d2}, [%[resultYOdd],:128]!\n\t"  
    "vhadd.u8   d3, d3, d11\n\t"
    "vst2.8 {d8, d10}, [%[resultYEven],:128]!\n\t"
    "vhadd.u8   d5, d5, d13\n\t"
    "vst2.8 {d4, d6}, [%[resultYOdd],:128]!           \n\t"
    "vhadd.u8   d7, d7, d15\n\t"
    "vst2.8 {d12, d14}, [%[resultYEven],:128]!          \n\t"
    "pld [%[lineOdd]]\n\t"   // 1st part of odd.
    "vst2.8 {d1, d3}, [%[resultUV],:128]!   \n\t"
    "pld [%[lineEven]]\n\t"  // 1st part of even.
    "vst2.8 {d5, d7}, [%[resultUV],:128]!   \n\t"
    : [lineOdd]"+r"(lineOdd), [lineEven]"+r"(lineEven),
      [resultYOdd]"+r"(resultYOdd), [resultYEven]"+r"(resultYEven),
      [resultUV]"+r"(resultUV)
    :
    : "memory"
);

我可能做错的事情是NEON运营;我不知道你的寄存器有多宽（64/128），所以更多PLD可能需要等等。最好将存储操作与添加操作交织在一起。尤其是，一些dX将在其他人之前加载，并且它们将准备好使用。否则，你的 ALU (vhadd）将阻塞等待数据加载。

您可能还希望prime循环与pld[lineOdd] and pld[lineEven]在事情开始之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NEON 优化 Cortex-A8 颜色转换的相关文章

大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
弹出 x86 堆栈以访问函数 arg 时出现分段错误

我正在尝试链接 x86 程序集和 C 我的C程序 extern int plus 10 int include
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
如何在 Debian 上编译 DOS 程序？

在我的汇编语言课程中我们使用 DPMI 编写 DOS 程序不幸的是我无法一直使用 32 位 Windows 机器我在我使用的几乎每台计算机上都安装了 Debian 虚拟机我已经安装了 DOSBox 和 DOSEMU 有什么办法可以
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
AOSP 的“午餐”组合是什么意思？我需要选择什么？

我是 Android 设备 ROM 开发的新手无论如何我现在正在为具有 64 位处理器的中国设备构建 AOSP 我按照 source android com 上的菜单进行操作当我运行午餐命令时终端显示午餐菜单选择一个组合我
MikeOS 引导加载程序中的堆栈段

我不明白这段代码 mov ax 07C0h Set up 4K of stack space above buffer add ax 544 8k buffer 512 paragraphs 32 paragraphs loader cli
X86 预取优化：“计算 goto”线程代码

我有一个相当重要的问题我的计算图有循环和多个计算路径我没有制作一个调度程序循环其中每个顶点将被一一调用而是将所有预先分配的框架对象放置在堆中代码数据这有点类似于线程代码甚至更好 CPS 只是在堆中跳转执行代码每个代
arm-linux-gnueabi 编译器选项

我在用 ARM Linux gnueabi gcc在 Linux 中为 ARM 处理器编译 C 程序但是我不确定它编译的默认 ARM 模式是什么例如对于 C 代码 test c unsigned int main return 0x
直接在 ARM 目标上调试单声道应用程序

我最近在 BeagleBone 嵌入式 ARM 设备上安装了 Mono 希望通过 USB 连接 Kinnect 传感器并使用 C Mono 控制它我想知道 Mono 我正在使用 MonoDevelop 但我想这个问题也适用于 VS 是否允
是否可以在VM内使用VMX CPU指令？

VM guest 内部的进程是否有可能使用 VMX AMD V VT x CPU 指令然后由外部 VMM 处理而不是直接在 CPU 上处理 Edit 假设外部VM使用VMX本身来管理其虚拟客户机即它在Ring 1中运行如果可能的话是
如何模拟ARM处理器运行环境并加载Linux内核模块？

我尝试加载我的vmlinux into gdb并使用 ARM 内核模拟器但我不明白为什么我会得到Undefined target command sim 这是外壳输出 arm eabi gdb vmlinux GNU gdb GDB 7
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
如何使用 Bochs 运行汇编代码？

我想使用 Bochs 作为 8086 模拟器是否有捷径可寻我想要的是类似 emu8086 的东西 http www emu8086 com http www emu8086 com 如果程序的初始部分适合 512 字节并且您不介意将自
从类模板参数为 asm 生成唯一的字符串文字

我有一个非常特殊的情况我需要为类模板中声明的变量生成唯一的汇编程序名称我需要该名称对于类模板的每个实例都是唯一的并且我需要将其传递给asm关键字 see here https gcc gnu org onlinedocs gcc 12
NASM 中的 equ 和 db 有什么区别？

len equ 2 len db 2 它们是否相同产生可以用来代替的标签2 如果不是那么每种申报表的优点或缺点是什么它们可以互换使用吗第一个是equate 与 C 类似 define len 2 因为它实际上并没有在最终代码中分配任
为arm构建WebRTC

我想为我的带有arm926ej s处理器的小机器构建webrtc 安装 depot tools 后我执行了以下步骤 gclient config http webrtc googlecode com svn trunk gclient s
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
Intel：序列化指令和分支预测

英特尔架构开发人员手册 http www intel com content www us en architecture and technology 64 ia 32 architectures software developer v
如何在 GCC C++ 中编写多行内联汇编代码？

这看起来不太友好 asm command 1 command 2 command 3 我真的必须在每一行加上双引号吗另外由于多行字符串文字在 GCC 中不起作用我也无法欺骗它我总是在互联网上找到一些例子该人手动插入制表符和换行符而

随机推荐

数据包无序。得到：80 预期：0 node.js

这是我的非常简单代码 var connection mysql createConnection infosDB connection connect connection query SELECT FROM action functi
安装 npm 包时自动安装类型定义

有没有办法配置npm以这样的方式每当我安装一个包时它都会检查里面是否有类型定义如果没有请尝试安装 types PACKAGE与 save dev flag 理想情况下我希望这能够自动发生作为插件或其他东西而不需要编写限制 A
linux下如何获取昨天和前天？

我想在变量中获取 sysdate 1 和 sysdate 2 并回显它我正在使用下面的查询它将今天的日期作为输出 bin bash tm date Y d m echo tm 如何获取昨天和前天的日期这是另一种方法对于昨天来说 da
为什么我们必须在 OAuth 中“更改令牌凭据的临时凭据”？

服务器不能只是将临时凭证升级为令牌凭证并保留相同的密钥和秘密吗然后客户端可以在收到服务器的回调表明临时凭证已升级后立即开始进行经过身份验证的调用当然如果临时凭证尚未升级即客户端不等待回调则经过身份验证的调用将失败所以
什么时候 Thread.sleep(1000) 睡眠时间少于 1000 毫秒？

在这篇有趣的文章中程序员对时间的看法是错误的 http infiniteundo com post 25509354022 more falsehoods programmers believe about time wisdom 其中之一
使用 jQuery 修改 svg 文件

我有一个 svg 文件其中包含一些形状和一些文本我想在运行时修改 svg 以便某些形状可以更改颜色某些文本可以更改其内容假设我的外部 svg 文件中只有两个元素圆圈 1 具有该 id 的蓝色实心圆圈 text1 包含该 id 的
下拉 Ajax onchange SonataAdminBundle Symfony2 问题

我正在尝试在 SonataAdminBundle 中实现 onchange 下拉菜单我的实体就像 class BuilderHomePage var integer ORM Column name id type integer null
如何将 SVN 修订号注入 JAR 中？

我希望我的 JAR WAR 应用程序知道其源代码的 SVN 修订号是多少我希望稍后在网页底部等处为网络最终用户呈现此修订号是否有任何现有的 Maven 插件可以自动化该过程我认为该插件必须从以下位置收集信息svn并保存到某个文件例如
哎呀，看起来像出事了。拉拉维尔 5.1

我有这样的路线 http localhost inspection show id 当我尝试同时加载路线时在不同的选项卡中有时其中一些选项卡会出现错误哎呀看起来出了问题在不同选项卡中加载速度如此之快 http localhost
可以在 Blazor 布局中使用 ViewComponent 吗？

刚刚第一次尝试 Blazor 使用默认的 Blazor 模板我添加了一个ViewComponent致电MainLayout cshtml await Component InvokeAsync HeaderComponent Intell
实体框架 SaveChanges 错误详细信息

保存更改时SaveChanges在数据上下文上有没有办法确定哪个实体导致错误例如有时我会忘记将日期分配给不可为空的日期字段并收到无效日期范围错误但我没有得到有关它是由哪个实体或哪个字段引起的信息我通常可以通过煞费苦心地检查我所有
当我运行捆绑安装时，Nokogiri“无法构建 gem 本机扩展”

我在跑bundle install我收到此错误 Building nokogiri using system libraries Gem Ext BuildError ERROR Failed to build gem native ext
为什么分割视图控制器必须始终是您创建的任何界面的根？

在苹果的开发者指南中他们指出分割视图控制器必须始终是您创建的任何界面的根 see here http developer apple com library ios featuredarticles ViewControllerPGfo
按 ng-repeat 中的对象键排序

如何按整数键排序我有以下对象 scope data 0 data ZERO 1 data ONE 2 data TWO 3 data TREE 5 data FIVE 6 data SIX 10 data TEN 11 data ELEV
MongoDB 获取聚合查询中的第一个和最后一个文档

我如何获得第一个和最后一个文档time场地我可以用 group并得到 first and last文档但我不需要在这里分组只需获取第一个和最后一个完整文档也许我可以用slice 此查询不起作用 aggregate 353469045
Cloud Firestore 安全规则使用的语言名称是什么？

我想知道用于 Cloud Firestore 安全规则的语法名称如下所述https firebase google com docs firestore security get started authuser 0 https fire
“未发现包含任何钥匙串签名证书的未过期配置文件”恐怖

我看到了其他一些涉及这个主题的问题但没有一个像我的昨天我无意中将一个设备添加到设备列表中问题我的印象是一旦添加设备它现在就会链接到配置文件然而我相信它没有链接到我的分发配置文件之一因此我进入编辑配置文件单击设备旁边的复
迭代集合时将动态 ID 分配给隐藏字段

有没有办法分配动态IDh inputHidden成分 EDIT1 我正在尝试分配 id 内ui repeat迭代元素集合时的标记无法根据迭代值设置 ID
exec git 命令拒绝重定向到 Go 中的文件

我试图从 go 调用 git log 并将输出重定向到给定文件 cmdArgs string log numstat reverse fmt Sprintf s HEAD 89c98f5ec48c8ac383ea9e27d792c3dc77
使用 NEON 优化 Cortex-A8 颜色转换

我目前正在执行颜色转换例程以便从 YUY2 转换为 NV12 我有一个相当快的函数但没有我预期的那么快主要是由于缓存未命中 void convert hd uint8 t orig uint8 t result uint32 t wi

使用 NEON 优化 Cortex-A8 颜色转换

使用 NEON 优化 Cortex-A8 颜色转换 的相关文章

随机推荐

热门标签

使用 NEON 优化 Cortex-A8 颜色转换的相关文章