ARM NEON常用函数总结

2023-05-16

NEON 技术是 ARM Cortex™-A 系列处理器的 128 位 SIMD（单指令，多数据）架构扩展，旨在为消费性多媒体应用程序提供灵活、强大的加速功能，从而显著改善用户体验。它具有 32 个寄存器，64 位宽（双倍视图为 16 个寄存器，128 位宽。）
目前主流的iPhone手机和大部分android手机都支持ARM NEON加速，因此在编写移动端算法时，可利用NEON技术进行算法加速，以长度为4的寄存器大小为例，相应的提速倍数约是原始的4倍。

NEON 指令可执行“打包的 SIMD”处理：

寄存器被视为同一数据类型的元素的矢量
数据类型可为：签名/未签名的 8 位、16 位、32 位、64 位单精度浮点
指令在所有通道中执行同一操作

如下图所示：
这里写图片描述

本文主要介绍float32x4_t相关的结构及函数，
float32x4_t 可以理解为vector<float32> (4),同理typexN_t即为vector<type>(N)。

在NEON编程中，对单个数据的操作可以扩展为对寄存器，也即同一类型元素矢量的操作，因此大大减少了操作次数。
这里以一个小例子来解释如何利用NEON内置函数来加速实现统计一个数组内的元素之和。

以C++代码为例：
原始算法代码如下：

#include <iostream>
using namespace std;

float sum_array(float *arr, int len)
{
    if(NULL == arr || len < 1)
    {
        cout<<"input error\n";
        return 0;
    }
    float sum(0.0);
    for(int i=0; i<len; ++i)
    {
        sum += *arr++;
    }
    return sum;
}

对于长度为N的数组，上述算法的时间复杂度时O(N)。
采用NEON函数进行加速：

#include <iostream>
#include <arm_neon.h> //需包含的头文件
using namespace std;

float sum_array(float *arr, int len)
{
    if(NULL == arr || len < 1)
    {
        cout<<"input error\n";
        return 0;
    }
    
    int dim4 = len >> 2; // 数组长度除4整数
    int left4 = len & 3; // 数组长度除4余数
    float32x4_t sum_vec = vdupq_n_f32(0.0);//定义用于暂存累加结果的寄存器且初始化为0
    for (; dim4>0; dim4--, arr+=4) //每次同时访问4个数组元素
    {
		float32x4_t data_vec = vld1q_f32(arr); //依次取4个元素存入寄存器vec
		sum_vec = vaddq_f32(sum_vec, data_vec);//ri = ai + bi 计算两组寄存器对应元素之和并存放到相应结果
    }
    float sum = vgetq_lane_f32(sum_vec, 0)+vgetq_lane_f32(sum_vec, 1)+vgetq_lane_f32(sum_vec, 2)+vgetq_lane_f32(sum_vec, 3);//将累加结果寄存器中的所有元素相加得到最终累加值
    for (; left4>0; left4--, arr++)
        sum += (*arr) ;   //对于剩下的少于4的数字，依次计算累加即可
    return sum;
}

上述算法的时间复杂度时O(N/4)
从上面的例子看出，使用NEON函数很简单，只需要将依次处理，变为批处理（如上面的每次处理4个）。

上面用到的函数有：
float32x4_t vdupq_n_f32 (float32_t value)
将value复制4分存到返回的寄存器中

float32x4_t vld1q_f32 (float32_t const * ptr)
从数组中依次Load4个元素存到寄存器中

相应的有void vst1q_f32 (float32_t * ptr, float32x4_t val)
将寄存器中的值写入数组中

float32x4_t vaddq_f32 (float32x4_t a, float32x4_t b)
返回两个寄存器对应元素之和 r = a+b

相应的有float32x4_t vsubq_f32 (float32x4_t a, float32x4_t b)
返回两个寄存器对应元素之差 r = a-b

float32_t vgetq_lane_f32 (float32x4_t v, const int lane)
返回寄存器某一lane的值

其他常用的函数还有：

float32x4_t vmulq_f32 (float32x4_t a, float32x4_t b)
返回两个寄存器对应元素之积 r = a*b

float32x4_t vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
r = a +b*c

float32x4_t vextq_f32 (float32x4_t a, float32x4_t b, const int n)
拼接两个寄存器并返回从第n位开始的大小为4的寄存器 0<=n<=3
例如
a: 1 2 3 4
b: 5 6 7 8
vextq_f32(a,b,1) -> r: 2 3 4 5
vextq_f32(a,b,2) -> r: 3 4 5 6
vextq_f32(a,b,3) -> r: 4 5 6 7

float32x4_t sum = vdupq_n_f32(0);
float _a[] = {1,2,3,4}, _b[] = {5,6,7,8} ;
float32x4_t a = vld1q_f32(_a), b = vld1q_f32(_b)  ;
float32x4_t sum1 = vfmaq_laneq_f32(sum, a, b, 0);
sum + a**b[0]
(0,0,0,0) + (1*5, 2*5, 3*5, 4*5) = (5, 10 ,15 ,20)
float32x4_t sum2 = vfmaq_laneq_f32(sum1, a, b, 1);
float32x4_t sum3 = vfmaq_laneq_f32(sum2, a, b, 2);

其他常用的函数可以参考开发网站
https://developer.arm.com/technologies/neon/intrinsics

总之，NEON学习入门很快，但如果想要更精深，就需要多花些时间和功夫在上面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ARM NEON常用函数总结的相关文章

C++之类对象的返回与引用

一类对象的返回在拷贝构造器中提到过 xff1a class span class hljs literal A span span class hljs comment span span class hljs literal A sp
字符串的操作

一字符串的初始化 1 定长字符数组 1 gt span class hljs keyword char span buf1 span class hljs number 128 span 61 span class hljs string
哈希表的大小为什么最好是素数

在看数据结构和算法分析这本书的时候 xff0c 哈希表建议大小为素数 xff0c 但里面并没有详细说明为什么 xff0c 只说了因为它在哈希表最小化集群 xff0c 这又是为什么 xff0c 我通过百度 xff0c 外加自己的理解说明一下为
selenium webdriver定位iframe里的body方法

1 iFrame有ID 或者 name的情况进入id 61 frame1 的frame中 xff0c 定位id 61 div1 的div和id 61 input1 的输入框 dr switchTo frame frame1 dr find
unity-实现摄像机跟随物体（Vector3.SmoothDamp）

直接贴代码 span class hljs keyword using span UnityEngine span class hljs keyword using span System Collections span class hl
unity-UGUI隐藏按钮

方法1 xff1a Button btn span class hljs comment span btn span class hljs preprocessor gameObject span span class hljs prepr
汇编 eax寄存器和AX,AH,AL之间的关系

EAX与AX不是独立的 xff0c EAX是32位的寄存器 xff0c 而AX是EAX的低16位举例来说 mov eax 12345678h 那么AX将会是eax的低16位 xff0c 也就是5678h 而如果此时 mov ax xff0
【git 使用】【git常见错误处理一】状态不一致：Your branch is ahead of 'origin/master' by 2 commits

git 使用 git常见错误处理一状态不一致 xff1a Your branch is ahead of 39 origin master 39 by 2 commits 现象 xff1a 当查看状态时 xff0c 或者pull拉取ser
【macOS-App使用】GlobalProtect-连接失败日志分析-安装日志分析-KEXT系统插件安装失败

GlobalProtect 连接失败日志分析 macOS 10 15 3和macOS 10 15 4 beta 测试 xff0c 连接失败分析GlobalProtect的运行日志 xff0c 看到这个信息 xff1a 报错信息 xff1a
【macOS-App使用】GlobalProtect在macOS连接server失败的处理

macOS App使用 GlobalProtect在macOS连接失败的处理 1 新版本无法连接server macOS 10 15 3和macOS 10 15 4 beta 测试 xff0c 连接server失败分析GlobalProt
学习笔记：yum install

yum的命令形式一般是如下 xff1a yum options command package 1 安装 yum install 全部安装 yum install package1 安装指定的安装包package1 yum groupins
【腾讯会议】本地录屏-转码-meeting_01.wemta

腾讯会议本地录屏转码腾讯会议中 xff0c 录屏设置为本地录制 xff0c 完成后 xff0c 是一堆这种文件 xff1a 怎么转换成mp4 xff0c 可以播放呢 xff1f 原来在这里 xff1a 找到历史会议记录 xff0c 点
【webRTC】【Node.js】【npm】-报错ERROR: npm is known not to run on Node.js v10.19.1

macOS linux ubuntu中 xff0c 执行npm命令时 xff0c 报错 xff1a npm install socket io ERROR npm is known not to run on Node js v10 19
【Qt】Qt Creator设置折叠全部代码的快捷键

Qt 折叠全部代码的快捷键 Qt Creator中 xff0c 默认是没有的 xff0c 需要自己设置 1 打开Qt Creator的偏好设置 2 在环境 gt 按键 gt 快捷键 gt 文本编辑器 gt 输入 xff1a toggle f
【Qt】【Audio】-获取当前默认音频设备（输入和输出）

Qt Audio 获取当前默认音频设备 1 获取默认音频输入设备 xff1a 系统麦克风或耳机等 xff1b 并显示名字 xff1a QAudioDeviceInfo input device 61 QAudioDeviceInfo def
Dell Inspiron 5488加内存32G

Dell Inspiron 5488加内存32G 原装内置内存仅仅8G xff0c 目前看 xff0c 真的太小了 xff01 1 内存型号 Dell 5488内存型号 xff1a DDR4 2666 笔记本有两个内存插槽 xff0c 原装
【UOS】Linux命令strings和strip

strings 命令 xff0c 是追踪可执行程序中的可打印的字符串 xff1b strip命令 xff0c 是把可执行程序动态库静态库中的可打印的字符串 xff0c 删除 strip xff0c 可以删掉可执行程序中 xff0c
【Apple Studio Display】苹果显示器无法连接Dell 5488

Apple Studio Display 苹果显示器无法连接Dell 5488 xff08 1 xff09 Dell 5488 could not use the Apple studio display via the type c ca
【macbook air M1】采用Rosetta方式运行，在macbook M1 Air上比macBook Pro M1，速度慢一些的原因？

My application use rosetta run on macbook air M1 slowly than run on macbook M1 Why xff1f It 39 s possible that you 39 re
python serial模块

安装注意 xff1a 1 easy install 是无法安装提示找不到serial 2 可以通过exe文件安装 xff0c 不过网上的exe多数是针对win32操作系统的 3 最保险的安装方式 https pypi python org

随机推荐

libcurl长连接高并发高性能

libcurl长连接高并发高性能自己开发了一个股票智能分析软件 xff0c 功能很强大 xff0c 需要的点击下面的链接获取 xff1a https www cnblogs com bclshuai p 11380657 html 目录
树莓派3B使用mavlink串口连接PIXHAWK_V5

参考网址 xff1a http ardupilot org dev docs raspberry pi via mavlink html https dev px4 io en robotics dronekit html https do
C++ 通过TCP Socket实现简单Http服务器

实现一个简单的Http服务器 xff0c 基于windows 平台总共五个文件 HttpServer hpp HttpServer cpp Utils hpp Utils cpp main cpp Utils hpp span class
Java并发编程--自旋锁的实现和使用

1 自旋锁介绍自旋锁是这样一类锁 xff1a 当线程等待加锁时 xff0c 不会阻塞 xff0c 不会进入等待状态 xff0c 而是保持运行状态大致的思路是 xff1a 让当前线程不停地的在循环体内执行 xff0c 当循环的条件被其他线
[Ubuntu] 可用云盘-尝试记录

Ubuntu可用云盘 xff1a https github com Aruelius cloud189 说明 xff1a 这是一个调用天翼云API的开源命令行工具 xff0c 基于Python编写 xff1b 天翼云官方没有客户端支持Lin
【无人机】基于遗传算法实现无人机编队位置规划附matlab代码

1 内容介绍现代社会的无人机成本造价低不易损耗轻巧灵便易躲藏能精确打击目标这些特点 xff0c 使其在一些高危任务中发挥了不可替代的作用 5 无人机的用处主要有两种 xff1a 民用和军事在民用方面 xff0c 我们可以运用无
【路径规划】基于DWA实现机器人动态避障附matlab代码

1 内容介绍 DWA 算法是基于机器人运动学与动力学理论的一种局部避障算法 xff0c 它将对机器人的位置控制转换为对机器人的速度控制 DWA 算法可以概括为三步一是根据机器人自身的限制以及环境制约将速度的采样空间约束在一定范围内二是根
飞控pixhawk硬件框架

本文转载于 xff1a https blog csdn net csshuke article details 78952026 xfeff xfeff 1 Phxhawk连接线路 2 Phxhawk硬件芯片列表处理器 STM32F427
PCB_layout_misc

AD的规则设置参考 https blog csdn net geek monkey article details 80249217 一些PCB厂家的工艺嘉立创https www jlc com portal vtechnology ht
怎样把经纬度坐标转换为空间直角坐标

怎样把经纬度坐标转换为空间直角坐标假设你的空间直角坐标以地球球心为原点原点到北极为正z轴原点到经纬度 0 0 为正x轴那么纬度a 北正南负经度b 东正西负的空间直角坐标为 x 61 Rcos a cos b y 61 Rcos
APM添加参数

APM添加参数参考 https ardupilot org dev docs code overview adding a new parameter html 添加应用参数模块例如 battery Parameters h k par
pixhawk6x/5x 电源插座/插头的型号

型号 xff1a molex CLIK Mate 5024430670 5024390600
intellij idea: git tag操作及 master branch相互合并操作

git tag和git branches区别 xff1f tag就像是里程碑标志的一个点 branch是一个新的征程的一条线 tag是静态的是只读的不能修改而branch是要往前走的稳定版本备份用tag 新功能开发多人用branch
C++之STL和Boost

最近一年我电话面试了数十位 C 43 43 应聘者 xff0c 惯用的暖场问题是工作中使用过 STL 的哪些组件 xff1f 使用过 Boost 的哪些组件 xff1f 得到的答案大多集中在 vector map 和 shared ptr
ubuntu 下安装intel realsense驱动

在安装之前一定要确保系统是ubuntu 14 04 3 64位 xff01 在安装之前一定要确保系统是ubuntu 14 04 3 64位 xff01 在安装之前一定要确保系统是ubuntu 14 04 3 64位 xff01 重要的事情说
windows下安装numpy,scipy遇到的问题总结

最近开始研究3D手势识别 xff0c 下载的源码包是基于python的 xff0c 需要用到扩展包numpy scipy等 xff0c 安装过程汇总遇到的问题总结如下 xff1a 1 安装numpy 下载numpy编译包 xff0c 进入该
Linux大数据处理踩坑实录

最近开发需要在linux服务器上做大数据处理 xff0c 由于对Linux开发并不是很熟悉 xff0c 因此踩了很多坑 xff0c 先作如下记录 xff1a 1 bash shell实现多进程背景如下需要从hadoop的hdfs上向服务
Deep Compression阅读理解及Caffe源码修改

更新 xff1a 没想到这篇文章写出后有这么多人关注和索要源码 xff0c 有点受宠若惊说来惭愧 xff0c 这个工作当时做的很粗糙 xff0c 源码修改的比较乱 xff0c 所以一直不太好拿出手最近终于有时间整理了一下代码并开源出来了
Tensorflow 离线安装跳坑总结

TensorFlow作为目前最被看好的深度学习开源框架 xff0c 又顶着Google爸爸的光环 xff0c 使得很多CNN网络的部署都基于此框架最近开始研究GAN xff08 生成对抗网络 xff09 xff0c 鉴于大部分源码都基于T
ARM NEON常用函数总结

NEON 技术是 ARM Cortex A 系列处理器的 128 位 SIMD xff08 单指令 xff0c 多数据 xff09 架构扩展 xff0c 旨在为消费性多媒体应用程序提供灵活强大的加速功能 xff0c 从而显著改善用户体验

ARM NEON常用函数总结

ARM NEON常用函数总结 的相关文章

随机推荐

热门标签

ARM NEON常用函数总结的相关文章