ARM 内联汇编加速算法

2023-05-16

首推移动端arm cpu优化学习笔记第4弹--内联汇编入门，但是其只给出了代码，很多人还不知道怎么在手机上跑起来，其实只需要一个CMakeLists.txt就可以了.

cmake_minimum_required(VERSION 2.8)
set(PROJECT_NAME benchmark)
project(${PROJECT_NAME})
set(CMAKE_BUILD_TYPE Release)
aux_source_directory(. SRC_FILES)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11")
add_executable(${PROJECT_NAME} ${SRC_FILES})

1.使用htop监测android手机CPU运行情况

git clone https://github.com/LinGeLin/Compiled-Android-htop

在其下新建一个run.sh文件，内容为

#!/bin/bash
install (){
adb push 2-2installht/xbin/htop /data/local/tmp
adb push 6-1ncinstall /data/local/tmp/
}

run(){
    adb shell "cd /data/local/tmp && export TERM=xterm && export TERMINFO=6-1ncinstall/share/terminfo &&export LD_LIBRARY_PATH=6-1ncinstall/lib &&./htop"
}

CMDS="adb shell ls /data/local/tmp/"
FILES=`$CMDS`
# echo $FILES
# for FILE in ${FILES[*]}
# do
# echo $FILE
# done
if [[ ! "${FILES[@]}" =~ "6-1ncinstall" ]]; then
    install
fi
run

打开命令行切换到htop所在文件夹下执行./run.sh

首次运行拷贝完文件后将install那行注释掉，和Linux端还是很像的.

2.测试求和加速代码:

#include "iostream"

#if ANDROID
    #include <arm_neon.h>
#endif

#define ANDROID_LOG 1
#include "mrlog.h"

int rounds = 1000;

float sum_float(const float* data, const long num=1000){
    float sum = 0;
    for(long i=0;i<num;i++){
        sum += data[i];
    }
    return sum;
}

float sum_intrinsics(const float* data, const long size=1000) 
{
    long nn = size>>2;
    float *ptr = (float*)data;
    float32x4_t sum_vec = vdupq_n_f32(0);
    for(; nn>0; nn--,ptr+=4){
        float32x4_t tmp_vec = vld1q_f32(ptr);
        sum_vec = vaddq_f32(sum_vec, tmp_vec);
    }
    float sum = vgetq_lane_f32(sum_vec, 0)+vgetq_lane_f32(sum_vec, 1)+vgetq_lane_f32(sum_vec, 2)+vgetq_lane_f32(sum_vec, 3);
    int remain = size&3;
    for(;remain>0;remain--,ptr++){
        sum+=(*ptr);
    }
    return sum;
}

int sum_neon(const float* data, const long size=1000){
    float sum = 0;
    long kc = size >> 2;
    float *ptr = (float*) data;
    #if __aarch64__
        float *sum_vector= new float[4];
        asm volatile(
            "mov            x0,0                    \n"
            "dup            v0.4s, w0               \n"
            "0:                                     \n"
            "ld1            {v1.4s},[%[ptr]],#16    \n"
            "fadd           v0.4s,v0.4s,v1.4s       \n"
            "subs           %[kc], %[kc],#1         \n"
            "bne            0b                      \n"
            "st1            {v0.4s},[%[sum_vector]] \n"
            : [kc]  "=r" (kc),
              [ptr] "=r" (ptr),
              [sum_vector] "=r" (sum_vector)
            : [kc]  "0"  (kc),   
              [ptr] "1"  (ptr),
              [sum_vector] "2"  (sum_vector)
            : "cc","memory","x0","x1"
        );
        for(int i = 0; i < 4; i++){
            sum += sum_vector[i];
        }
        delete []sum_vector;
    #else
        asm volatile(
            "veor               q0,q0,q0            \n"
            "0:                                     \n"
            "vld1.f32           {q1},[%[ptr]]!      \n"
            "vadd.f32           q0,q0,q1            \n"
            "subs               %[kc], #1           \n"
            "bne                0b                  \n"
            "vpadd.f32          d0,d0,d1            \n"
            "vadd.f32           s0,s0,s1            \n"
            "vmov.32            %[sum],s0           \n"
            : [kc]  "=r" (kc),
              [ptr] "=r" (ptr),
              [sum] "=r" (sum)
            : [kc]  "0"  (kc),   
              [ptr] "1"  (ptr),
              [sum] "2"  (sum)
            : "cc","memory","q0","q1"
        );
    #endif
    for(int i = size - (kc<<2); i < size; ++i) {
        sum += data[i];
    }
    return sum;
}

int test_float(float *a, long num){
    float sum =0;
    MRTIMER_START(sum_time);
    for(int i=0;i<rounds;i++)
        sum = sum_float(a,num);
    std::cout<<sum<<std::endl;
    std::cout<<"float: "<<MRTIMER_END(sum_time)/rounds<<"ms"<<std::endl;
    return 0;
}

int test_intrinsics(float *a, long num){
    float sum = 0;
    MRTIMER_START(intrinsics_time);
    for(int i=0;i<rounds;i++)
        sum = sum_intrinsics(a,num);
    std::cout<<sum<<std::endl;
    std::cout<<"intrinsics: "<<MRTIMER_END(intrinsics_time)/rounds<<"ms"<<std::endl;
    return 0;
}

int test_neon(float *a, long num){
    float sum =0;
    MRTIMER_START(neon_time);
    for(int i=0;i<rounds;i++)
        sum = sum_neon(a,num);
    std::cout<<sum<<std::endl;
    std::cout<<"neon: "<<MRTIMER_END(neon_time)/rounds<<"ms"<<std::endl;
    return 0;
}

int main()
{
    long num = 1000000;
    float *a = new float[num];
    for(int i=0;i<num;i++){
        a[i]=1;
    }
    test_float(a,num);
    test_intrinsics(a,num);
    test_neon(a,num);
    return 0;
}

参考ARM NEON常用函数总结其中:float32x4_t vdupq_n_f32 (float32_t value)将value复制4分存到返回的寄存器中

float32x4_t vld1q_f32 (float32_t const * ptr)从数组中依次Load4个元素存到寄存器中，vst1q_f32写

float32x4_t vaddq_f32 (float32x4_t a, float32x4_t b)返回两个寄存器对应元素之和 r = a+b

float32_t vgetq_lane_f32 (float32x4_t v, const int lane)返回寄存器某一lane的值

自动化编译和运行:

#rm -rf build
mkdir build
cd build
#arm64-v8a
cmake -DCMAKE_TOOLCHAIN_FILE=$ANDROID_NDK/build/cmake/android.toolchain.cmake -DANDROID_ABI="armeabi-v7a" -DANDROID_ARM_NEON=ON -DANDROID_PLATFORM=android-21 ..
make
adb push benchmark /data/local/tmp
adb shell "cd /data/local/tmp/ && ./benchmark"

在一加6 (高通845)上的运行时间为:

1e+06
float: 1.11039ms
1e+06
intrinsics: 0.351055ms
1e+06
neon: 0.351813ms

可见其可以加速3.09倍. PS: 一百万次加法运算耗费时间约为1毫秒.

矩阵乘法作为深度学习卷积的实现，直接影响最终的速度，如何处理才能榨干处理器的行能呢？

OpenBLAS gemm从零入门
神经网络arm neon加速实现
【图像处理】NEON编程

winograd实现卷积原理就是求卷积过程中最大公约数，消除冗余运算

卷积神经网络中的Winograd快速卷积算法
详解Winograd变换矩阵生成原理
移动端arm cpu优化学习笔记第3弹--绑定cpu(cpu affinity)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ARM 内联汇编加速算法的相关文章

【Spring Boot 2.0学习之旅-14】SpringBoot资源访问、环境配置等问题总结

SpringBoot资源访问配置等问题总结文件系统是我们开发过程中常常会接触的问题那么在Spring Boot框架中 xff0c 文件的访问又是什么样的呢 xff1f 1 file和classpath 存放在电脑上实际位置的文件 xff
拿什么拯救你，我的团队

一向认为软件开发就像是在搭房子或者说是在构建一座宏伟的大厦 xff0c 当然这根据工程的大小而定其实细细想来软件工程的很多地方都是借助于建筑方面的知识 xff0c 就从工程这个词来说就是从建筑学引进的 xff0c 类似的还有设计模式
【Spring Boot 2.0学习之旅-15】SpringBoot2.0响应式编程

SpringBoot2 0响应式编程一 SpringBoot2 0 响应式编程基础知识 Spring WebFlux官方文档 SpringBoot WebFlux文档 1 什么是Spring WebFlux xff1f 在了解Spring
【Spring Boot 2.0学习之旅-16】Spring boot整合SSE实现服务器实时推送流信息

Spring boot整合SSE实现服务器实时推送流信息 SSE全程Server Sent Event xff0c 就是服务器发送事件本文将在springboot的基础上实现一个sse xff0c 实现服务器实时推流预备知识 xff1a
【Spring Boot 2.0学习之旅-17】SpringBoot2.x监控Actuator实战

SpringBoot2 x监控Actuator实战 Spring Boot 包含许多附加功能 xff0c 可帮助您在将应用程序推送到生产环境时监控和管理应用程序您可以选择使用 HTTP 端点或 JMX 来管理和监控您的应用程序审计健康
【Spring Boot 2.0学习项目】SpringBoot+ElasticSearch博客检索系统

SpringBoot 43 ElasticSearch博客检索系统一初识ElasticSearch 1 ElasticSearch概念和适用场景分布式 xff1b 全文检索 xff1b 实时快速 xff1b Restful API x
【网络编程学习之旅】一文学习网络编程之NIO

一文学习网络编程之NIO 前置知识 xff1a Java基础知识 xff1b BIO网络编程知识 xff1b 多线程编程知识 xff1b 一网络编程模型 1 编程模型模型 xff1a 对事务共性的抽象 xff1b 编程模型 xff1a
【秋招&毕业】自由奔赴的行者2021年终总结

秋招 amp 毕业自由奔赴的行者2021年终总结 xff01 2022年1月18日晚7点在实验室敲下我的2021年终总结 xff0c 两个关键词用来概括我的2021 秋招和毕业一秋招本人情况简略介绍 xff08 脱敏处理部分信息
【网络编程学习之旅】Netty之WebSocket编程实战

Netty之WebSocket编程实战一 Netty初介绍 1 1 什么是Netty xff1f 高性能事件驱动异步非阻塞 xff1b 基于NIO的客户端服务端编程框架 xff1b 稳定性和伸缩性 xff1b 1 2 Netty使
【Docker学习之旅】手把手教你Java应用进行Docker化

手把手教你Java应用进行Docker化简介 xff1a 简介 xff1a Docker是一个使用Go语言开发的开源的应用容器引擎 xff0c 让开发者可以打包他们的应用以及依赖包到一个可移植的容器中 xff0c 然后发布到任何流行的机器
【RPC学习之旅】手把手实现一个RPC框架

手把手实现一个RPC框架一 RPC前置知识介绍 1 什么是RPC xff1f RPC是远程过程调用 xff08 Remote Procedure Call xff09 的缩写形式假设我们有两台服务器A与B xff0c 一个在A服务器上部
【SpringBoot之旅】手把手教你Swagger接口文档神器使用

手把手教你Swagger接口文档神器使用相关内容地址Swagger官方文档swagger io docs specif Swagger常用注解blog csdn net weixin 4252 Swagger2常用注解blog csdn
年度回忆录（2011.01----2011.07）

看了看上次的总结是 2011 年 1 月 1 日 xff0c 距离这次的总结有将近七个月的时间 xff0c 下面来说一说这七个月的学习情况 xff08 按照时间进度 xff09 l 英语 xff08 1 月 now xff09 上次做总结的
VFH避障流程以及策略

VFH避障核心代码讲解 xff0c 以及避障流程 VFH是一种由人工势场法改进而来的机器人导航算法在机器人移动的过程中 xff0c 利用传感器探测周围障碍物信息 xff08 图1 xff09 xff0c 生成极坐标直方图 xff08 图2
解决E: 仓库 “ubuntu bionic Release” 没有 Release 文件

span class token function sudo span span class token function apt get span update 时候 xff0c 发现404 Not Found E 仓库 http ppa
c#/winform 串口编程

这里结合看到的一些知识和在实际项目中应用的一些方法说明一下如何在 NET平台下使用C 创建串口通信程序在 net 2 0中提供了串口通信的功能 xff0c 其功能的实现主要是System IO Ports 命名空间下实现的可以通过加入这
c++:线程和进程的区别

线程是指进程内的一个执行单元也是进程内的可调度实体与进程的区别 1 地址空间进程内的一个执行单元进程至少有一个线程它们共享进程的地址空间而进程有自己独立的地址空间 2 资源拥有进程是资源分配和拥有的单位同一个进程内的线程共享
Mac设置环境变量

环境变量是电脑操作系统中常用的一些变量 xff0c 作用类似于将一些常用命令所在的文件夹位置预先告诉操作系统 xff0c 当以后需要用到这些命令时 xff0c 操作系统就自动来这些位置取例如 xff0c 常见的Java开发中配置的相关环境
Java--Java版本和JDK版本

对于Java初学者 xff0c 经常会听到同事 xff0c 或看到网上Java版本和JDK版本不一的叫法 xff0c 不明白这两者到底什么关系 xff1f 其实博主当年初学Java时也有这样的困惑 xff0c 今天我们就来好好探讨一下 xf
Oracle-Windows双击Oracle的setup.exe一闪而过；Oracle安装后的默认账号和密码

双击Oracle解压包之后的setup exe之后 xff0c 界面一闪而过 xff0c 主要是如下三种原因 1 安装路径不要包含中文 2 安装路径不要包含空格 3 右击 xff0c 选择以管理员身份运行顺带提下Oracle安装之后的默

随机推荐

Java--Stream流详解

Stream 是Java 8 API添加的一个新的抽象 xff0c 称为流Stream xff0c 以一种声明性方式处理数据集合 xff08 侧重对于源数据计算能力的封装 xff0c 并且支持序列与并行两种操作方式 xff09 Stream
Kubernetes - Kubernetes详解；安装部署（一）

一 Kubernetes Kubernetes 这个单词源于希腊语 xff0c 意为舵手或飞行员 Kubernetes xff0c 也称为K8S xff0c 其中8是代表中间 ubernete 的8个字符 xff0c 是Google在
Shiro - Shiro简介；Shiro与Spring Security区别；Spring Boot集成Shiro

一 Shiro 以下引自百度百科 shiro xff08 java安全框架 xff09 百度百科 Apache Shiro是一个强大且易用的Java安全框架 xff0c 执行身份验证授权密码和会话管理使用Shiro的易于理解的API
最近

距离软考还有 3 天的时间 xff0c 该复习的都复习了 xff0c 复习不到的知识点也只有搁置了任何事情都不可能是完美的 xff0c 软考也一样 xff0c 要的只是追求完美的过程 xff0c 结果重要但是过程更重要复习到现在感觉基础
微信小程序-微信小程序登录流程（一）

微信小程序 xff0c 小程序的一种 xff0c 英文名Wechat Mini Program xff0c 是一种不需要下载安装即可使用的应用 xff0c 它实现了应用触手可及的梦想 xff0c 用户扫一扫或搜一下即可打开应用冷启动
微信小程序-获取不限制的小程序码（二）

一获取小程序码获取小程序码微信开放文档与 createQRCode 总共生成的码数量限制为 100 000 xff0c 请谨慎调用调用方式 HTTPS 调用 POST https api weixin qq com wxa get
微信-微信退款（三）

一微信申请退款微信支付退款 API 地址 https pay weixin qq com wiki doc api app app php chapter 61 9 4 amp index 61 6 应用场景当交易发生之后一段时间内
iOS-UILabel根据文本、字体大小计算label宽度；以及自适应高度

下载地址 GitHub源码或者 Demo下载想获得所有字体 xff0c 如下 xff1a 获取到所有的字体名称 NSArray familyNames 61 UIFont familyNames NSLog 64 34 所有字体名称 6
iOS开发Provisioning profile "iOS Team Provisioning Profile:xxx" doesn't include signing certificate

连接真机设备时爆红因博主忘了截图已经处理过的截图问题如下 xff1a Provisioning profile 34 iOS Team Provisioning Profile com xxx xxx 34 doesn 39 t inc
clang-format的使用

clang format使用 1 clang format简介2 clang format的使用2 1 clang format中 clang format file2 2 示例 xff1a 配置google的代码风格2 3 vscode
NVIDIA TX2i刷机过程记录

毕业设计做的视觉系统 xff0c 需要用到TX2i xff0c 以下为本人疫情期间在家摸索了十几天 xff0c 才刷机成功的全过程关于tx2i的注意点 xff1a 首先推荐买个usb扩展器 xff0c 因为只有2个usb口 xff0c 我
Java基础(五)：重写toString()方法

目录 1 Object 类的 toString 2 重写toString 方法意义 3 总结 1 Object 类的 toString Java默认的toString方法来自Object类在Java中每个类都直接或者间接继承Object类
Mysql基础(十九)：锁

目录 1 Mysql锁机制 1 1 乐观锁和悲观锁 1 1 1 乐观锁 1 1 2 悲观锁 1 2 共享锁与排他锁 1 2 1 共享锁 1 2 2 排他锁 1 3 行锁与表锁 1 3 1 行锁 1 3 2 表锁 1 4 间隙锁 1 4 1
大数据时代的图表可视化利器——highcharts,D3和百度的echarts

还记得阿里巴巴那个令人澎湃激情的双十一吗 xff1f 还记得淘宝生动形象地把你的的消费历程一一地展示给你看吗 xff1f 还记得那些酷炫拽的it报告图表吗 xff1f 在这个大数据越来越盛行的年代 xff0c 怎样去表达一些用户的关系 xf
对三层和MVC的认识过程

三层架构就是 MVC xff01 起初老师总说三层 MVC xff0c MVC 三层架构所以开始的时候脑子就一个概念 xff1a 三层就是 MVC xff0c MVC 就是三层架构而且想想也合理啊 xff0c 都是三 MVC 是三个字
ROS雷达包出现：ERROR: cannot launch node of type: rplidar_ros

ROS雷达包出现 xff1a ERROR cannot launch node of type rplidar ros 问题分析详情问题分析仅安装了基础ROS xff0c rplidar ros包没有安装详情下载包并解压缩 1 使用
nvidia-smi出现的比较慢

一个比较老的问题 xff0c 一般四卡以上的机器可能会出现以前我都是 nvidia span class hljs attribute smi span span class hljs attribute pm span span cla
【tensorflow】tensorflow的安装及应用

安装tensorflow的三种方法 1 在cmd命令行中输入pip install tensorflow xff0c 默认安装最新版 2 其他旧版本的安装 xff0c 去pypi org官网可以点击release history选择想要的
汇编：stmdb和ldmia指令

参考了网上一些文章 xff0c 简单说一下stmdb和ldmia指令的作用 xff0c 如有错误欢迎指正首先一句话说一下stmdb和ldmia指令的作用 xff1a stmdb和ldmia指令一般配对使用 xff0c stmdb用于将寄
ARM 内联汇编加速算法

首推移动端arm cpu优化学习笔记第4弹内联汇编入门 xff0c 但是其只给出了代码 xff0c 很多人还不知道怎么在手机上跑起来 xff0c 其实只需要一个CMakeLists txt就可以了 cmake minimum requir

ARM 内联汇编 加速 算法

ARM 内联汇编 加速 算法 的相关文章

随机推荐

热门标签

ARM 内联汇编加速算法

ARM 内联汇编加速算法的相关文章