Intrinsics 中 Neon 的校验和代码实现

2023-12-05

我正在尝试使用内在函数为 NEON 实现校验和计算代码（2 的补码加法）。当前的校验和计算是在 ARM 上进行的。

我的实现一次从内存中获取 128 位数据到 NEON 寄存器中并执行 SIMD（加法），结果从 128 位数字折叠为 16 位数字。

一切看起来都工作正常，但我的 NEON 实现比 ARM 版本消耗更多时间。

ARM 版本需要：0.860000秒NEON 版本需要：1.260000秒

Note:

使用“time.h”中的实用程序进行分析
从示例应用程序调用校验和函数 10,000 次，并在所有函数完成运行后计算时间

其他详情：

使用GNU工具链（arm-none-linux-gnueabi-gcc）来编译内部代码，而不是arm工具链。
Linux平台。
C 内部代码。

问题：

为什么NEON版本比ARM版本花费更多时间？（尽管我已经注意使用批次中具有最小周期的内在函数）
如何实现我想要实现的目标？（NEON 的效率）
有人可以指出我或分享一些使用 ARM-NEON 互操作的示例实现（伪代码/算法/代码，而不是理论实现论文或演讲）吗？

任何帮助将非常感激。

这是我的代码：

uint16_t do_csum(const unsigned char * buff, int len)
{
int odd, count, i;

uint32x4_t result = veorq_u32( result, result), sum = veorq_u32( sum, sum); 
uint16x4_t data, data_hi, data_low, data8;
uint16x8_t dataq;
uint16_t result16, disp[20] = {0,0,0,0,0,0,0,0,0,0};

if (len <= 0)
    goto out;
odd = 1 & (unsigned long) buff;
if (odd) {
    uint8x8_t data1 = veor_u8( data1, data1); 
    data1 = (uint16x4_t)vld1_lane_u8((uint8_t *)buff, data1, 0); //result = *buff << 8;
    data1 = (uint16x4_t)vshl_n_u16( data1, 8);

    len--;
    buff++;
    result = vaddw_u16(result, data1);
}
count = len >> 1;       /* nr of 16-bit words.. */
if (count) {
    if (2 & (unsigned long) buff) {
        uint16x4_t data2 = veor_u16( data2, data2); 
        data2 = (uint16x4_t) vld1_lane_u16((uint16_t *)buff, data2, 0); //result += *(unsigned short *) buff;
        count--;
        len -= 2;
        buff += 2;
        result = vaddw_u16( result, data2);
    }
    count >>= 1;        /* nr of 32-bit words.. */
    if (count) {
        if (4 & (unsigned long) buff) {
            uint32x2_t data4 = (uint16x4_t) vld1_lane_u32((uint32_t *) buff, data4, 0);
            count--;
            len -= 4;
            buff += 4;
            result = vaddw_u16( result, data4);
        }
        count >>= 1;    /* nr of 64-bit words.. */
        if (count) {
            if (8 & (unsigned long) buff) {
                uint64x1_t data8 = vld1_u64((uint64_t *) buff); 
                count--;
                len -= 8;
                buff += 8;
                result = vaddw_u16( result,(uint16x4_t)data8);
            }
            count >>= 1;    /* nr of 128-bit words.. */
            if (count) {
                do {
                    dataq = (uint16x8_t)vld1q_u64((uint64_t *) buff); // VLD1.64 {d0, d1}, [r0]
                    count--;
                    buff += 16;

                    sum = vpaddlq_u16(dataq);   
                    vst1q_u16( disp, dataq); // VST1.16 {d0, d1}, [r0]

                    result = vaddq_u32( sum, result);
                } while (count);
            }
            if (len & 8) {
                uint64x1_t data8 =  vld1_u64((uint64_t *) buff); 
                buff += 8;
                result = vaddw_u16( result, (uint16x4_t)data8);
            }
        }
        if (len & 4) {
            uint32x2_t data4 = veor_u32( data4, data4); 

            data4 = (uint16x4_t)vld1_lane_u32((uint32_t *) buff, data4, 0);//result += *(unsigned int *) buff;
            buff += 4;
            result = vaddw_u16( result,(uint16x4_t) data4);
        }
    }
    if (len & 2) {
        uint16x4_t data2 = veor_u16( data2, data2); 
        data2 = (uint16x4_t) vld1_lane_u16((uint16_t *)buff, data2, 0); //result += *(unsigned short *) buff;
        buff += 2;
        result = vaddw_u16( result, data2);
    }
}
if (len & 1){
    uint8x8_t data1 = veor_u8( data1, data1); 
    data1 = (uint16x4_t) vld1_lane_u8((uint8_t *)buff, data1, 0); //result = *buff << 8;
    result = vaddw_u8( result, data1);
}


result16 = from128to16(result);

if (odd)
    result16 = ((result16 >> 8) & 0xff) | ((result16 & 0xff) << 8);

out:
    return result16;
}

您可以改进一些事情：

摆脱商店disp- 这看起来像调试代码留在？
不要在主循环中进行水平加法 - 只需在循环中进行部分（垂直）求和，并在循环后进行最后一次水平加法（请参阅这个答案有关如何执行此操作的示例 - 适用于 SSE，但原理是相同的）
确保您使用gcc -O3 ...从编译器优化中获得最大收益
不要使用goto！（不影响性能，但很邪恶。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Embedded

arm

SIMD

neon

cortexa8

Intrinsics 中 Neon 的校验和代码实现的相关文章

读取和打印手臂组件中的字符串

我正在使用 ARMSim 刚刚开始学习汇编所以如果我看起来一无所知请原谅我但我正在尝试从输入文件中读取字符串然后将其打印到输出屏幕到目前为止我有 equ SWI Open 0x66 open a file equ SWI Clos
快速CRC算法？

我想从 ASCII 字符串创建一个 32 位数字 CRC32 算法正是我正在寻找的但我无法使用它因为它需要的表太大了它适用于资源非常稀有的嵌入式系统那么对于快速且精简的 CRC 算法有什么建议吗当冲突的可能性比原始 CRC32
C 相同结构不同尺寸

我的问题与此相关 c 在struct中定义不同大小的数组 https stackoverflow com questions 17956697 c define arrays in struct with different sizes 但
尝试使用 qemu-arm 运行arm二进制文件时如何解决“加载共享库时出错”？

我正在运行 Linux Mint 14 并安装了 qemu qemu user 和 gnueabi 工具链我编译了 test carm linux gnueabi gcc test c o test 当我尝试跑步时qemu arm usr
在 SIMD 操作上下文中，非压缩指令和压缩指令有什么区别？

在 SIMD 操作上下文中非压缩指令和压缩指令有什么区别我正在阅读一篇关于优化 SSE 代码的文章 http www cortstratton org articles OptimizingForSSE php batch http w
有没有办法在 Xcode 4 中为 ARM 而不是 Thumb 进行编译？

如果有很多浮点运算正在进行 Apple 建议针对 ARM 进行编译而不是针对拇指进行编译我的整个应用程序几乎是一个大型浮点运算 iOS 应用程序开发工作流程指南中是这样说的 iOS 设备支持两种指令集 ARM 和 Thumb Xcode
gcc 编译器开关 (-mavx -mavx2 -mavx512f) 到底有什么作用？

我在 C C 代码中明确使用了英特尔 SIMD 内在扩展为了编译代码我需要在命令行上指定 mavx mavx512 或类似的内容我对这一切都很满意然而从阅读 gcc 手册页来看并不清楚这些命令行标志是否也告诉 gcc 编译器尝试
如何随时暂停 pthread？

最近我开始将 ucos ii 移植到 Ubuntu PC 上我们知道在pthread的回调函数中的 while 循环中简单地添加一个标志来执行暂停和恢复是不可能模拟ucos ii中的进程的如下解决方案因为ucos ii中的进程
在 Intel 机器上构建 Apple Silicon 二进制文件

如何在 macOS 11 Intel 上编译 C 项目以在 Silicon 上运行我当前的构建脚本很简单 configure make sudo make install 我尝试过使用 host and target标志与aarch64
ARM 系统调用的接口是什么？它在 Linux 内核中的何处定义？

我读过有关 Linux 中的系统调用的内容并且到处都给出了有关 x86 架构的描述 0x80中断和SYSENTER 但我无法追踪 ARM 架构中系统调用的文件和进程任何人都可以帮忙吗我知道的几个相关文件是 arch arm kerne
如何设置 CMake 与 clang 交叉编译 Windows 上的 ARM 嵌入式系统？

我正在尝试生成 Ninja makefile 以使用 Clang 为 ARM Cortex A5 CPU 交叉编译 C 项目我为 CMake 创建了一个工具链文件但似乎存在错误或缺少一些我无法找到的东西当使用下面的工具链文件调用 CM
了解 U-Boot 内存占用

我不明白加载 U Boot 时 RAM 中发生了什么我正在开发 Xilinx Zynq ZC702 评估套件并尝试使用 U Boot 在其上加载 Linux 内核于是我使用Xilinx工具Vivado和SDK生成了一个BOOT bin
CC2538 的 Contiki UDP 数据包传输持续时间

有人可以解释一下 Contiki OS 传输 UDP 数据包时发生了什么吗以下是我的设备使用 CC2538 芯片运行时的详细电流消耗我的问题是既然理论上在 250kbps 下 408 位长度的数据包应该在大约 2ms 内传输为什么要
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
在嵌入式 Jetty 上使用 DefaultServlet 提供静态 html 文件

我正在开发一个需要独立的项目因此我决定将 Jetty 嵌入到我的应用程序中我将提供静态 HTML 页面一些 JSP 页面并且还将使用一些自定义 servlet 我找到了一个完美的示例说明如何设置嵌入式 Jetty 来完成所有这一切
大数组上的 SSE 性能较慢

我是 SSE 编程新手所以我希望有人可以帮助我我最近使用 GCC SSE 内在函数实现了一个函数来计算 32 位整数数组的总和下面给出了我的实现代码 int ssum const int d unsigned int len stat
如何模拟ARM处理器运行环境并加载Linux内核模块？

我尝试加载我的vmlinux into gdb并使用 ARM 内核模拟器但我不明白为什么我会得到Undefined target command sim 这是外壳输出 arm eabi gdb vmlinux GNU gdb GDB 7
ARM Chromebook 上的 Android 开发环境？

我尝试了多次安装和使用安卓工作室 https developer android com studio index html on an ARM Chromebook C100P https archlinuxarm org platfor
iPhone 3GS 上的 ARM 与 Thumb 性能比较，非浮点代码

我想知道是否有人有关于 iPhone 3GS 上 ARM 与 Thumb 代码性能的硬性数据特别是对于非浮点 VFP 或 NEON 代码我知道 Thumb 模式下的浮点性能问题更大的 ARM 指令的额外代码大小是否会在某个时刻成为性能
什么是遗留中断？

我正在开发一个项目试图弄清楚 ARM 架构的全局中断控制器中如何处理中断我正在使用 pl390 中断控制器我看到有一条线被称为传统中断它绕过了分配器逻辑假设有 2 个中断可以被编程为传统中断任何人都可以帮助解释一下什么是遗留中断

随机推荐

Python实时绘制ROS数据

我正在尝试使用 python 绘制传入计算机的实时数据数据来自 ROS 主题我使用 rospy 订阅该主题以获取数据这是我写的代码 import rospy from sensor msgs msg import ChannelFlo
如何使我的所有网址都无扩展名，且不带尾部斜杠。并将 .php 和尾部斜杠重定向为无？

我想让我的所有网址统一干净这意味着我所有的 URL 都没有扩展名也没有尾部斜线并且如果一个人确实输入了 php或尾部斜杠它只会将用户重定向到干净的 URL Example example com blog file php and
如何对 UTF-8 字符使用 String 方法？

如何对 UTF 8 字符使用 String 方法例如我有一个带有西里尔字符的字符串所以当我使用string upcase它不起作用 Ruby 仅支持字母的大小写转换A Z and a z 原因很简单其他字母的大小写转换没有明确定义
Resteasy 客户端的自定义 Jackson 序列化器

是否可以为 Resteasy 客户端注册自定义 Jackson JSON 序列化器我尝试过做类似的事情 ResteasyClient client new ResteasyClientBuilder register new Custom
为什么没有更多的迭代器随机访问？

我正在尝试了解有关 C 中的 STL 迭代器的更多信息我理解不同的数据结构如何具有不同的迭代器但我不明白为什么有些迭代器不是随机访问例如为什么 LinkedList 迭代器不是随机访问迭代器我知道 LinkedList 本身并不是
汇编 (,%eax,4)

如果我的命令行之一显示 jmp 0x804a180 eax 4 这意味着什么我特别询问是因为第一个逗号之前没有值而且我不确定地址之前的到底是什么意思该指令跳转到其值位于计算得出的地址处的位置 eax 4 0x804a180 The
C# 调用一个 DLL 函数，该函数返回一个指向结构数组的指针

我尝试了各种方法的许多不同组合来封送此调用这是一个 DLL 它返回一个指向结构数组的指针像 debugPort 这样的类型实际上是枚举 struct debugConnectParameters brief Get device cha
从 PHP 脚本执行 shell 脚本

我想从 PHP 脚本执行系统上存在的 Bash 脚本我的系统上有两个脚本其中之一是名为的 PHP 脚本client php目前在 var www html另一个是名为的 Bash 脚本testscript目前在 home testuse
Android的WebView.loadUrl方法中Url的长度有限制吗？

我想将本地资源传输到从远程服务器加载的页面我想做这样的事情 webView loadUrl http my server com page html webView loadUrl javascript function someLo
Perl：无法使用 SSL 访问 Web 服务

这是我的第一个 Perl 脚本我已经使用 CPAN 安装了 SOAP Lite 看起来一切顺利我正在尝试访问一个简单的 HelloWorld NET Web 服务我收到一个错误该错误似乎与 Perl 或 SOAP Lite 无法验证
在 WP7 中向 xml 文件添加元素？

如何在 wp7 中向 xml 文件添加元素我找到了很多资料显示如何在 ASP NET 浏览器上的 Silverlight 等中添加元素但在 wp7 上却没有我一直看到我们应该使用 XDocument XML to Linq 只是不知道
这是什么意思？

我正在分析一些 Python 代码但我不知道是什么 pop population 方法它是类似于Java中的数组列表还是二维数组这是切片表示法的一个示例它的作用取决于切片的类型population If population是一个列
为什么“man bash”页面声明“declare”和“local”“-n”属性“不能应用于数组变量”，但它却可以？

为什么local n当手册时处理数组变量明确表示不说明书有错吗这是否依赖于某种 bash 未定义的行为说明书已经过时了吗我错过了什么吗以下是我从 bash 手册中查看的信息 Run man bash并搜索local 使用正则表达式
Spring 批处理：JdbcPagingItemReader 无法获取第 1 页以后的页面

这是我的读者 Bean public ItemReader
mysql 使用 GROUP BY 进行数据透视查询结果

我有一个数据表我想将其导出为 CSV 理想情况下我想交换行和列以便数据更好地分组进一步解释一下目前数据库看起来像这样 data id data timestamp data value 1 2011 07 07 00 01 00
如果一个块元素包含另一个块元素，将其更改为内联 CSS 是否错误？

我知道将块元素放在内联元素中是错误的但是下面的呢想象一下这个有效的标记 div p This is a paragraph p div 现在添加这个CSS div display inline 这会造成内联元素包含块元素的情况 div
给定一个 ID，找到最后一个句子并将其替换为 Span 包装器

鉴于以下情况 div p blah blah blah p p yada yada yada p p Tada Bing bong the witch is dead Door bell p div JavaScript JQUERY 如何
优化 ARM Cortex M3 代码

我有一个 C 函数它尝试将帧缓冲区复制到 FSMC RAM 这些函数将游戏循环的帧速率降低至 10FPS 我想知道如何分析反汇编的函数我应该计算每个指令周期吗我想知道CPU把时间花在哪里在哪个部分我确信该算法也是一个问题因为它的
Gradle Daemon Android Studio：“无法启动守护进程”

我遇到问题了我一直在Android Studio中开发应用程序并且从未遇到过问题但现在我遇到了以下错误无法启动守护进程这个问题可能是由守护进程的配置不正确例如一个无法识别的使用 jvm 选项请参阅有关守护进程的用户指南章节
Intrinsics 中 Neon 的校验和代码实现

我正在尝试使用内在函数为 NEON 实现校验和计算代码 2 的补码加法当前的校验和计算是在 ARM 上进行的我的实现一次从内存中获取 128 位数据到 NEON 寄存器中并执行 SIMD 加法结果从 128 位数字折叠为 16 位数字

Intrinsics 中 Neon 的校验和代码实现

Intrinsics 中 Neon 的校验和代码实现 的相关文章

随机推荐

热门标签

Intrinsics 中 Neon 的校验和代码实现的相关文章