NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2)

2024-02-16

我需要改进循环，因为我的应用程序调用了数千次。我想我需要用 Neon 来做这件事，但我不知道从哪里开始。

假设/先决条件：

w始终为 320（16/32 的倍数）。
pa and pb16 字节对齐
ma and mb是积极的。

 int whileInstruction (const unsigned char *pa,const unsigned char *pb,int ma,int mb,int w)
{
    int sum=0;

    do {
        sum += ((*pa++)-ma)*((*pb++)-mb);

    } while(--w);


    return sum;
}

这种矢量化的尝试效果不佳，而且不安全（缺少破坏），但演示了我正在尝试做的事情：

int whileInstruction (const unsigned char *pa,const unsigned char *pb,int ma,int mb,int w)
{

    asm volatile("lsr          %2, %2, #3      \n"
                 ".loop:                       \n"
                 "# load 8 elements:             \n"
                 "vld4.8      {d0-d3}, [%1]!   \n"
                 "vld4.8      {d4-d7}, [%2]!   \n"
                 "# do the operation:     \n"
                 "vaddl.u8    q7, d0, r7       \n"
                 "vaddl.u8    q8, d1, d8       \n"
                 "vmlal.u8    q7, q7, q8       \n"
                 "# Sum the vector a save in sum (this is wrong):\n"
                 "vaddl.u8    q7, d0, r7       \n"
                 "subs        %2, %2, #1       \n" // Decrement iteration count
                 "bne         .loop            \n" // Repeat unil iteration count is not zero
                 :
                 : "r"(pa), "r"(pb), "r"(w),"r"(ma),"r"(mb),"r"(sum)
                 : "r4", "r5", "r6","r7","r8","r9"
                 );

    return sum;
}

这是一个简单的 NEON 实现。我已经针对标量代码对此进行了测试，以确保它有效。请注意，为了获得最佳性能，pa and pb应该是16字节对齐。

#include <arm_neon.h>

int whileInstruction_neon(const unsigned char *pa, const unsigned char *pb, int ma, int mb, int w)
{
    int sum = 0;

    const int32x4_t vma = { ma, ma, ma, ma };
    const int32x4_t vmb = { mb, mb, mb, mb };

    int32x4_t vsumll = { 0 };
    int32x4_t vsumlh = { 0 };
    int32x4_t vsumhl = { 0 };
    int32x4_t vsumhh = { 0 };
    int32x4_t vsum;

    int i;

    for (i = 0; i <= (w - 16); i += 16)
    {
        uint8x16_t va = vld1q_u8(pa);   // load vector from pa
        uint8x16_t vb = vld1q_u8(pb);   // load vector from pb

        // unpack va into 4 vectors

        int16x8_t val =  (int16x8_t)vmovl_u8(vget_low_u8(va));
        int16x8_t vah =  (int16x8_t)vmovl_u8(vget_high_u8(va));
        int32x4_t vall = vmovl_s16(vget_low_s16(val));
        int32x4_t valh = vmovl_s16(vget_high_s16(val));
        int32x4_t vahl = vmovl_s16(vget_low_s16(vah));
        int32x4_t vahh = vmovl_s16(vget_high_s16(vah));

        // subtract means

        vall = vsubq_s32(vall, vma);
        valh = vsubq_s32(valh, vma);
        vahl = vsubq_s32(vahl, vma);
        vahh = vsubq_s32(vahh, vma);

        // unpack vb into 4 vectors

        int16x8_t vbl =  (int16x8_t)vmovl_u8(vget_low_u8(vb));
        int16x8_t vbh =  (int16x8_t)vmovl_u8(vget_high_u8(vb));
        int32x4_t vbll = vmovl_s16(vget_low_s16(vbl));
        int32x4_t vblh = vmovl_s16(vget_high_s16(vbl));
        int32x4_t vbhl = vmovl_s16(vget_low_s16(vbh));
        int32x4_t vbhh = vmovl_s16(vget_high_s16(vbh));

        // subtract means

        vbll = vsubq_s32(vbll, vmb);
        vblh = vsubq_s32(vblh, vmb);
        vbhl = vsubq_s32(vbhl, vmb);
        vbhh = vsubq_s32(vbhh, vmb);

        // update 4 partial sum of products vectors

        vsumll = vmlaq_s32(vsumll, vall, vbll);
        vsumlh = vmlaq_s32(vsumlh, valh, vblh);
        vsumhl = vmlaq_s32(vsumhl, vahl, vbhl);
        vsumhh = vmlaq_s32(vsumhh, vahh, vbhh);

        pa += 16;
        pb += 16;
    }

    // sum 4 partial sum of product vectors

    vsum = vaddq_s32(vsumll, vsumlh);
    vsum = vaddq_s32(vsum, vsumhl);
    vsum = vaddq_s32(vsum, vsumhh);

    // do scalar horizontal sum across final vector

    sum = vgetq_lane_s32(vsum, 0);
    sum += vgetq_lane_s32(vsum, 1);
    sum += vgetq_lane_s32(vsum, 2);
    sum += vgetq_lane_s32(vsum, 3);

    // handle any residual non-multiple of 16 points

    for ( ; i < w; ++i)
    {
        sum +=  (*pa++ - ma) * (*pb++ - mb);
    }

    return sum;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

arm

SIMD

neon

NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2) 的相关文章

C++ win32 控制台中的颜色

std cout lt lt blblabla done lt lt std endl 是否有可能使 done 采用另一种颜色并且可能是大胆的我使用的是 Windows 7 这取决于您使用的操作系统如果您使用的是您想要的 Window
如何获取日期时间格式的 Win32_OperatingSystem.LastBootUpTime

我一直在尝试使用 Win32 OperatingSystem 类 WMI 获取 LastBootUpTime HRESULT hr pEnumerator gt Next WBEM INFINITE 1 pclsObj uReturn if
比较 boost::system::error_category

对于 errorCode category name 输出 asio misc 和 errorCode message 输出文件结束的错误以下比较失败如果它声称属于 asio misc 类别那么为什么 errorCode cate
在QT中以不同的时间间隔更新GUI [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道如何在QT中以不同的时间间隔更新GUI 最好的是我可以控制时间间隔我知道 QTimer 可以在同一时间间隔更新 GUI 但我
使用 Rijndael 加密/解密文件

我需要传输 xml 文件并且需要对它们进行加密我发现一些例子认为我已经接近了但是当我解密文件时我最终得到了尾随垃圾字符有一些关于此的帖子但我还没有看到任何能真正有帮助的帖子这是加密和解密代码 private void Encr
DataContractSerializer 反序列化没有命名空间的成员？

我需要反序列化这个 xml 我无法更改
设置 DataContract 和 DataMember 而不包含所有属性

我找到了 DataContract and DataMember 属性有点混乱宁愿使用配置方法或其他内容中的代码来完成此操作这可能吗您根本不必使用这些属性 DataContractSerializer将使用 getter 和 sett
如何在线程中调用带有多个参数的方法？

我正在构建一个 C 桌面应用程序如何在线程中调用采用多个参数的方法我有一个名为 Send string arg1 string arg2 string arg3 的方法我需要使用名为 SendingThread 的线程调用此方法有人
无法从 GetProcessId(.. hWnd) (pInvoke) 中提取 processID

我使用以下方法 DllImport kernel32 dll SetLastError true static extern int GetProcessId IntPtr hWnd 尝试获取正在运行的进程的 processId 我拥有的唯
Qt5 CMake 将所有库包含到可执行文件中

我正在尝试使用 Qt 5 14 构建一个发布模式下的应用程序并且 Qt Creator 内部一切正常但是当我尝试单独运行可执行文件时我收到如下错误 OS Windows 10 Qt 5 14 Cmake 3 5 我尝试过的设置 CM
为什么我使用的 KnownType 属性是错误的？

我正在尝试反序列化来自 google api 的 json 响应所以我想我应该定义几个类来帮助它 DataContract public class DetectionResult ResponseData DataMember Name
.NET类设计问题

我有一个名为 Question 的类它有一个名为 Type 的属性基于这种类型我想以特定的方式将问题呈现为html 多项选择单选按钮多个答案复选框等我从一个 RenderHtml 方法开始该方法根据问题类型调用子方法但我认
窗口的打开事件和窗口句柄

如何从刚刚打开的 Outlook 窗口获取窗口句柄 IntPtr OutLook Items items oFolder Items foreach OutLook MailItem mail in items mail Display I
如何在WPF中使用Application.Exit事件？

我需要删除一些特定文件然后用户关闭 WPF 中的程序所以我从这里尝试了 MDSN 代码http msdn microsoft com en us library system windows application exit aspx
字符串初始化的 gcc 诊断不一致

我正在使用 gcc 4 9 1 Mingw 并使用以下命令编译代码 gcc test c otest exe std c11 迂腐错误 Wall Wextra 此代码给出诊断 int main void char a 5 h e l l o
Web API 获取多部分/表单数据响应的最简单方法

我有问题但我看不到我做错了什么我想用最简单的方法来让它工作稍后我会让它变得更复杂但目前只想命中 post 方法我什至不关心里面的代码当前是否正在工作我唯一关心的是它会发回 OK 200 回复目前我要么收到内部服务器错误 50
起订量中的匹配设置问题

我过去一周左右一直在使用 Moq 直到今天才遇到任何问题我在获取时遇到问题VerifyAll 以正确匹配我的模拟的设置我目前正在为我的应用程序的 API 编写单元测试该应用程序的结构如下 API lt gt Service lt gt
使用 std::istream_iterator 限制 std::copy 的范围

我构建了一个最小的工作示例来展示我在使用 STL 迭代器时遇到的问题我在用着istream iterator读书floatss 或其他类型来自 astd istream include
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
用户已拥有超过“max_user_connections”个活动连接 HANGFIRE

我明白用户已拥有超过 max user connections 个活动连接已经有很多答案了但这是关于Hangfire的我在用Hangfire http docs hangfire io en latest background pr

随机推荐

有没有办法对 NSArray （或其他类簇）进行猴子修补或混合？

今天我正在开发一个项目在该项目中我想为所有实例别名一个替代方法NSArray 并且不认为对某些人来说太困难很好的老式方法 http www google com search q method 20Swizzling 我爆发了JRSw
在 Chrome 扩展中获取并存储 auth_token

我正在实现一个 chrome 扩展用户登录电子邮件和密码并从第 3 方获取身份验证令牌的位置我想存储此身份验证令牌以便在向同一方发送另一个请求时我可以使用此令牌有什么好的方法可以做到这一点我应该储存它吗如果是的话怎么办否则
Twitter Bootstrap 的响应式 CSS 适用于调整大小的窗口，但不适用于移动设备

我使用 Twitter Bootstrap 框架来构建我的最新网站我用了boostrap responsive css使其在移动设备上运行但事实并非如此看起来它根本没有看到CSS 当我在 Android 手机上运行它时它就像我的 P
如何在不同选项卡中保存或导出Excel中的多个数据框？

我需要在不同选项卡的 Excel 中导出或保存 pandas 多个数据框假设我的 df 是 df1 Id Name Rank 1 Scott 4 2 Jennie 8 3 Murphy 1 df2 Id Name Rank 1 John
st_normalize.sfc(x, c(x_range[1], y_range[1], x_range[2], y_range[2])) 中的错误：域必须具有正范围

背景我正在使用 ggplot2 geom point 按周绘制动物位置点作为底图我使用计算机中的形状文件这是我的数据的示例 datexample lt data frame animal c A B yearweek c 20202
如何使用内连接和 Case 语句更新表

问题 Table1 CatId Type Qty 8 O 10 8 N 20 8 U 30 30 N 5 30 O 15 30 NULL 25 Table2 catId Old New Useless Other 8 100 70 140
为什么抛出或捕获的类型必须从 System.Exception 派生

因此出于好奇我想看看异常类有什么特别之处允许它与关键字一起使用Throw而标准课程则不然我发现的是 Exception 类实现了以下内容 public class Exception System Object System Run
.NET 程序集绑定，我可以将一个程序集映射到另一个程序集中的版本吗？

早上好是否可以将程序集请求映射到另一个程序集中的版本例如我们的产品使用NHibernate 3 2 我们正在转向 NServiceBus 3 2 2 对于 DBSubscription 存储它使用 NHibernate 并且采用 NH
在 Angular 模板中创建本地绑定上下文

假设我有一个要绑定的深层嵌套对象图 div model rootProperty div div div model some deeply nested property with a donut name div div model s
CMake include() 与 find_package() 的默认搜索路径

我在 Debian 机器上安装了 VTK6 它将所有 CMake 文件放置在 ls usr lib cmake vtk 6 3 VTKConfig cmake vtkModuleAPI cmake 当我做 find package VTK
UWP 显示全屏弹出窗口、ContentDialog 或 Flyout

我需要在我的 UWP 应用程序中显示全屏对话框在应用程序窗口边界中但似乎无法使其工作我尝试过 ContentDialog 仅显示垂直拉伸且 FullSizeDesired True 弹出窗口甚至尝试在其后面的代码中设置宽度和高度也不
在 ScalaCheck 中生成选项[T]

我试图在 ScalaCheck 中生成可选参数但没有成功似乎没有直接的机制可以实现这一点 Gen containerOf Option Thing thingGenerator 失败因为它找不到隐式Buildable Thing Op
有效地广播具有多个变量的大型数据集

我在尝试着dcast大型数据集数百万行我有一行用于到达时间和出发地另一行用于出发时间和目的地有一个id识别这两种情况下的单位它看起来类似于 id time movement origin dest 1 10 06 2011 15
如何在 dojo 数据网格中显示复选框？

如何在 dojo 数据网格中显示复选框我建议将 cellType 设置为 dojox grid cells Bool 而不是格式化程序格式化程序为您提供了很大的自由但也有责任从所有复选框针对所有行收集数据像这样的结构条目应该可以
Typescript：类型“never”上不存在属性“length”

我有一组基本功能 export function isObject value any value is Object return value null typeof value object isArray value export f
Python Pandas 根据条件求平均值到新列中

我有一个包含以下数据的 pandas 数据框 matchID server court speed 1 1 A 100 1 2 D 200 1 3 D 300 1 4 A 100 1 1 A 120 1 2 A 250 1 3 D 110
每秒 Vuex 提交相同操作的速度都很慢

我正在使用 Vuex V3 0 1 和 Vue js v 2 5 17 vuex 中的相同操作提交每秒都会很慢如果我将相同的 axios 请求放入组件内并从组件内调用它则时间始终在 16 到 22 毫秒之间然而当我发送到商店时每个
美国联邦税号 (EIN) 的正则表达式

在输入标记的模式属性中我使用以下正则表达式来验证美国联邦税 ID 字段 pattern 07 1 7 1 0 6 2 0 7 35 0 9 468 0 8 9 0 589 d 7 但此正则表达式允许 11 1111111 22 22222
Microsoft Owin Facebook 身份验证在 MVC 应用程序中不起作用

我正在 Asp Net MVC 应用程序中工作我正在使用默认的 Visual Studio 项目模板 Google 身份验证工作正常但 facebook 不行我指定了在我的 Facebook 开发者门户上生成的有效 appId 和 a
NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2)

我需要改进循环因为我的应用程序调用了数千次我想我需要用 Neon 来做这件事但我不知道从哪里开始假设先决条件 w始终为 320 16 32 的倍数 pa and pb16 字节对齐 ma and mb是积极的 int whileI

NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2)

NEON 向量化无符号字节的乘积之和： (a[i]-int1) * (b[i]-int2) 的相关文章

随机推荐

热门标签