如何在 ARM Cortex-a8 中使用乘法和累加内在函数？

2024-01-01

如何使用GCC提供的乘累加内在函数？

float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);

谁能解释一下我必须传递给这个函数的三个参数。我的意思是源寄存器和目标寄存器以及函数返回什么？

Help!!!

简单地说，vmla 指令执行以下操作：

struct 
{
  float val[4];
} float32x4_t


float32x4_t vmla (float32x4_t a, float32x4_t b, float32x4_t c)
{
  float32x4 result;

  for (int i=0; i<4; i++)
  {
    result.val[i] =  b.val[i]*c.val[i]+a.val[i];
  }

  return result;
}

所有这些都会编译成一条汇编指令:-)

您可以在 3D 图形的典型 4x4 矩阵乘法中使用这个 NEON 汇编器内在函数，如下所示：

float32x4_t transform (float32x4_t * matrix, float32x4_t vector)
{
  /* in a perfect world this code would compile into just four instructions */
  float32x4_t result;

  result = vml (matrix[0], vector);
  result = vmla (result, matrix[1], vector);
  result = vmla (result, matrix[2], vector);
  result = vmla (result, matrix[3], vector);

  return result;
}

这可以节省几个周期，因为您不必在乘法后将结果相加。加法的使用非常频繁，以至于乘法累加 hsa 如今已成为主流（甚至 x86 也在最近的一些 SSE 指令集中添加了它们）。

另外值得一提的是：像这样的乘法累加运算是very常见于线性代数和 DSP（数字信号处理）应用。 ARM 非常聪明，实现了快速路径Cortex-A8 NEON 核心内部。如果 VMLA 指令的第一个参数（累加器）是前面的 VML 或 VMLA 指令的结果，则此快速路径启动。我可以详细说明，但简而言之，这样的指令系列的运行速度比 VML / VADD / VML / VADD 系列快四倍。

看看我的简单矩阵乘法：我就是这样做的。由于这种快速路径，它的运行速度比使用 VML 和 ADD 而不是 VMLA 编写的实现快大约四倍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

arm

SIMD

intrinsics

neon

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？的相关文章

当我在组合框中选择一个项目时，如何防止 TextChanged 事件？

我有一个TextChanged http msdn microsoft com en us library system windows forms control textchanged aspx我的事件ComboBox http msd
使用 C# 登录《我的世界》

我正在尝试为自己和一些朋友创建一个简单的自定义 Minecraft 启动器我不需要启动 Minecraft 的代码只需要登录的实际代码行例如据我所知您过去可以使用 string netResponse httpGET https
代码 GetAsyncKeyState(VK_SHIFT) & 0x8000 中的这些数字是什么？它们是必不可少的吗？

我试图在按下按键的简单动作中找到这些数字及其含义的任何逻辑解释 GetAsyncKeyState VK SHIFT 0x8000 可以使用哪些其他值来代替0x8000它们与按键有什么关系 GetAsyncKeyState 根据文档返回如果
如何判断计算机是否已重新启动？

我曾经使用过一个命令行 SMTP 邮件程序作为试用版的限制它允许您在每个 Windows 会话中最多接收 10 封电子邮件如果您重新启动计算机您可能还会收到 10 个以上我认为这种共享软件破坏非常巧妙我想在我的应用程序中复制它
如何使用 Castle Windsor 将对象注入到 WCF IErrorHandler 实现中？

我正在使用 WCF 开发一组服务该应用程序正在使用 Castle Windsor 进行依赖注入我添加了一个IErrorHandler通过属性添加到服务的实现到目前为止一切正常这IErrorHandler对象一个名为FaultHan
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
对 std::vector 进行排序但忽略某个数字

我有一个std vector
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
启动时的 Excel 加载项

我正在使用 Visual C 创建 Microsoft Excel 的加载项当我第一次创建解决方案时它包含一个名为 ThisAddIn Startup 的函数我在这个函数中添加了以下代码 private void ThisAddIn
IQueryable 单元或集成测试

我有一个 Web api 并且公开了一个端点如下所示 api 假期 name name 这是 Web api 的控制器 get 方法 public IQueryable
为什么从字典中获取时会得到 Action<> 的克隆？

我有以下字典 private Dictionary
在视口中查找 WPF 控件

Updated 这可能是一个简单或复杂的问题但在 wpf 中我有一个列表框我用一个填充数据模板从列表中有没有办法找出特定的数据模板项位于视口中即我已滚动到其位置并且可以查看目前我连接到了 listbox ScrollChange
C++ 中的双精度型数字

尽管内部表示有 17 位但 IEE754 64 位浮点应该正确表示 15 位有效数字有没有办法强制第 16 位和第 17 位为零 Ref http msdn microsoft com en us library system dou
WPF DataGridTemplateColumn 组合框更新所有行

我有这个 XAML 它从 ItemSource 是枚举的组合框中选择一个值我使用的教程是 http www c sharpcorner com uploadfile dpatra combobox in datagrid in wpf h
打印大型 WPF 用户控件

我有一个巨大的数据我想使用 WPF 打印我发现WPF提供了一个PrintDialog PrintVisual用于打印派生的任何 WPF 控件的方法Visual class PrintVisual只会打印一页因此我需要缩放控件以适合页面
Unity：通过拦截将两个接口注册为一个单例

我有一个实现两个接口的类我想对该类的方法应用拦截我正在遵循中的建议Unity 将两个接口注册为一个单例 https stackoverflow com questions 1394650 unity register two inter
实体框架中的“it”是什么

如果以前有人问过这个问题请原谅我但我的任何搜索中都没有出现它我有两个数据库表 Person 和 Employee 对每个类型的表进行建模例如 Employee is a Person 在我的 edmx 设计器中我定义了一个实体
堆栈是向上增长还是向下增长？

我在 C 中有这段代码 int q 10 int s 5 int a 3 printf Address of a d n int a printf Address of a 1 d n int a 1 printf Address of a
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File

随机推荐

使用由单个安装程序安装的 SQLite 的 Java 桌面应用程序

我是与数据库交互的 Java 桌面应用程序编程的初学者我的目标是制作一个简单的java应用程序它使用数据库在本地存储数据经过一番谷歌搜索后我发现 SQLite Derby 可以满足我的需求我用谷歌搜索了 SQLite 和 Derb
App 类中的静态上下文 - 内存泄漏

为了能够在应用程序中的任何位置获取应用程序上下文我创建了这样的 App 类 public class App extends Application private static Context mContext public stati
带 if 语句的 Postgresql 函数

我怎样才能使这个伪代码在 Postgresql 中工作 create or replace function getf arg character varying 255 returns int as if arg a then retur
Python 网页抓取被阻止

我想抓取德国房地产网站 immobilienscout24 de 的网页我想下载给定 URL 的 HTML 然后离线使用该 HTML 它不适合商业用途或出版我也不打算向该网站发送垃圾邮件它只是用于编码练习我想编写一个 python
核心数据谓词日期比较

我试图获取与用户 selectedDate 匹配的实体中的所有对象它是 NSDate 核心数据代码很好但我的谓词一直返回 0 结果数据库中的日期与用户选择的日期相同应如何使用谓词将 selectedDate 与实体中的日期进行比较
使用 VS 2005 C# 将 Excel 转换为 Oracle 数据库

我想构建一个实用程序可以将 Excel 工作表列是固定的但工作表可以是任意数量中的数据导入到 Oracle 数据库你能建议我应该如何读取Excel表格 n张最好的方法验证数据批量插入数据库我关心的是这里的表现每张纸可以
为什么 cython 嵌入插件在 python 解释器中比 rust-c 接口版本具有更高的性能？

我想问一些关于python解释器的底层原理的问题因为我自己搜索的过程中并没有得到太多有用的信息我最近一直在使用 rust 编写 python 插件这为 python 的 cpu 密集型任务提供了显着的加速并且与 c 相比编写速度也
C++ tmpnam 替代方案

我有一个 C 库它使用tmpnam NULL 创建一个临时文件我需要破解这个因为它在根文件夹 c 或中生成临时文件因此它需要管理权限如何使用有效的临时路径将此功能更改为其他功能 Thanks Though tmpnam返回前面加
OBJECT 和 EMBED 标签是否始终位于顶部？

我有一个我制作的网站我在该网站上流式传输视频它开始看起来很酷但我用 CSS 制作的菜单总是在视频下方因此某些链接会在对象后面消失有谁知道我是否可以解决这个问题我想我尝试过一次 z index 无济于事我刚刚重新发布了这个问题
这种语言有下推自动机（PDA）吗？

the language is An B 2n Cn where n gt 0 我认为是有的因为你可以这样处理推入A 推入B 每个C从堆栈中弹出3次如果没有C并且堆栈为空则返回true 否则返回false 使用泵引理来证明这不是上下
TypeScript 错误 TS2403：后续变量声明必须具有相同的类型

我的 TypeScript 项目似乎遇到了一些编译错误完整的错误是 node modules types mocha index d ts 2680 13 error TS2403 Subsequent variable declarat
有适合新手的 XML/XSD 教程吗？

有谁知道任何关于 XSD XML 的新手教程这些教程简单地解释了事情但详细介绍了如何做事情以下是有关使用 XSD 验证 XML 的教程 http www ibm com developerworks xml tutorials x v
数据表 colspan 排序

当引入 colspan 或 rowspan 时 Datatable jquery 插件会出现错误有没有其他办法可以渡过只需使用一些 jQuery 手动完成即可 function var tableRows myDatatable tbo
C++ 一个标头多个源

I have a large class Foo1 class Foo public void apples1 void apples2 void apples3 void oranges1 void oranges2 void orang
isinstance(x, list) 迭代包含字符串和列表的列表时

At 由内而外迭代嵌套列表 https stackoverflow com questions 14960380 iterating nested list inside out 14960687 comment21002419 14960
根据 WooCommerce 产品类别禁用特定购物车商品数量字段

在我使用的 woocommerce 中从 WooCommerce 产品类别的购物车中隐藏删除商品 https stackoverflow com questions 54033207 hide remove item from cart
如何运行Hadoop程序？

我已经在笔记本电脑上安装了 Hadoop 并成功运行了安装指南中给出的示例程序但是我无法运行程序 rohit renaissance1 hadoop ch2 hadoop MaxTemperature input ncdc sample
PermissionError：pip 从 8.1.1 升级到 8.1.2

我正在尝试将 pip 从 8 1 1 升级到 8 1 2 但它显示以下 PermissionError WinError 5 Access is denied 如何升级pip C gt python m pip install upgrad
如何处理 multiprocessing.Pool 中的初始化错误？

当初始化程序抛出如下错误时脚本将不会停止我想在开始主进程之前中止不要运行 do something from multiprocessing import Pool import contextlib def initializer
如何在 ARM Cortex-a8 中使用乘法和累加内在函数？

如何使用GCC提供的乘累加内在函数 float32x4 t vmlaq f32 float32x4 t float32x4 t float32x4 t 谁能解释一下我必须传递给这个函数的三个参数我的意思是源寄存器和目标寄存器以及函数返回什

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？ 的相关文章

随机推荐

热门标签

如何在 ARM Cortex-a8 中使用乘法和累加内在函数？的相关文章