Cortex A9 NEON 与 VFP 使用混淆

2023-12-25

我正在尝试为 Cortex A9 ARM 处理器（更具体地说是 OMAP4）构建一个库，对于在浮点运算和 SIMD 上下文中使用 NEON 与 VFP 的情况，我有点困惑。需要注意的是，我知道两个硬件协处理器单元之间的区别（也概述了这里就这样 https://stackoverflow.com/questions/4097034/arm-cortex-a8-whats-the-difference-between-vfp-and-neon），我只是对它们的正确用法有一些误解。

与此相关的是，我使用以下编译标志：

GCC
-O3 -mcpu=cortex-a9 -mfpu=neon -mfloat-abi=softfp
-O3 -mcpu=cortex-a9 -mfpu=vfpv3 -mfloat-abi=softfp
ARMCC
--cpu=Cortex-A9 --apcs=/softfp
--cpu=Cortex-A9 --fpu=VFPv3 --apcs=/softfp

我读过 ARM 文档，很多 wiki(像这个 http://pandorawiki.org/Floating_Point_Optimization）、论坛和博客文章，每个人似乎都同意使用 NEON 比使用 VFP 更好或者至少混合 NEON（例如使用内联函数在 SIMD 中实现一些算法）和 VFP 并不是一个好主意；我还不能 100% 确定这是否适用于整个应用程序\库的上下文或仅适用于代码中的特定位置（函数）。

因此，我使用 neon 作为我的应用程序的 FPU，因为我也想使用内在函数。因此，我遇到了一些麻烦，并且我对如何在 Cortex A9 上最好地使用这些功能（NEON 与 VFP）的困惑只会进一步加深，而不是消除。我有一些代码可以为我的应用程序进行基准测试并使用一些定制的计时器类其中计算基于双精度浮点。使用 NEON 作为 FPU 会产生完全不合适的结果（尝试打印这些值会导致打印大部分 inf 和 NaN；相同的代码在为 x86 构建时可以顺利运行）。所以我改变了我的计算以使用单精度浮点作为据记录，NEON 不处理双精度浮点。我的基准测试仍然没有给出正确的结果（最糟糕的是现在它不再在 x86 上工作；我认为这是因为精度损失，但我不确定）。所以我几乎完全迷失了：一方面我想使用 NEON 来实现 SIMD 功能，并且使用它作为 FPU 不能提供正确的结果，另一方面将它与 VFP 混合似乎不是一个好主意。在这方面的任何建议将不胜感激！

我在上述 wiki 的文章中发现了在 NEON 环境下浮点优化应该做什么的总结：

仅使用单精度浮点
当您发现 FP 函数出现瓶颈时，请使用 NEON 内在函数/ASM。你可以比编译器做得更好。
最小化条件分支
启用快速运行模式

对于软fp：

内联浮点代码（除非它非常大）
通过指针而不是值传递 FP 参数，并在函数调用之间执行整数工作。

我无法对 float ABI 使用 Hard，因为我无法链接到我可用的库。大多数建议对我来说都是有意义的（除了“运行快速模式”，我不完全理解应该做什么，而且事实上，此时我可以比编译器做得更好），但我不断得到不一致的结果，我现在什么都不确定。

谁能阐明如何正确使用 Cortex A9/A8 的浮点和 NEON 以及我应该使用哪些编译标志？

...论坛和博客文章，每个人似乎都同意使用 NEON 比使用 VFP 更好，或者至少混合 NEON（例如，使用内联函数在 SIMD 中实现一些算法），而 VFP 并不是一个好主意

我不确定这是否正确。根据 ARM 在介绍 NEON 开发文章 |霓虹灯寄存器 http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0002a/ch01s03s02.html:

NEON 寄存器组由 32 个 64 位寄存器组成。如果两者都实现了高级SIMD和VFPv3，它们共享该寄存器银行。在这种情况下，VFPv3 以 VFPv3-D32 形式实现：支持32个双精度浮点寄存器。这集成简化了上下文切换支持的实现，因为保存和恢复 VFP 上下文的相同例程也保存和恢复恢复 NEON 上下文。

NEON 单元可以将相同的寄存器组视为：

16 个 128 位四字寄存器，Q0-Q15

三十二个 64 位双字寄存器 D0-D31。

NEON D0-D31 寄存器与 VFPv3 D0-D31 寄存器相同每个 Q0-Q15 寄存器映射到一对 D 寄存器。图1.3展示了共享NEON和VFP的不同视图注册银行。所有这些视图都可以随时访问。软件不必在它们之间显式切换，因为使用的指令决定适当的视图。

寄存器不竞争；相反，它们作为寄存器组的视图共存。没有办法吐出 NEON 和 FPU 装备。

与此相关的是，我使用以下编译标志：
-O3 -mcpu=cortex-a9 -mfpu=neon -mfloat-abi=softfp
-O3 -mcpu=cortex-a9 -mfpu=vfpv3 -mfloat-abi=softfp

这就是我所做的；你的旅费可能会改变。它源自从平台和编译器收集的信息的混搭。

gnueabihf告诉我该平台使用硬浮动，这可以加快程序调用速度。如有疑问，请使用softfp因为它与硬浮动兼容。

BeagleBone 黑色:

$ gcc -v 2>&1 | grep Target          
Target: arm-linux-gnueabihf

$ cat /proc/cpuinfo
model name  : ARMv7 Processor rev 2 (v7l)
Features    : half thumb fastmult vfp edsp thumbee neon vfpv3 tls vfpd32 
...

所以 BeagleBone 使用：

-march=armv7-a -mtune=cortex-a8 -mfpu=neon -mfloat-abi=hard

立方卡车 v5:

$ gcc -v 2>&1 | grep Target 
Target: arm-linux-gnueabihf

$ cat /proc/cpuinfo
Processor   : ARMv7 Processor rev 5 (v7l)
Features    : swp half thumb fastmult vfp edsp thumbee neon vfpv3 tls vfpv4

所以 CubieTruck 使用：

-march=armv7-a -mtune=cortex-a7 -mfpu=neon-vfpv4 -mfloat-abi=hard

香蕉派 Pro:

$ gcc -v 2>&1 | grep Target 
Target: arm-linux-gnueabihf

$ cat /proc/cpuinfo
Processor   : ARMv7 Processor rev 4 (v7l)
Features    : swp half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt

所以 Banana Pi 使用：

-march=armv7-a -mtune=cortex-a7 -mfpu=neon-vfpv4 -mfloat-abi=hard

树莓派3:

RPI3 的独特之处在于它采用 ARMv8，但运行 32 位操作系统。这意味着它实际上是 32 位 ARMorAarch32。 32 位 ARM 与 Aarch32 的区别还有更多，但这将向您显示 Aarch32 标志

此外，RPI3 使用 Broadcom A53 SoC，具有 NEON 和可选的 CRC32 指令，但缺少可选的加密扩展。

$ gcc -v 2>&1 | grep Target 
Target: arm-linux-gnueabihf

$ cat /proc/cpuinfo 
model name  : ARMv7 Processor rev 4 (v7l)
Features    : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt vfpd32 lpae evtstrm crc32
...

所以树莓派可以使用：

-march=armv8-a+crc -mtune=cortex-a53 -mfpu=neon-fp-armv8 -mfloat-abi=hard

或者可以用（我不知道用来做什么-mtune):

-march=armv7-a -mfpu=neon-vfpv4 -mfloat-abi=hard

奥德罗德C2:

ODROID C2 使用 Amlogic A53 SoC，但它使用 64 位操作系统。 ODROID C2，它具有 NEON 和可选的 CRC32 指令，但缺少可选的加密扩展（与 RPI3 类似的配置）。

$ gcc -v 2>&1 | grep Target 
Target: aarch64-linux-gnu

$ cat /proc/cpuinfo 
Features    : fp asimd evtstrm crc32

所以 ODROID 使用：

-march=armv8-a+crc -mtune=cortex-a53

在上面的食谱中，我通过查看数据表了解了 ARM 处理器（如 Cortex A9 或 A53）。根据这个答案Unix 和 Linux 堆栈交换 https://unix.stackexchange.com/a/255615/56041，它破译输出/proc/cpuinfo:

CPU 部件：部件号。 0xd03 表示 Cortex-A53 处理器。

因此我们可以从数据库中查找该值。我不知道它是否存在或位于何处。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Cortex A9 NEON 与 VFP 使用混淆的相关文章

CLR 2.0 与 4.0 性能比较？

如果在 CLR 4 0 下运行为 CLR 2 0 编译的 NET 程序会运行得更快吗应用程序配置
计算 XML 中特定 XML 节点的数量

请参阅此 XML
适合初学者的良好调试器教程[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有谁知道一个好的初学者教程在 C 中使用调试器我感觉自己好像错过了很多我知道怎么做单步执行代码并查看局部变量虽然这常常给我带来问
使用 C# 登录《我的世界》

我正在尝试为自己和一些朋友创建一个简单的自定义 Minecraft 启动器我不需要启动 Minecraft 的代码只需要登录的实际代码行例如据我所知您过去可以使用 string netResponse httpGET https
C++ 是否可以在 MacOS 上与 OpenMP 和 boost 兼容？

我现在已经尝试了很多事情并得出了一些结论也许我监督了一些事情但似乎我无法完成我想要的事情问题是是否有可能使用 OpenMP 和 boost 在 MacOS High Sierra 上编译 C 一些发现如果我错了请纠正我 Open
函数参数的默认参数是否被视为该参数的初始值设定项？

假设我有这样的函数声明 static const int R 0 static const int I 0 void f const int r R void g int i I 根据 dcl fct default 1 如果在参数声明中指
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
unordered_map 中字符串的 C++ 哈希函数

看起来 C 标准库中没有字符串的哈希函数这是真的在任何 c 编译器上使用字符串作为 unordered map 中的键的工作示例是什么 C STL提供模板专业化 http en cppreference com w cpp string
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
File.AppendText 尝试写入错误的位置

我有一个 C 控制台应用程序它作为 Windows 任务计划程序中的计划任务运行此控制台应用程序写入日志文件该日志文件在调试模式下运行时会创建并写入应用程序文件夹本身内的文件但是当它在任务计划程序中运行时它会抛出一个错误指出访
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
为什么这个二维指针表示法有效，而另一个则无效[重复]

这个问题在这里已经有答案了这里我编写了一段代码来打印 3x3 矩阵的对角线值之和这里我必须将矩阵传递给函数矩阵被传递给指针数组代码可以工作但问题是我必须编写参数的方式如下 int mat 3 以下导致程序崩溃 int mat 3
C++ int 前面加 0 会改变整个值

我有一个非常奇怪的问题如果我像这样声明一个 int int time 0110 然后将其显示到控制台返回的值为72 但是当我删除前面的 0 时int time 110 然后控制台显示110正如预期的那样我想知道两件事首先为什么它在
C++ 中的双精度型数字

尽管内部表示有 17 位但 IEE754 64 位浮点应该正确表示 15 位有效数字有没有办法强制第 16 位和第 17 位为零 Ref http msdn microsoft com en us library system dou
等待 IAsyncResult 函数直至完成

我需要创建等待 IAsyncResult 方法完成的机制我怎样才能做到这一点 IAsyncResult result contactGroupServices BeginDeleteContact contactToRemove Uri
这个可变参数模板示例有什么问题？

基类是 include
可访问性不一致：参数类型的可访问性低于方法

我试图在两个表单之间传递一个对象基本上是对当前登录用户的引用目前我在登录表单中有一些类似的内容 private ACTInterface oActInterface public void button1 Click object s
使用 omp_set_num_threads() 将线程数设置为 2，但 omp_get_num_threads() 返回 1

我有以下使用 OpenMP 的 C C 代码 int nProcessors omp get max threads if argv 4 NULL printf argv 4 s n argv 4 nProcessors atoi argv
GCC 的“-Wl,option”和“-Xlinker option”语法之间有区别吗？

我一直在查看一些配置文件并且看到它们都被使用尽管在不同的体系结构上如果您在 Linux 机器上使用 GCC 将选项传递给链接器的两种语法之间有区别吗据我所知阅读 GCC 手册时他们的解释几乎相同 From man gcc Xli
我可以在“字节数”设置为零的情况下调用 memcpy() 和 memmove() 吗？

当我实际上没有什么可以移动复制的时候我是否需要处理这些情况memmove memcpy 作为边缘情况 int numberOfBytes if numberOfBytes 0 memmove dest source numberOfBy

随机推荐

如何正确使用头文件成为一个完整的类？

初学者程序员我遵循工作正常的头文件的样式但我试图弄清楚在编译时如何不断收到所有这些错误我正在 Cygwin 中使用 g 进行编译 Ingredient h 8 13 error expected unqualified id befo
进化算法：最优重新群体分解

这确实是标题中的全部内容但对于任何对进化算法感兴趣的人来说这里有一个细分在 EA 中基本前提是随机生成一定数量的有机体实际上只是参数集针对问题运行它们然后让表现最好的有机体生存下来然后你会重新填充幸存者的杂交品种幸存者的
如何在 pandas 数据框中执行不同值的累积和

我有一个像这样的数据框 id date company 123 2019 01 01 A 224 2019 01 01 B 345 2019 01 01 B 987 2019 01 03 C 334 2019 01 03 C 908 201
Delphi中从C DLL获取字符串返回值

我有一个用 C 编写的遗留 DLL 其中包含一个返回字符串的函数我需要从 Delphi 访问该函数我所掌握的有关 DLL 的唯一信息是用于访问该函数的 VB 声明公开声明函数 DecryptStr Lib strlib Str As
根据标签对一行中的每个句子进行评分并总结文本。（爪哇）

我正在尝试用 Java 创建一个摘要器我正在使用斯坦福对数线性词性标注器 http nlp stanford edu software tagger shtml标记单词然后对于某些标记我对句子进行评分最后在摘要中我打印具有高分值
无法读取 PNG 签名：文件不以 PNG 签名开头

Gradle 构建失败并出现以下错误 Error C Users Roman gradle caches transforms 1 files 1 1 appcompat v7 26 0 2 aar bab547c3f1b8061ef942
使用 GhostScript 将 pdf 转换为图像 - 如何引用 gsdll32.dll？

我正在尝试使用 GhostScript 从 pdf 创建图像这是我的代码 GhostscriptWrapper ConvertToBMP inputPDFFilePath outputBMPFilePath 这是我的Ghostscript
复合组件属性中的枚举值

我的问题非常简单我想创建一个具有字符串属性 Type 的复合组件
将处理3嵌入到swing中

我正在尝试将Processing 3 集成到swing 应用程序中但是因为PApplet 不再扩展Applet 所以我不能立即将其添加为组件无论如何是否可以将Processing 3 草图嵌入到Swing 中如果我可以在没有PDE
Gradle 无法使用 OBJECT 库构建 CMake 项目，因为它需要输出文件

My 构建 gradle文件包含以下内容以使用 CMake 构建项目 externalNativeBuild cmake Provides a relative path to your CMake build script version
每个工作表循环的 Excel VBA

我正在编写代码基本上浏览工作簿中的每张工作表然后更新列宽下面是我写的代码我没有收到任何错误但它实际上也没有做任何事情任何帮助是极大的赞赏 Option Explicit Dim ws As Worksheet a As Rang
文本字体大小

我创造了不同的layouts layout layout small layout normal layout large layout xlarge 并为values values values ldpi values mdpi valu
如果其他类可见或显示，JQuery 隐藏类

发现类似的问题但没有什么能完全满足我的需要我在示例中保持简单并且我想使用 JQuery 我有两节课如果页面加载时显示类别 div 我想隐藏过滤器 div 目前没有与这两个类别相关的样式我相信我已经很接近了但它不起作用 div
Tensorflow numpy 图像重塑 [灰度图像]

我正在尝试使用我训练过的神经网络数据在 jupyter 笔记本中执行 Tensorflow object detection tutorial py 但它会抛出 ValueError 上面提到的文件是 YouTube 上用于对象检测的 Se
如果我不在事务中执行查询，我会成为死锁受害者吗？

假设我打开一个事务并运行更新查询 BEGIN TRANSACTION UPDATE x SET y z WHERE w v 查询成功返回并且在我决定提交之前事务故意保持打开状态一段时间当我坐在事务上时 MSSQL 死锁机制是否有可能抢
远程phpmyadmin无法登录但mysql客户端可以

我有两台服务器 Web 和 MySQL 均运行在 Ubuntu 12 04 x64 上在 Web 上设置 phpmyadmin 安装和 nginx 等在 MySQL 上设置了 mysqsl 安装当我从 Web 运行 mysql use
从 PHONE_STATE 意向操作读取号码 android 9 不起作用

我试图通过 onrecieve 方法从清单文件中注册的以下广播接收器的意图额外检索电话号码
未捕获（承诺中）类型错误：无法使用 axios 设置未定义的属性

我有这个 vue js 组件它使用 axios 来检索 json 数组joke对象
r 中带有数组的子集矩阵

这可能是相当基本的但我还没有找到一个简单的解决方案假设我有一个三维矩阵 m lt array seq len 18 dim c 3 3 2 我想用索引数组对矩阵进行子集化 idxrows lt c 1 2 3 idxcols lt c
Cortex A9 NEON 与 VFP 使用混淆

我正在尝试为 Cortex A9 ARM 处理器更具体地说是 OMAP4 构建一个库对于在浮点运算和 SIMD 上下文中使用 NEON 与 VFP 的情况我有点困惑需要注意的是我知道两个硬件协处理器单元之间的区别也概述了这里就这

Cortex A9 NEON 与 VFP 使用混淆

Cortex A9 NEON 与 VFP 使用混淆 的相关文章

随机推荐

热门标签

Cortex A9 NEON 与 VFP 使用混淆的相关文章