FPU 与软件仿真的性能比较

2023-11-25

虽然我知道（所以我被告知）浮点协处理器的工作速度比任何浮点算术的软件实现都快，但我完全不知道这种差异有多大（以数量级而言）。

答案可能取决于微处理器和超级计算机之间的应用程序以及您的工作地点。我对计算机模拟特别感兴趣。

你能指出这个问题的文章或论文吗？

一般性的答案显然会非常模糊，因为性能取决于很多因素。

然而，根据我的理解，在不在硬件中实现浮点（FP）运算的处理器中，软件实现通常是慢10到100倍（或者更糟糕的是，如果实现很糟糕）比整数运算总是在 CPU 上的硬件中实现。

确切的性能取决于许多因素，例如整数硬件的功能 - 某些 CPU 缺少 FPU，但其整数运算中具有有助于实现 FP 计算的快速软件模拟的功能。

njuffa提到的论文，Cristina Iordache 和 Ping Tak Peter Tang，英特尔 XScale 架构上的浮点支持和数学库概述支持这一点。对于英特尔XScale将列表处理为延迟（摘录）：

integer addition or subtraction:  1 cycle
integer multiplication:           2-6 cycles
fp addition (emulated):           34 cycles
fp multiplication (emulated):     35 cycles

因此，这会导致整数和 FP 算术之间存在约 10-30 的系数。该论文还提到，GNU 实现（GNU 编译器默认使用的实现）大约慢 10 倍，总系数为 100-300。

最后，请注意，以上是针对 FP 仿真的情况编译到程序中由编译器。一些操作系统（例如 Linux 和 WindowsCE）也有 FP 模拟在操作系统内核中。优点是，即使没有 FP 模拟（即使用 FPU 指令）编译的代码也可以在没有 FPU 的进程上运行 - 内核将透明地模拟软件中不支持的 FPU 指令。然而，由于额外的开销，这种仿真比编译到程序中的软件仿真还要慢（大约是另一个因素 10）。显然，这种情况仅与处理器架构相关，其中一些处理器具有 FPU，而另一些则没有（例如 x86 和 ARM）。

Note:该答案将（模拟）FP 运算与同一处理器上的整数运算的性能进行了比较。您的问题也可能被理解为关于性能（模拟） FP 操作与硬件 FP 操作相比（不确定您的意思）。然而，结果大致相同，因为如果 FP 在硬件中实现，它通常（几乎）与整数运算一样快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

FPU 与软件仿真的性能比较的相关文章

如何加快 Java VM (JVM) 的启动时间？

我正在运行启动多个 JVM 进程的测试与 JVM 内运行的实际测试时间相比 JVM 的总结启动时间非常重要我怎样才能加快速度我已经使用了 client 选项这确实有帮助但没有我想要的那么多还有其他方法吗比如预加载一堆 JVM
Getter 和 Setter。有性能开销吗？

我的 C 项目中有一个粒子系统引擎粒子本身只是没有函数的变量结构目前每个粒子 Particle 都是通过直接访问其变量来从其父类 ParticleSystem 进行更新例如 particle x particle vx 然而我正在
AtomicInteger 实现和代码重复

警告问题有点长但分隔线以下的部分仅供好奇 Oracle 的 JDK 7 实现原子整数 http docs oracle com javase 7 docs api java util concurrent atomic AtomicIn
当语料库有100亿个独特的DNA序列时，如何使用BK树实现快速模糊搜索引擎？

我正在尝试使用BK tree https news ycombinator com item id 14022424python 中的数据结构用于存储约 100 亿个条目的语料库 1e10 以实现快速模糊搜索引擎一旦我添加超过 1000
CoreAnimation 性能分析 - CAReplicatorLayer 与 CAShapeLayer

我正在制作一个依赖 CoreAnimation 的应用程序它有一个 CAReplicatorLayer 和一个 CAShapeLayer 作为子层当进行 12 次复制然后对路径进行动画处理在 touchMoved 上更改它时一旦
如何清除chrome性能条目或绕过其数量限制？

我使用 Google Chrome 来分析一些使用 Javascript 动态加载脚本和其他资源的网页的性能我用performance getEntries 方法但我注意到 Chrome 只记录前 150 个资源我找不到任何方法来获取
与简单的文件请求相比，您预计 Web 服务请求的响应时间开销是多少？

我正在开发一个 asp net Web 服务应用程序以向使用 jQuery ajax 发出请求的小部件提供 json 格式的数据我一直在使用 FireBug Net 视图来检查数据请求需要多长时间在我最初的原型中我只是请求静态 js
如何在构建持续时间和 RAM 使用方面优化 gradle 构建性能？

我目前正在为我的多模块 Web 应用程序从 ant 切换到 gradle 目前看来当前版本的 Gradle M9 可能已经达到了极限但也许希望这只是我对 Gradle 概念理解不够好或者不知道神奇的性能提升开关的问题我很高兴收到
我应该如何获取 IEnumerable 的长度？ [复制]

这个问题在这里已经有答案了我正在编写一些代码然后去获取 IEnumerable 的长度当我写的时候myEnumerable Count 令我惊讶的是它没有编译看完之后IEnumerable Count 和 Length 之间的区别
我们是否需要使用 MappedByteBuffer.force() 将数据刷新到磁盘？

我正在使用 MappedByteBuffer 来加速文件读写操作我的问题如下我不确定是否需要使用 force 方法将内容刷新到磁盘似乎没有 force getInt 仍然可以完美工作好吧因为这是一个内存映射缓冲区我假设 get
循环中的递归算法复杂度（运行时间）

我想了解您对如何检测以下递归算法的 T n 运行时间的意见 Charm 是一种用于发现事务数据库中频繁闭项集的算法频繁闭项集列表是在一组交易 tids 中多次出现的频繁项例如面包和牛奶是经常一起购买的物品它们是通过将索引为 i 的当
缓存感知树的实现

I have a tree where every node may have 0 to N children 用例是以下查询给定指向两个节点的指针这些节点是否位于树的同一分支内 Examples q 2 7 gt true q 5 4
在c#中打印0.1的增量

我目前正在阅读 Steve McConnell 的 Code Complete 特别是第 295 页有关浮点数的内容当我运行以下代码时 double nominal 1 0 double sum 0 0 for int i 0 i lt
实验室数据与 Google Page Insight 的起源摘要之间的混淆

任何知道 Core web Vitals 详细信息的人请帮我解决一些问题 How 起源总结与实验室数据不同吗 Speed Insight 如何获取起源摘要这是同一页面或相似页面最近 28 天的总评分吗我检查了具有相同内容的网站类别页面L
MySQL max_allowed_packet 参数有什么问题？

我需要增加 max allowed pa cket 参数以适应一些理论上非常大的项目如果我将此参数设置为 10M 那么与设置为 1M 或 4M 相比我要支付什么价格如果有的话感谢您的任何意见托马斯我找到了这个解释 http w
如何找到最简单的人类可读的浮点字符串，该字符串在转换回浮点时会产生相同的字节？

对于大多数数字我们知道任何浮点值都会存在一些精度误差对于 32 位浮点数计算出大约 6 个有效数字在您开始看到不正确的值之前这将是准确的我正在尝试存储一个人类可读的值该值可以读入并重新创建序列化值的位精确重建例如值555
使用 Object.create(null) 创建空对象的影响和好处

首先我做了一个快速的 jsperf 测试用例来展示显而易见的内容 Object create null 比使用创建对象慢得多 syntax http jsperf com js object creation null proto htt
最Pythonic的方式来打印*最多*一些小数位[重复]

这个问题在这里已经有答案了我想格式化浮点数列表最多保留 2 位小数但是我不需要尾随零也不想要尾随小数点所以举例来说 4 001 gt 4 4 797 gt 4 8 8 992 gt 8 99 13 577 gt 13 58 T
提高光线追踪命中功能的性能

我有一个简单的 python 光线追踪器渲染 200x200 的图像需要 4 分钟这对于我的口味来说绝对是太多了我想改善这种情况几点我为每个像素发射多条光线以提供抗锯齿功能每个像素总共发射 16 条光线 200x200x16
为什么对于整数键，“Map”操作比 JavaScript (v8) 中的“Object”慢得多？

我很高兴使用Map对于在我的 JavaScript 代码库中随处访问的索引但我刚刚偶然发现了这个基准 https stackoverflow com a 54385459 365104 https stackoverflow com a

随机推荐

ASP.net MVC 4（Web api）OData 配置

一直在玩单页应用程序 BigShelf样本我发现真正有趣的是 GetBooksForSearch 方法 api BigShelf GetBooksForSearch 它需要额外的 filter inlinecount top skip寻
在服务器端 Blazor 中，如何取消页面或组件长时间运行的后台任务？

假设我有一个长时间运行的任务该任务已初始化并从派生自 Microsoft AspNetCore Components ComponentBase 的页面类的 OnInitializedAsync 方法启动我用它来收集数据它会不时更新
在Python中设置时区

Python 是否可以像 PHP 中那样设置时区 date default timezone set Europe London Year date y Month date m Day date d Hour date H Minute
使用触发器更改插入的值

我几周前才开始学习 SQL 我正在尝试制作一个触发器如果插入的值小于 10 则将其更改为 10 我现在搜索了 4h 找到了很多答案但没有很好对我来说我实在不明白问题出在哪里这是代码 CREATE OR REPLACE TRIGG
在 C 中初始化以 NULL 结尾的字符串数组的正确方法

这段代码正确吗 char argv foo bar NULL 它在语法上是正确的并且它确实创建了一个以 NULL 结尾的字符串数组 argv 被传递给main as char 或同等地 char 但将字符串文字视为更正确 const c
Android Studio 添加库通用图像加载器失败

Android 通用图像加载器 https github com nostra13 Android Universal Image Loader 是我最喜欢的图书馆但是当我使用Android Studio 使用0 1 5版本时它无法添加
Django 目录结构？

我想实现一个特定于项目的简单排队服务代码应该放在 Django 目录结构中的哪个位置目前的结构是 sound init py models py tests py views py static 编辑我问将我在上面的目录结构中创建的队
myVar = !!someOtherVar [重复]

这个问题在这里已经有答案了我可以澄清为什么我想使用它吗 myVar someOtherVar 在非严格类型语言中运算符将值转换为布尔值做两次就相当于说 myVar boolean someOtherVar 请注意为了代码清晰不建议
如何计算列表项的出现次数？

给定一个项目如何在 Python 中计算它在列表中的出现次数 A related but different problem is counting occurrences of each different element in a c
错误：nodejs 中的 getaddrinfo ENOTFOUND 用于 get 调用

我正在节点上运行一个 Web 服务器其代码如下 var restify require restify var server restify createServer var quotes author Audrey Hepburn te
在每个应用程序中的对象使用后为其分配“null”

你总是分配null达到其范围后的对象或者依赖 JVM 进行垃圾收集您是否对所有类型的应用程序都执行此操作无论其长度如何如果是这样这总是一个好的做法吗除非有非常具体的原因否则没有必要将对象显式标记为 null 此外我从未见过一
从 C# 客户端在 Solr 中索引 pdf 文档

基本上我试图在 Solr 中索引 word 或 pdf 文档并找到 ExtractingRequestHandler 但无法弄清楚如何在 c 中编写执行 HTTP POST 请求的代码如 Solr wiki 中所示 http wiki a
C 中最快的解交错操作？

我有一个指向字节数组的指针mixed包含两个不同数组的交错字节array1 and array2 Say mixed看起来像这样 a1b2c3d4 我需要做的是对字节进行去交错这样我就得到了array1 abcd and array2 1
Android 开发：Keytool，创建密钥库？

我正在尝试为谷歌市场准备我的应用程序但事实证明它比预期更具挑战性我似乎无法掌握签署应用程序的整个概念但更具体地说我的问题是我已经安装了 Eclipse 的 keytool 插件但是当我想创建一个证书时它要求我选择一个密钥库输入
如何在 OpenCV 中裁剪 CvMat？

我有一个图像转换为CvMat矩阵说CVMat source 一旦我得到一个感兴趣的区域source我希望算法的其余部分仅应用于该感兴趣的区域为此我想我将不得不以某种方式裁剪source我无法这样做的矩阵有没有一种方法或函数可以裁剪Cv
C 中的参数传递 - 指针、地址、别名

有人可以解释一下参数传递之间的区别吗C请根据教授的笔记有 4 种不同的方式来传递参数按值调用按地址调用指针按别名呼叫全局变量静态变量如果您能举个例子我将不胜感激并且您的工作将受到赞扬按值调用将值作为参数传递给函数
jquery .stop() 不工作

我正在尝试构建一个菜单其中默认情况下仅显示第一个项目当您将鼠标悬停在其上时其余项目会滑出并在鼠标离开时再次隐藏它大部分工作正常但如果鼠标在完成滑出之前退出则不会调用隐藏函数我想stop 本来应该解决这个问题但似乎没有任何影
Python 中内置类型的自定义比较函数

我正在使用 Python 的内置集合来保存我定义的类的对象对于这个类我定义了 eq ne and hash 这样我就可以通过自定义比较函数来比较对象这很好用直到我发现我确实需要two比较函数集这些函数将在我的代码中的不同时间以不同
如何在 jQuery.each 函数的每个循环之间设置延迟？

我有这样的代码 li each function var data this text requestFunction data function status if status OK do stuff 所以我需要在使用函数 reque
FPU 与软件仿真的性能比较

虽然我知道所以我被告知浮点协处理器的工作速度比任何浮点算术的软件实现都快但我完全不知道这种差异有多大以数量级而言答案可能取决于微处理器和超级计算机之间的应用程序以及您的工作地点我对计算机模拟特别感兴趣你能指出这个问题的文章或论

FPU 与软件仿真的性能比较

FPU 与软件仿真的性能比较 的相关文章

随机推荐

热门标签

FPU 与软件仿真的性能比较的相关文章