估计 GPU 的 FLOPS 效率（CUDA 示例）

2024-03-21

在我看来，我并不完全理解 FLOPS 的概念。在CUDA SAMPLES中，有矩阵乘法示例（0_Simple/matrixMul）。在此示例中，每个矩阵乘法的 FLOP（浮点运算）数量通过以下公式计算：

 double flopsPerMatrixMul = 2.0 * (double)dimsA.x * (double)dimsA.y * (double)dimsB.x;

所以，这意味着，为了将矩阵相乘A(n x m) over B(m x k)，我们需要做：2*n*m*k与浮点运算。

然而，为了计算结果矩阵的 1 个元素C (n x k)，一个人必须执行m乘法和(m-1)加法运算。因此，操作总数（计算n x k元素），是m*n*k乘法和(m-1)*n*k补充。

当然，我们可以设置添加的数量m*n*k以及，操作总数将是2*n*m*k，其中一半是乘法，一半是加法。

但是，我猜乘法比加法的计算成本更高。为什么这两种类型的操作会混合在一起？计算机科学中总是这样吗？如何考虑两种不同类型的操作？

对不起我的英语不好）

简短的回答是，是的，他们计算乘法和加法。尽管大多数浮点处理器具有融合乘法/加法运算，但它们仍然将乘法和加法算作两个单独的浮点运算。

这就是为什么人们几十年来一直抱怨 FLOPs 基本上是一个毫无意义的衡量标准。即使是一点点，您几乎需要指定一些特定的代码体来测量 FLOP（例如，“Linpack gigaflops”）。即使如此，您有时也需要对诸如允许哪些编译器优化之类的事情进行相当严格的控制，以确保您测量的是真正的机器速度，而不是编译器简单地消除某些操作的能力。

最终，正是出于诸如此类的担忧，人们成立了一些组织来制定基准以及如何运行这些基准和报告结果的规则（例如 SPEC）。否则，可能很难确定您看到的两个不同处理器报告的结果在任何有意义的方面确实具有可比性。即使有了它，比较也可能很困难，但如果没有这些东西，它们就几乎毫无意义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

估计 GPU 的 FLOPS 效率（CUDA 示例）的相关文章

如何将点光源转换为卵形/椭圆形？

我希望通过具有不同 x 和 y 值的 vec2 半径将当前的圆形光变成椭圆形有没有办法根据我当前在片段着色器中的代码来做到这一点 uniform struct Light vec4 colour vec3 position vec2 ra
lambda 始终返回“1”

有这样的代码 include
__libc_start_main 发生了什么？

我真的很想理解从高级代码到可执行文件的步骤但是遇到了一些困难我写了一个空的int main C 文件并尝试通过以下方式破译反汇编objdump d 这是发生的事情 in start 设置对齐方式将参数压入堆栈调用 libc star
当用户与 DateTimePicker 控件交互时会引发什么事件？

我是 C 新手在我的程序中使用 DateTimePicker Value Changed 事件但我发现当用户单击箭头时发生 ValueChanged 事件或者如果也以编程方式更改值我只想识别 DateTimePicker 的用户交互
如何从 OnChange 事件捕获文本框的值

在我的 C MVC 应用程序中我有一系列这样生成的文本框 foreach object item in items Html TextBox 渲染的结果是一系列看起来像这样的文本框
仅使用 1 行 C++ 初始化 2d 向量

我需要能够初始化一个 2D 向量 int同一条线我在其中创建它更具体地说我必须创建一个3x2大小 2D 向量并将其所有值设置为 0 仅使用1行代码有没有一种方法可以在不使用 for 循环和几行代码的情况下完成此操作尝试这个 std
从文本文件中读取所有内容 - C

我正在尝试从文本文件中读取所有内容这是我写的代码 include
float.Parse 不再在 Unity 中工作 (C#)

我有一个包含以下代码行的工作项目 public InputField mass float val float Parse mass text 非常简单用户输入一定量的质量然后将其从文本解析为浮动几天前这工作得很好我什至能够多次导出
Python NET 调用具有返回值和输出参数的 C# 方法

我有以下静态 C 方法 public static bool TryParse string s out double result 我想使用 Python NET 包从 Python 调用它 import clr from System
C 或 C++ 中是否有轻量级的多部分/表单数据解析器？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在考虑将多部分表单数据解析集成到 Web 服务器模块中以便可以减轻后端 Web 应用程序通常用动
将迭代器取消引用到临时范围时出现非指针操作数错误

Using auto empty line auto str return str size 0 我们做得到 auto line range with first non empty ranges view drop while range
.NET 查询字符串值的正则表达式

我需要从 Url PathAndQuery 中删除任何 id SomeValue 其中 SomeValue 可以是整数或字符串它后面可能有也可能没有另一个符号所以它可能是 somepage aspx cat 22 id SomeId
我应该在查询时调用 ToListAsync()

不久前我开始接触 C 并正在寻找一些如何编写代码的最佳实践现在我正在使用 EF Core 并具有以下代码 var details dbContext Details Where x gt x Name Button foreach v
在 C 中初始化结构体的静态数组

我正在用 C 实现一个纸牌游戏纸牌有很多种类型每种纸牌都有大量信息包括一些需要单独编写与其关联的脚本的操作给定这样的结构并且我不确定我的语法是否适合函数指针 struct CARD int value int cost This
在javascript中调用c#函数[重复]

这个问题在这里已经有答案了可能的重复从 Javascript 调用 ASP NET 函数 https stackoverflow com questions 3713 call asp net function from javascr
如何将焦点设置到 Windows 窗体应用程序中的控件？

在 Windows 窗体应用程序中 when我是否编写代码以在应用程序启动时以及随后调用函数后将焦点设置到控件例如如果我有一个 DropDownList 一个 TextBox 和四个按钮并且我希望将 Focus 设置为 DropDow
带有 epgm 的 ZeroMQ PUB/SUB 无法接收同一主机上进程发送的消息

我的所有进程都有两个套接字一个 PUB 和一个 SUB 并且它们都使用相同的多播地址和端口例如 PUB 会这样做绑定 epgm 239 192 1 1 5555 SUB 将执行以下操作连接 epgm 239 192 1 1 5555
使用 STL 迭代器而不初始化它

我想做这样的事情 container iterator it NULL switch eSomeEnum case Container1 it vecContainer1 begin break case Container2 it vec
如果 foreach 是一个结构数组，它会复制每个元素吗？

我有一个结构数组做foreach运算符在迭代数组时复制每个元素据我所理解foreach只是底层的语法糖转换为for 所以看来答案是否定的但我很想得到一些确认 PS 看来应该有人已经问过了但我无法轻易找到任何东西因此请以提供的参考
C# 泛型中的通配符等效项

假设我有一个通用类如下所示 public class GeneralPropertyMap

随机推荐

Jenkins：动态作业创建引发“管道 CPS 方法不匹配”错误

我正在尝试从应并行运行的管道作业之一创建多个动态作业我希望我的詹金斯管道脚本根据用户输入下载并安装我的软件二进制文件以下是我的示例阶段第 1 阶段将下载构建版本第 2 阶段获取参数并安装软件的云部分第 3 阶段将接受用户
Mongoose populate() 返回空数组

所以我已经花了大约4个小时阅读了几次文档但仍然无法找出我的问题我正在尝试对我的模型执行一个简单的 populate 我有一个用户模型和商店模型用户有一个 favoriteStores 数组其中包含商店的 id 我正在寻找的是这个数
SQL查询where参数为null不为null

我正在尝试执行 SQL 查询并根据参数是否为空或否动态构建 where 条件我有这样的事情 SELECT tblOrder ProdOrder tblOrder Customer FROM tblOrder CASE WHEN Order
找不到模块“内部/错误”离子

我正在尝试创建新的离子项目然后它显示以下错误我已经删除了nodejs npm ionic并再次重新安装但再次出现相同的错误 Terminal https i stack imgur com vLP7J png Error Error
使用 Ajax 加载用户控件

我试图找到使用 Ajax 加载用户控件的最佳实践我的第一种方法是简单地使用 UpdatePanel 并在 ajax 回发上使用 LoadControl 弹出它但这会在同一 UpdatePanel 中重新呈现其他加载的用户控件另外我无
cassandra 节点限制

我正在寻找 cassandra 是否有节点硬件规格的限制例如如果存在任何此类限制每个节点的最大存储可能是多少我打算使用几个节点每个节点具有 48TB 存储 2TB X 24 硬盘驱动器 7200rpm 并配有一些良好的双 Xeon
SMTP 验证错误“发送邮件失败”

如果满足某些条件我将尝试从我的 ASP NET 网页发送电子邮件这是我的代码 SmtpClient smtpClient new SmtpClient NetworkCredential basicCredential new Netw
如何找到 Homebrew 的可安装软件包列表？

最近我安装了Brew https brew sh 如何检索要安装的可用brew 软件包的列表 brew help将显示可用命令的列表 brew list将显示已安装软件包的列表您还可以附加公式例如brew list postgres会告
当请求为 POST 时，在 Apigee HTTPTargetConnection 上调用 GET

我需要调用使用 GET 的旧版 API 我的 API 代理使用 POST 我尝试使用AssignMessage
将一个字符串更改为另一个字符串的简单突变数量？

我相信你们都听说过文字游戏在这种游戏中您试图通过一次更改一个字母来将一个单词更改为另一个单词并且只浏览有效的英语单词我正在尝试实现一个 A 算法来解决它只是为了充实我对 A 的理解并且需要的东西之一是最小距离启发式也就是说
Angular 单元测试 Jasmine Spy 错误

以下控制器收到类型错误未定义不是函数正在评估sessionService getCurrentPlace 我有一个模拟服务该方法正在被监视模拟服务上的另一种方法工作正常我试过了 AndReturns 关于间谍以及 AndCall
在 MATLAB 中为结构体数组的字段赋值

我想替换结构体数组中字段的值例如我想在以下结构中将所有 1 替换为 3 a 1 b 1 a 2 b 2 a 3 b 1 a a b 1 b 3 This doesn t work and spits out Insufficient o
是否有一个“空”printf 代码不打印任何内容，用于跳过参数？

如果我想要一个程序有多种文本输出格式我可以这样做 const char fmtDefault u x s 2f each n const char fmtMultiLine Qty 3u nItem s nPrice per item 2
Kartik Select2 - 以编程方式更改多个

我有一个 yii2 activeform 其中表单的功能可以根据表单中的其他内容进行更改所以我有一个俱乐部字段在某些情况下可以是多个但在其他情况下不能是多个
零/符号扩展是无操作的，为什么要为每种大小类型提供指令呢？

对于 x86 和 x64 编译器生成类似的零符号扩展 MOVSX 和 MOVZX 扩展本身并不是免费的但允许处理器执行无序魔法加速但在 RISC V 上因此无符号和有符号 32 位整数之间的转换是无操作从有符号 32 位整数到有
Keras 在激活函数之前检索节点的值

想象一个完全连接的神经网络其最后两层具有以下结构 Dense units 612 activation softplus Dense units 1 activation sigmoid 网络的输出值为 1 但我想知道 sigmoidal
Android 2.1 的操作栏

是否有适用于 Android Level 7 的操作栏或其他我可以用作操作栏的东西我需要构建一个使用 Android 2 1 操作栏的应用程序 JohanNilsson 实际上创建了一个ActionBar图书馆可在GitHub 直接链接
将 Twitter Bootstrap 与 Wordpress 一起使用

如何将 Wordpress 与 Twitter Bootstrap 一起使用我知道如何设置 Wordpress 页面并且已经使用过 Bootstrap 但现在我想第一次一起使用这两个对于我的 WordPress 项目我通常只安装 W
如何从这个承诺层蛋糕中返回布尔值？

我有一个控制器方法它接受一个字符串参数这样我就可以测试用户是否有能力用户拥有许多角色并且角色附加了一系列权限我们需要检查它是否包含该功能我知道这过于冗长但为了理解我就这样保留了稍后会重构 App WorkspaceInde
估计 GPU 的 FLOPS 效率（CUDA 示例）

在我看来我并不完全理解 FLOPS 的概念在CUDA SAMPLES中有矩阵乘法示例 0 Simple matrixMul 在此示例中每个矩阵乘法的 FLOP 浮点运算数量通过以下公式计算 double flopsPerMatri

估计 GPU 的 FLOPS 效率（CUDA 示例）

估计 GPU 的 FLOPS 效率（CUDA 示例） 的相关文章

随机推荐

热门标签

估计 GPU 的 FLOPS 效率（CUDA 示例）的相关文章