计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？

2023-11-29

我有兴趣获得在 GeForce GTX 550 Ti 上执行 1 个双精度 FLOP 所需的纳秒数。

为了做到这一点，我遵循以下方法：我发现该卡的单精度峰值性能为 691.2 GFLOPS，这意味着双精度峰值性能将是它的 1/8，即 86.4 GFLOPS。然后，为了获得每个核心的 FLOPS，我将 86.4 GFLOPS 除以核心数量 192，得到每个核心 0.45 GFLOPS。 0.45 GFLOPS 表示每个核心每纳秒 0.45 FLOPS。如果我遵循正确的方法，那么我想知道每个核心运行多少个线程来获取这些 GFLOPS 数字以及在哪里可以找到此信息？

此外，我的小测试如下所示，仅通过一个线程执行 236000232 个周期。为了找到执行循环 1 次迭代所需的时间（以纳秒为单位），我执行了 236000232/10^6 = 236 个周期。该卡的着色器时钟为 1800Mhz，这意味着执行一次循环迭代需要 236/1.8 = 131 纳秒。这个数字比上面的数字大得多（每个核心 0.45 纳秒）。我确信我在这里遗漏了一些东西，因为数字非常不同。请帮助我理解其背后的数学原理。

    __global__ void bench_single(float *data)
{
    int i;
    double x = 1.;
    clock_t start, end;
    start = clock();
    for(i=0; i<1000000; i++)
    {
        x = x * 2.388415813 + 1.253314137;
    }
    end = clock();
    printf("End and start %d - %d\n", end, start);
    printf("Finished in %d cycles\n", end-start);
}

谢谢你，

计算能力 2.1 设备的双精度吞吐量为每周期 4 次操作（如果执行 DFMA，则为 8 次）。这假设所有 32 个线程在分派的 warp 中都处于活动状态。

4 个操作/周期/SM * 4 个 SM * 1800 MHz * 2 个操作/DFMA = 56 GFLOPS 双

该计算假设扭曲中的所有线程都处于活动状态。

您问题中的代码包含两个可以融合到 DFMA 中的相关操作。使用 cuobjdump -sass 检查程序集。如果您在同一个 SM 上启动多个 warp，则测试将变成对相关指令吞吐量而不是延迟的测量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？的相关文章

使用 QuasirandomGenerator （对于傻瓜来说）

我是 CUDA 的新手我正在努力在内核中生成随机数我知道有不同的实现而且在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例我不知道从哪里开始我有点悲伤感觉自己像个傻瓜有人可以制作一个使用 Nied
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
如何在C++中的cudaDeviceReset()之后重用tensorflow？

我正在使用 C 开发一个大型 CUDA 应用程序该应用程序运行各种模型需要完全释放所有 GPU 内存否则其他操作将失败我能够在关闭所有 tf 会话并运行 cudaDeviceReset 后释放所有内存但之后我无法运行任何新的张量流
是否可以在GPU中实现Huffman解码？

我们有一个用霍夫曼编码编码的数据库这里的目的是将其及其关联的解码器复制到 GPU 上然后在 GPU 上对数据库进行解码并在解码后的数据库上执行操作而无需将其复制回 CPU 上我还远远不是霍夫曼专家但我所知道的少数人表明它似乎是
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
C# - 获取 GPU 的总使用百分比

我正在向我的程序添加一些新功能这些功能当前通过串行连接将 CPU 使用情况和 RAM 使用情况发送到 Arduino 请参阅this https create arduino cc projecthub thesahilsaluja cp
在 Mac OS X 10.7.4 上使用 OpenCL 禁用 Nvidia 看门狗

我有一个 OpenCL 程序对于小问题运行良好但是当运行较大的问题超过 Nvidia 硬件上运行内核的 8 10 秒时间限制时虽然我没有将显示器连接到我正在计算的 GPU Nvidia GTX580 上但一旦内核运行大约 8 10
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
超出 CreateConstantBufferView 处虚拟地址的末尾

我正在遵循使用 DirectX12 进行游戏编程 ch 6 代码但在 ID3DDevice CreateConstantBufferView 中我发现 D3D12 错误 D3D12 错误 ID3D12Device CreateCons
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我

随机推荐

v-model 仅在生产中抛出 ReferenceError

我在 Vue 中有以下视图
同一页面中具有相同广告尺寸的多个 GPT 广告不起作用

我的页面上有两个 GPT 广告如果两个广告的尺寸不同则广告将显示在页面中下面的代码工作正常 googletag defineSlot 123 test 728 90 div gpt ad 123456789 0 addService
在Postman中，如何使用集合运行器发布二进制文件

我正在使用 Postman Collection Runner 自动执行一系列 API 调用在其中一个 API 调用中我需要提交一个二进制文件作为 POST 的正文设置 Collection Runner 时我看到如何选择文件但我
解决 Cocoa 中的 EXC_BAD_ACCESS 问题？

嘿我在可可中有以下方法 void startUploadWithContainerName NSString containerName Make an object of NSFileManager and Fetch an array
Rails：Webpacker 4.2 在 /app/public/packs/manifest.json 中找不到应用程序

我有点难住了我的本地 Rails 应用程序与 webpacker 4 2 和 React 配合得很好但是部署到生产环境时给了我美妙的效果can t find application in app public packs manifes
即使没有添加记录，INSERT IGNORE 也会增加自动增量计数器？

In MySQL I used INSERT IGNORE语句将行插入到表中因为一列是UNIQUE 某些行未插入因为它们已经存在执行该语句后我注意到自动增量列在行之间缺少一些数字后来我意识到这是由于被忽略且未添加的行而发生的是否
为什么 Intent.ACTION_SENDTO 包含应用程序作为选项

我的导航抽屉包含一个通过电子邮件联系开发人员的选项为此我根据文档包含了代码但是当单击联系开发人员时显示的选项包括我的应用程序该应用程序不支持电子邮件我在网上搜索过这个问题但没有找到任何相关内容如何将用户的选项仅限于电子
Magento 删除默认商店视图的商店代码

我有 Magento 多语言商店我需要将商店代码添加到 url 在这条路径中System gt Configuration gt Web gt Url Option gt Add Store Code to Urls我已经转了ON 然后我
Flutter 异步表单验证

我和这个问题的发帖者有同样的问题 flutter 异步验证表单然而我在实现这一点和理解验证是如何工作时遇到了困难首先这段代码返回什么这会返回布尔值吗 Future checkUser async var user await Fi
G1算法中的记忆集有什么用？

我刚刚读了一些关于G1算法的博客记忆集的用法对我来说很困惑我的想法是这样的既然我们可以使用 DFS 遍历 GC Roots 中的每个引用为什么我们需要记住集呢因为所有的博客都说我们使用remembered set的原因是我们不需要
如何让Spring Boot中的字段为空？

我正在尝试对电话号码进行验证我们可以允许它为空但每次输入时都必须是 10 个字符的大小这是我的代码 Size max 10 min 10 message mobile no should be of 10 digits private
将不同源位置的 xml 文档图像复制到单个输出目录中

我有一个 xml 文档其中使用 xinclude 来访问其他几个 xml 文件
如何在 Excel 的 VBA 中使 ADODB.Connection 持久化？

我有一个 Excel 电子表格需要显示 SQL 数据库中的数据我将慢速查询的结果存储在临时表中并希望能够重复访问这些结果而不必重新运行慢速查询我正在 VBA 中使用 ADODB Connection 连接到我们的 SQL 数据库并
JVM什么时候使用内在函数

为什么某些代码模式在 JVM 内部类中出现时会变成内部函数而从我自己的类中调用时却不会例子 bitCount 函数当从 Integer bitCount i 内部调用时将转换为内在函数但是当复制到我的类中然后调用时执行时间会更长
如何随机排列列表中的项目，同时避免任何项目保留在原始位置？

我有一个问题random shuffle 基本上它可以很好地伪随机化列表中的项目但就我而言我还想防止项目保留在同一位置我想出了这个代码以确保每个项目都有一个新的位置 match True while match is True
使用 AWS Lambda 无法在 NodeJS 中找到 MySQL

我想执行以下代码我尝试要求 mysql 和 node mysql 它们都给了我同样的错误 Code var AWS require aws sdk var mysql require mysql exports handler event
旋转具有透明背景的 BufferedImage

我有一个具有透明背景的图像我想将此图像旋转到特定角度并保留结果图像的透明背景为此我使用以下方法 public static BufferedImage rotateImage BufferedImage image double an
如何根据一定数量的连续零值对data.frame进行分段并在R中给它们排序[重复]

这个问题在这里已经有答案了我目前正在处理汽车数据我们每5分钟记录一次汽车的速度其中包含很多零值我的问题是如何按零值对数据进行分段并在 R 中为每个非零部分指定一个有序数我们以一个样本数据为例 sample lt data fr
从php中的多维数组中删除具有空值的行

如何从 PHP 的多维数组中删除包含空元素的行例如来自 1 a b c d 2 d b a 3 a b 4 d c b a 5 b c d 6 d c b a to 1 a b c d 4 d c b a 6 d c b a Thank
计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？

我有兴趣获得在 GeForce GTX 550 Ti 上执行 1 个双精度 FLOP 所需的纳秒数为了做到这一点我遵循以下方法我发现该卡的单精度峰值性能为 691 2 GFLOPS 这意味着双精度峰值性能将是它的 1 8 即 86 4

计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？

计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？ 的相关文章

随机推荐

热门标签

计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？的相关文章