无法达到最佳性能

2023-12-24

我正在努力达到每个人的最佳表现SM从下面的代码。峰值位于 25 GFlops（GTX275-GT200 Arch.）之间。此代码最多提供 8 GFlops。

__global__ void new_ker(float *x)
{
  int index = threadIdx.x+blockIdx.x*blockDim.x;
  float a,b;
  a=0;
  b=x[index];
  //LOOP=10000000
  //No. of blocks = 1
  //Threads per block = 512 (I'm using GTX 275 - GT200 Arch.)
  #pragma unroll 2048
  for(int i=0;i<LOOP;i++){
       a=a*b+b;
  }  

  x[index] = a;

 }

我不想在代码中增加 ILP。有什么想法为什么它没有达到顶峰吗？

int main(int argc,char **argv)
{

   //Initializations
   float *x;
   float *dx;
   cudaEvent_t new_start,new_stop;
   float elapsed;
   double gflops;
   x = 0;
   flag = 0;
   cudaMalloc((void **)&dx,sizeof(float)*THPB);

   //ILP=1  
   cudaEventCreate(&new_start);
   cudaEventCreate(&new_stop);
   printf("Kernel1:\n");
   cudaEventRecord(new_start, 0);
   new_ker<<<BLOCKS,THPB>>>(dx);
   cudaEventRecord(new_stop,0);
   cudaEventSynchronize(new_stop);
   cudaEventElapsedTime(&elapsed,new_start,new_stop);
   x = (float *)malloc(sizeof(float)*THPB);
   cudaMemcpy(x,dx,sizeof(float)*THPB,cudaMemcpyDeviceToHost);

   gflops = ((double)(BLOCKS)*(THPB)*LOOP/elapsed)/1000000;
   printf("\t%f",gflops);
   cudaEventDestroy(new_start);
   cudaEventDestroy(new_stop);
   return 0;
}

平台： CUDA 3.0 NVIDIA GeForce GTX275 (GT200)

如果我使用正确的 FLOP 计算将您的代码中的完整重现案例放在一起：

#include <stdio.h> 

#define LOOP (10000000)
#define BLOCKS (30)
#define THPB (512)

__global__ void new_ker(float *x)
{
  int index = threadIdx.x+blockIdx.x*blockDim.x;
  float a,b;
  a=0;
  b=x[index];
  #pragma unroll 2048
  for(int i=0;i<LOOP;i++){
       a=a*b+b;
  }  

  x[index] = a;
}

int main(int argc,char **argv)
{

   //Initializations
   float *x;
   float *dx;
   cudaEvent_t new_start,new_stop;
   float elapsed;
   double gflops;
   x = 0;
   cudaMalloc((void **)&dx,sizeof(float)*THPB);

   //ILP=1  
   cudaEventCreate(&new_start);
   cudaEventCreate(&new_stop);
   printf("Kernel1:\n");
   cudaEventRecord(new_start, 0);
   new_ker<<<BLOCKS,THPB>>>(dx);
   cudaEventRecord(new_stop,0);
   cudaEventSynchronize(new_stop);
   cudaEventElapsedTime(&elapsed,new_start,new_stop);
   x = (float *)malloc(sizeof(float)*THPB*BLOCKS);
   cudaMemcpy(x,dx,sizeof(float)*THPB*BLOCKS,cudaMemcpyDeviceToHost);

   gflops = 2.0e-6 * ((double)(LOOP)*double(THPB*BLOCKS)/(double)elapsed);
   printf("\t%f\n",gflops);
   cudaEventDestroy(new_start);
   cudaEventDestroy(new_stop);
   return 0;
}

我编译它并在 64 位 Linux 平台上使用 CUDA 3.2 的 1.4GHz GTX275 上运行它：

$ nvcc -arch=sm_13 -Xptxas="-v" -o perf perf.cu
ptxas info    : Compiling entry function '_Z7new_kerPf' for 'sm_13'
ptxas info    : Used 4 registers, 8+16 bytes smem, 8 bytes cmem[1]
$ ./perf 
Kernel1:
        671.806039

对于运行纯 FMAD 代码（1.4 GHz * 2 FLOP * 8 核/MP * 30 MP）的卡，我得到的峰值 FLOP/s 的误差在 0.01% 之内 = 672 GFLOP/s。

因此，看起来代码实际上确实达到了每个多处理器一个块的峰值 FLOP/s，但您只是没有正确计算 FLOP/s 数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

benchmarking

无法达到最佳性能的相关文章

Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
Python 请求与 PyCurl 性能

Requests 库与 PyCurl 的性能相比如何我的理解是 Requests 是 urllib 的 python 包装器而 PyCurl 是本机 libcurl 的 python 包装器因此 PyCurl 应该获得更好的性能但不
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
Java 基准测试 - 为什么第二个循环更快？

我对此很好奇我想检查哪个函数更快所以我创建了一些代码并执行了很多次 public static void main String args long ts String c sgfrt34tdfg34 ts System current
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC

随机推荐

如果存在匹配，SQLite 减去两个表之间的时间差

我需要一些有关 SQLite 查询的帮助我有两个表一个名为生产的表和一个名为暂停的表 CREATE TABLE production date TEXT item TEXT begin TEXT end TEXT CREATE
将 Firefox 配置文件传递到远程 WebDriver Firefox 实例不起作用

我正在尝试启动 Firefox 的远程 Webdriver 实例并传入配置文件 profile webdriver FirefoxProfile profile set preference browser download folderL
UITableView 滚动时在顶部插入部分

我在滚动顶部时在 UITableView 顶部插入新部分部分包含 3 个单元格 mainTable beginUpdates mainTable insertSections NSIndexSet indexSetWithIndex 0
使用不同的密钥将内容从一个 S3 存储桶复制到另一个 S3 存储桶

我有两个 S3 存储桶具有两组不同的访问密钥和秘密密钥这是集合 Bucket1 Key1 Secret1 And Bucket2 Key2 Secret2 Token 我正在尝试通过触发 S3 S3 复制aws cli像这样 aws s
如何在一系列箱线图中的箱线图旁边显示数值平均值和标准值？

我试图在多个箱形图中的箱形图旁边显示平均值和标准差的值当我尝试时什么也没有显示 Boxplot 3 data3 np array 4 38 3 27 6 07 4 35 3 51 6 14 4 09 3 33 5 92 4 9 3 97
Rails：渲染方法中的位置选项是什么

嘿我想知道 Rails 中渲染方法的位置选项是什么文档在这里http guides rubyonrails org layouts and rendering html http guides rubyonrails org layout
Windsor MixIn 是单例吗？

我有一个 MixIn 需要某种状态才能运行我正在这样注册 container Register Component For Of ICat ImplementedBy Of Cat LifeStyle Transient Proxy Mi
java有“Linked ConcurrentHashMap”数据结构吗？

我需要一个 LinkedHashMap 并且线程安全的数据结构我怎样才能做到这一点您可以将映射包装在 Collections synchronizedMap 中以获取维护插入顺序的同步哈希映射这不像 ConcurrentHashMap
使用正则表达式过滤对象数组

我有一个这样的数据数组 const data Date 2018010101 color blue Date 2018010102 color blue Date 2018010103 color red Date 2018010104 c
Angular - 类型“string”不可分配给类型“boolean”

角度 4 3 1角度 CLI 1 2 3打字稿 2 3 4 组件打字稿文件 public saveName string public overwrite boolean 以下标记失败并显示类型 string 不可分配给类型 boolean
向 JNA 类 Java (Kernel32) 添加另一个方法

我试图使用 WIN32 dll 中的方法未包含在 JNA 中方法是获取产品信息我在单独的项目和工作中尝试这个 public interface Kernel32 extends Library public boolean GetPr
SQL Server DACPAC 部署删除用户/角色/权限

我正在使用 DACPAC 部署 Azure SQL Server 数据库每次我部署时它都会删除我的用户角色和权限即使我在我正在使用的发布配置文件中明确告诉它不要这样做发布配置文件定义为
Amazon S3 WebDAV 访问

我想在不使用第三方软件的情况下访问我的 Amazon S3 存储桶而只需通过大多数操作系统中提供的 WebDAV 功能即可有没有办法做到这一点对我来说重要的是不需要第三方软件有多种方法可以做到这一点不知道你的情况如何所以这里是
在 TypeScript 中使用元组（类型推断）

给出这个稍微人为的例子 List Of Names map name index gt name index 2 map name num gt 为什么 name 和 num 位于 type 的最后一行string number显然推断为字
我可以在不安装 Visual Studio 的情况下使用 mstest.exe 吗？

我想使用 mstest exe 在生成服务器上运行单元测试但我不想在生成服务器上安装 Visual Studio 我可以只安装 MSTest 而不使用 Visual Studio 吗无需 Visual Studio 即可运行 mstes
PHP：将文档/文本解析为句子

我正在寻找类似的 PHP 版本 http journals ecs soton ac uk java tutorial intl collat ion textBound html http journals ecs soton ac uk
vim：执行编辑器命令列表

vim 有没有办法给出编辑器命令列表我想执行一系列全局命令并且这些命令有一些模式因此我理想地希望生成命令列表使用正则表达式搜索和替换然后运行它们而不必键入每个命令谢谢高拉夫更新 s buffer register g
是否可以在 Mountain Lion 上当前的 Xcode 4.6.1 工具链中启用 _LIBCPP_DEBUG2？

这个线程 http comments gmane org gmane comp compilers clang devel 16838是对 clang 的 libc 调试模式的早期讨论该模式通过定义来启用 LIBCPP DEBUG2在编译
在 R 中添加新行

我需要在后面添加一个新行我的数据如下所示 1 60112 486 100 xxx BS 1 1 486 100 yyy TE I need 1 60112 486 100 xxx BS 1 1 486 100 yyy TE 我怎样才能实现
无法达到最佳性能

我正在努力达到每个人的最佳表现SM从下面的代码峰值位于 25 GFlops GTX275 GT200 Arch 之间此代码最多提供 8 GFlops global void new ker float x int index threa

无法达到最佳性能

无法达到最佳性能 的相关文章

随机推荐

热门标签

无法达到最佳性能的相关文章