CUDA Samples: 获取设备属性信息

2023-11-17

通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息,此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异,下面code列出了经常用到的设备信息:

#include "funset.hpp"
#include <iostream>
#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")
#include <device_launch_parameters.h>

/* reference:
	C:\ProgramData\NVIDIA Corporation\CUDA Samples\v8.0\1_Utilities\deviceQuery
*/ 
int get_device_info()
{
	int device_count{ 0 };
	// cudaGetDeviceCount: 获得计算能力设备的数量
	cudaGetDeviceCount(&device_count);
	fprintf(stdout, "GPU设备的数量: %d\n", device_count);

	for (int dev = 0; dev < device_count; ++dev) {
		int driver_version{ 0 }, runtime_version{ 0 };

		/* cudaSetDevice: 设置GPU执行时使用的设备,0表示能搜索到的第一
		个设备号,如果有多个设备,则编号为0,1,2... */
		cudaSetDevice(dev);

		/* cudaDeviceProp: 设备属性结构体
		name: 设备名字,如GeForce 940MX
		totalGlobalMem: 设备上可用的全局内存总量(字节)
		sharedMemPerBlock: 每一个线程块上可用的共享内存总量(字节)
		regsPerBlock: 每一个线程块上可用的32位寄存器数量
		warpSize: 一个线程束包含的线程数量,在实际运行中,线程块会被分割成更小的线程束(warp),
		           线程束中的每个线程都将在不同数据上执行相同的命令
		memPitch: 在内存拷贝中允许的最大pitch数(字节)
		maxThreadsPerBlock: 每一个线程块中支持的最大线程数量
		maxThreadsDim[3]: 每一个线程块的每个维度的最大大小(x,y,z)
		maxGridSize: 每一个线程格的每个维度的最大大小(x,y,z)
		clockRate: GPU最大时钟频率(千赫兹)
		totalConstMem: 设备上可用的常量内存总量(字节)
		major: 设备计算能力主版本号,设备计算能力的版本描述了一种GPU对CUDA功能的支持程度
		minor: 设备计算能力次版本号
		textureAlignment: 纹理对齐要求
		deviceOverlap: GPU是否支持设备重叠(Device Overlap)功能,支持设备重叠功能的GPU能够
		               在执行一个CUDA C核函数的同时,还能在设备与主机之间执行复制等操作,
			       已废弃,使用asyncEngineCount代替
		multiProcessorCount: 设备上多处理器的数量
		kernelExecTimeoutEnabled: 指定执行核函数时是否有运行时间限制
		integrated: 设备是否是一个集成GPU
		canMapHostMemory: 设备是否支持映射主机内存,可作为是否支持零拷贝内存的判断条件
		computeMode: CUDA设备计算模式,可参考cudaComputeMode
		maxTexture1D: 一维纹理支持的最大大小
		maxTexture2D[2]:二维纹理支持的最大大小(x,y)
		maxTexture3D[3]: 三维纹理支持的最大大小(x,y,z)
		memoryClockRate: 内存时钟频率峰值(千赫兹)
		memoryBusWidth: 全局内存总线宽度(bits)
		l2CacheSize: L2缓存大小(字节)
		maxThreadsPerMultiProcessor: 每个多处理器支持的最大线程数量
		concurrentKernels: 设备是否支持同时执行多个核函数
		asyncEngineCount: 异步引擎数量
		unifiedAddressing: 是否支持设备与主机共享一个统一的地址空间
		*/
		cudaDeviceProp device_prop;
		/* cudaGetDeviceProperties: 获取指定的GPU设备属性相关信息 */
		cudaGetDeviceProperties(&device_prop, dev);

		fprintf(stdout, "\n设备 %d 名字: %s\n", dev, device_prop.name);

		/* cudaDriverGetVersion: 获取CUDA驱动版本 */
		cudaDriverGetVersion(&driver_version);
		fprintf(stdout, "CUDA驱动版本: %d.%d\n", driver_version/1000, (driver_version%1000)/10);
		/* cudaRuntimeGetVersion: 获取CUDA运行时版本 */
		cudaRuntimeGetVersion(&runtime_version);
		fprintf(stdout, "CUDA运行时版本: %d.%d\n", runtime_version/1000, (runtime_version%1000)/10);

		fprintf(stdout, "设备计算能力: %d.%d\n", device_prop.major, device_prop.minor);
		fprintf(stdout, "设备上可用的全局内存总量: %f MB, %llu bytes\n",
			(float)device_prop.totalGlobalMem / (1024 * 1024), (unsigned long long)device_prop.totalGlobalMem);
		fprintf(stdout, "每一个线程块上可用的共享内存总量: %f KB, %lu bytes\n",
			(float)device_prop.sharedMemPerBlock / 1024, device_prop.sharedMemPerBlock);
		fprintf(stdout, "每一个线程块上可用的32位寄存器数量: %d\n", device_prop.regsPerBlock);
		fprintf(stdout, "一个线程束包含的线程数量: %d\n", device_prop.warpSize);
		fprintf(stdout, "在内存拷贝中允许的最大pitch数: %d bytes\n", device_prop.memPitch);
		fprintf(stdout, "每一个线程块中支持的最大线程数量: %d\n", device_prop.maxThreadsPerBlock);
		fprintf(stdout, "每一个线程块的每个维度的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxThreadsDim[0], device_prop.maxThreadsDim[1], device_prop.maxThreadsDim[2]);
		fprintf(stdout, "每一个线程格的每个维度的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxGridSize[0], device_prop.maxGridSize[1], device_prop.maxGridSize[2]);
		fprintf(stdout, "GPU最大时钟频率: %.0f MHz (%0.2f GHz)\n",
			device_prop.clockRate*1e-3f, device_prop.clockRate*1e-6f);
		fprintf(stdout, "设备上可用的常量内存总量: %lu bytes\n", device_prop.totalConstMem);
		fprintf(stdout, "纹理对齐要求: %lu bytes\n", device_prop.textureAlignment);
		fprintf(stdout, "是否支持设备重叠功能: %s\n", device_prop.deviceOverlap ? "Yes" : "No");
		fprintf(stdout, "设备上多处理器的数量: %d\n", device_prop.multiProcessorCount);
		fprintf(stdout, "执行核函数时是否有运行时间限制: %s\n", device_prop.kernelExecTimeoutEnabled ? "Yes" : "No");
		fprintf(stdout, "设备是否是一个集成GPU: %s\n", device_prop.integrated ? "Yes" : "No");
		fprintf(stdout, "设备是否支持映射主机内存: %s\n", device_prop.canMapHostMemory ? "Yes" : "No");
		fprintf(stdout, "CUDA设备计算模式: %d\n", device_prop.computeMode);
		fprintf(stdout, "一维纹理支持的最大大小: %d\n", device_prop.maxTexture1D);
		fprintf(stdout, "二维纹理支持的最大大小(x,y): (%d, %d)\n", device_prop.maxTexture2D[0], device_prop.maxSurface2D[1]);
		fprintf(stdout, "三维纹理支持的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxTexture3D[0], device_prop.maxSurface3D[1], device_prop.maxSurface3D[2]);
		fprintf(stdout, "内存时钟频率峰值: %.0f Mhz\n", device_prop.memoryClockRate * 1e-3f);
		fprintf(stdout, "全局内存总线宽度: %d bits\n", device_prop.memoryBusWidth);
		fprintf(stdout, "L2缓存大小: %d bytes\n", device_prop.l2CacheSize);
		fprintf(stdout, "每个多处理器支持的最大线程数量: %d\n", device_prop.maxThreadsPerMultiProcessor);
		fprintf(stdout, "设备是否支持同时执行多个核函数: %s\n", device_prop.concurrentKernels ? "Yes" : "No");
		fprintf(stdout, "异步引擎数量: %d\n", device_prop.asyncEngineCount);
		fprintf(stdout, "是否支持设备与主机共享一个统一的地址空间: %s\n", device_prop.unifiedAddressing ? "Yes" : "No");
	}

	return 0;
}
执行结果如下:


GitHubhttps://github.com/fengbingchun/CUDA_Test

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA Samples: 获取设备属性信息 的相关文章

  • CUDA Samples: ripple

    以下CUDA sample是分别用C 和CUDA实现的生成的波纹图像 并对其中使用到的CUDA函数进行了解说 code参考了 GPU高性能编程CUDA实战 一书的第五章 各个文件内容如下 funset cpp include funset
  • NVIDIA Video Codec SDK简介

    NVIDIA的Video Codec SDK提供API对视频进行加速编解码 最新发布版本为12 0 支持Windows和Linux平台 可从 https developer nvidia com video codec sdk archiv
  • CUDA Samples: matrix multiplication(C = A * B)

    以下CUDA sample是分别用C 和CUDA实现的两矩阵相乘运算code即C A B CUDA中包含了两种核函数的实现方法 第一种方法来自于CUDA Samples v8 0 0 Simple matrixMul 第二种采用普通的方法实
  • CUDA Samples: Long Vector Add

    以下CUDA sample是分别用C 和CUDA实现的两个非常大的向量相加操作 并对其中使用到的CUDA函数进行了解说 各个文件内容如下 common hpp ifndef FBC CUDA TEST COMMON HPP define F
  • OpenCV中GPU模块(CUDA)函数

    The OpenCV GPU module is a set of classes and functions to utilize GPU computational capabilities It is implemented usin
  • Ubuntu14.04上安装TensorRT 2.1操作步骤

    在Ubuntu14 04 上安装TensorRT2 1有两种方法 1 通过 deb直接安装 2 通过Tar文件安装 这里通过Tar文件安装 安装步骤 1 安装CUDA 8 0 可参考 http blog csdn net fengbingc
  • windows7 64位机上CUDA7.0配置及在VS2010中的简单使用举例

    1 查看本机配置 查看显卡类型是否支持NVIDIA GPU 选中计算机 gt 右键属性 gt 设备管理器 gt 显示适配器 NVIDIA GeForce GT 610 从https developer nvidia com cuda gpu
  • CUDA基础介绍

    一 GPU简介 1985年8月20日ATi公司成立 同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡 1992年4月ATi发布了Mach32图形卡集成了图形加速功能 1998年4月ATi被IDC评选为图形芯片工业的市场领导者
  • Ubuntu下通过CMake文件编译CUDA+OpenCV代码操作步骤

    在 CUDA Test 工程中 CUDA测试代码之前仅支持在Windows10 VS2013编译 今天在Ubuntu 14 04下写了一个CMakeLists txt文件 支持在Linux下也可以通过CMake编译CUDA Test工程 C
  • CUDA Samples: Streams' usage

    以下CUDA sample是分别用C 和CUDA实现的流的使用code 并对其中使用到的CUDA函数进行了解说 code参考了 GPU高性能编程CUDA实战 一书的第十章 各个文件内容如下 funset cpp include funset
  • windows7 64位机上安装配置CUDA7.5(或8.0)+cudnn5.0操作步骤

    按照官网文档 http docs nvidia com cuda cuda installation guide microsoft windows index html axzz4TpI4c8vf 进行安装 在windows7上安装cud
  • Ubuntu16.04上升级NVIDIA显卡驱动及安装CUDA10.0操作步骤

    Ubuntu 16 04上已装有CUDA 8 0 现在想再安装CUDA 10 0 由于已安装的显卡驱动版本396 54不支持CUDA 10 0 因此安装CUDA 10 0之前需要先升级显卡驱动到410及以上版本 可在https docs n
  • GPU及GPU通用计算编程模型简介

    以下内容来自网络总结 NVIDIA公司在1999年发布GeForce256时首先提出GPU 图形处理器 的概念 随后大量复杂的应用需求促使整个产业蓬勃发展至今 GPU英文全称Graphic Processing Unit 中文翻译为 图形处
  • 灰度图像直方图均衡化公式及实现

    图像的直方图 直方图是图像中像素强度分布的图形表达方式 它统计了每一个强度值所具有的像素个数 直方图均衡化 是通过拉伸像素强度分布范围来增强图像对比度的一种方法 是图像处理领域中利用图像直方图对对比度进行调整的方法 均衡化指的是把一个分布
  • CUDA Samples: image normalize(mean/standard deviation)

    以下CUDA sample是分别用C 和CUDA实现的通过均值和标准差对图像进行类似归一化的操作 并对其中使用到的CUDA函数进行了解说 各个文件内容如下 关于均值和标准差的计算公式可参考 http blog csdn net fengbi
  • 《GPU高性能编程CUDA实战》中代码整理

    CUDA架构专门为GPU计算设计了一种全新的模块 目的是减轻早期GPU计算中存在的一些限制 而正是这些限制使得之前的GPU在通用计算中没有得到广泛的应用 使用CUDA C来编写代码的前提条件包括 1 支持CUDA的图形处理器 即由NVIDI
  • CUDA Samples:Vector Add

    以下CUDA sample是分别用C 和CUDA实现的两向量相加操作 参考CUDA 8 0中的sample C ProgramData NVIDIA Corporation CUDA Samples v8 0 0 Simple 并对其中使用
  • CUDA Samples: 获取设备属性信息

    通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息 此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异 下面code列出了经常用到的设备信息 include funset hpp in
  • 在Caffe中调用TensorRT提供的MNIST model

    在TensorRT 2 1 2中提供了MNIST的model 这里拿来用Caffe的代码调用实现 原始的mnist mean binaryproto文件调整为了纯二进制文件mnist tensorrt mean binary 测试结果与使用
  • TensorRT Samples: GoogleNet

    关于TensorRT的介绍可以参考 http blog csdn net fengbingchun article details 78469551 以下是参考TensorRT 2 1 2中的sampleGoogleNet cpp文件改写的

随机推荐

  • Visual Studio Code中英文的切换

    我在学习 Flutter 的时候 使用过 VsCode 来开发 一般来说 安装好的 VsCode 都是英文版的 有些人可能不太习惯用英文版的 不过没有关系 我在这里提供中英文切换的方法给大家 切换为中文 1 点击 1 中的选项 在 2 中的
  • java栈溢出现象_JVM源码分析之栈溢出完全解读

    概述 之所以想写这篇文章 其实是因为最近有不少系统出现了栈溢出导致进程crash的问题 并且很隐蔽 根本原因还得借助coredump才能分析出来 于是想从JVM实现的角度来全面分析下栈溢出的这类问题 或许你碰到过如下的场景 日志里出现了St
  • python uiautomator2 init 作用

    目录 背景 具体步骤 总结 背景 在搭建Python的自动化测试环境时 执行脚本一直报错 ions GatewayError Uiautomator started failed
  • (Linux)docker容器安装Kibana--简单安装

    docker容器安装Kibana docker容器安装Kibana 启动Kibana docker容器安装Kibana 使用docker命令安装Kibana容器 sudo docker pull kibana 7 4 2 等待下载安装完成
  • matlab 2022更新

    matlab 2022b dictionary 对象 将唯一键映射到值以便快速查找 深度学习工具箱 直接导入 PyTorch 模型 将模型导出到 TensorFlow Simulink 将库浏览器停靠在模型中 MATLAB NET 引擎 A
  • Bootstrap JavaScript插件:警告信息 (alert.js)

    作者 WangMin 格言 努力做好自己喜欢的每一件事 CSDN原创文章 博客地址 WangMin 警告框插件 alert js 为警告框组件一个关闭功能 就是点击警告框的关闭按钮 可以让警告框消失 并将它从 DOM 中删除 使用方法 1
  • SpringBoot+ActiveMQ-点对点队列模式(消费端)

    ActiveMQ消息中间件的点对点模式point to point 消息队列 生产端案例 配合消费端测试 SpringBoot ActiveMQ生产端 ActiveMQ版本 apache activemq 5 16 5 SpringBoot
  • C#基础教程

    我的第一个 C 程序 Console WriteLine Hello World Console ReadKey 编写 Console Readkey 这个函数是为了在控制台窗口停留一下 直到敲击键盘为止 不然运行时 Hello World
  • 树莓派开机启动终端运行方法

    在路径 home pi config autostart 下建立一个文本文本 并以后缀名 desktop 结尾 根据是否需要显示终端 写入下面两段内容之一 显示终端启动 Desktop Entry Name testboot Icon ut
  • 基于SpringBoot的校园请假管理系统

    全网粉丝20W csdn特邀作者 博客专家 CSDN新星计划导师 java领域优质创作者 博客之星 掘金 华为云 阿里云 InfoQ等平台优质作者 专注于Java技术领域和毕业项目实战 文末获取项目下载方式 一 项目背景介绍 校园请假信息管
  • ruoyi若依获取当前登录用户以及用户信息

    this store state user 登录成功 有token情况下 直接打印这个
  • matlab knn回归,(25条消息)KNN算法matlab函数 ClassificationKNN.fit

    mdl ClassificationKNN fit X Y 基于特征和分类标签返回分类模型 X 每行表示一个特征向量 每列表示特征向量中一个变量 Y 每行代表的是X中特征向量说代表的标签或种类 mdl ClassificationKNN f
  • 关于用vector管理CImage时遇到的坑

    假设有一个类A 里面有一个CImage 如果用vector储存 erase前面的元素后 后面的CImage就无法使用 会报ATLASSERT hBitmap m hBitmap 检查失败 struct A CImage img int tm
  • YoloV8改进策略:将CIoU替换成Wise-IoU,幸福涨点,值得拥有,还支持EIoU、GIoU、DIoU、SIoU无缝替换。

    文章目录 摘要 Wise IoU 论文翻译 摘要 简介 A ln norm损失 B 交集 并集 C 聚焦机制 相关工作 A BBR的损失函数 B 带FM的损失函数 方法 仿真实验 B 梯度消失问题的解决方法 C 提出的方法 实验 A 实验设
  • 乐观锁和悲观锁

    在学习Java时 我们常常会听到乐观锁和悲观锁 那么什么是乐观锁 什么是悲观锁呢 我们先来看一下如下情况 乐观锁就是先更新再检验 而悲观锁就是先进行保护然后再修改 为什么要保护 什么是保护 我们设想如下情况 A 100 现在有两个线程T1和
  • python wow自动打怪脚本官方教程_【按键精灵】魔兽世界LR 自动打怪脚本

    Hwnd Plugin Window Find 0 魔兽世界 设置换视角标志1 刚切换视角 0否 UserVar Flag1 0 Rem 开始 按Tab寻找目标 Call Plugin Bkgnd KeyPress Hwnd 9 Delay
  • (5)项目中DTO代替@Transient使用

    Transient 实体类字段上 此实体类和数据库表对应 某实体类对象字段要返回给前端 数据库里面没有 查询忽视数据库里面对应的字段 上面这种方法很乱也不见得好 使用DTO对象在每层数据中传输
  • Python连接MySQL

    Python连接MySQL可以使用多种库 比如pymysql mysql connector python PyMySQL等 这里以pymysql为例 介绍Python连接MySQL的基本操作 1 安装pymysql库 pip instal
  • 《ReactNative系列讲义》进阶篇---05.FlatList(二)

    版权声明 本文为博主原创文章 未经博主允许不得转载 一 简介 上篇文章中我们了解到了FlatList组件的基本用法 其实FlatList还有很多丰富的功能 可实现更多更灵活的业务需求 接下来让我们一起来看看吧 二 基础知识 支持单独的头部文
  • CUDA Samples: 获取设备属性信息

    通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息 此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异 下面code列出了经常用到的设备信息 include funset hpp in