CUDA Samples: 获取设备属性信息

2023-11-17

通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息，此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异，下面code列出了经常用到的设备信息：

#include "funset.hpp"
#include <iostream>
#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")
#include <device_launch_parameters.h>

/* reference:
	C:\ProgramData\NVIDIA Corporation\CUDA Samples\v8.0\1_Utilities\deviceQuery
*/ 
int get_device_info()
{
	int device_count{ 0 };
	// cudaGetDeviceCount: 获得计算能力设备的数量
	cudaGetDeviceCount(&device_count);
	fprintf(stdout, "GPU设备的数量： %d\n", device_count);

	for (int dev = 0; dev < device_count; ++dev) {
		int driver_version{ 0 }, runtime_version{ 0 };

		/* cudaSetDevice: 设置GPU执行时使用的设备，0表示能搜索到的第一
		个设备号，如果有多个设备，则编号为0,1,2... */
		cudaSetDevice(dev);

		/* cudaDeviceProp: 设备属性结构体
		name: 设备名字，如GeForce 940MX
		totalGlobalMem： 设备上可用的全局内存总量(字节)
		sharedMemPerBlock: 每一个线程块上可用的共享内存总量(字节)
		regsPerBlock: 每一个线程块上可用的32位寄存器数量
		warpSize： 一个线程束包含的线程数量，在实际运行中，线程块会被分割成更小的线程束(warp)，
		           线程束中的每个线程都将在不同数据上执行相同的命令
		memPitch: 在内存拷贝中允许的最大pitch数(字节)
		maxThreadsPerBlock: 每一个线程块中支持的最大线程数量
		maxThreadsDim[3]: 每一个线程块的每个维度的最大大小(x,y,z)
		maxGridSize: 每一个线程格的每个维度的最大大小(x,y,z)
		clockRate： GPU最大时钟频率(千赫兹)
		totalConstMem: 设备上可用的常量内存总量(字节)
		major: 设备计算能力主版本号，设备计算能力的版本描述了一种GPU对CUDA功能的支持程度
		minor: 设备计算能力次版本号
		textureAlignment: 纹理对齐要求
		deviceOverlap: GPU是否支持设备重叠(Device Overlap)功能,支持设备重叠功能的GPU能够
		               在执行一个CUDA C核函数的同时，还能在设备与主机之间执行复制等操作,
			       已废弃，使用asyncEngineCount代替
		multiProcessorCount: 设备上多处理器的数量
		kernelExecTimeoutEnabled: 指定执行核函数时是否有运行时间限制
		integrated: 设备是否是一个集成GPU
		canMapHostMemory: 设备是否支持映射主机内存，可作为是否支持零拷贝内存的判断条件
		computeMode: CUDA设备计算模式，可参考cudaComputeMode
		maxTexture1D: 一维纹理支持的最大大小
		maxTexture2D[2]：二维纹理支持的最大大小(x,y)
		maxTexture3D[3]: 三维纹理支持的最大大小(x,y,z)
		memoryClockRate: 内存时钟频率峰值(千赫兹)
		memoryBusWidth: 全局内存总线宽度(bits)
		l2CacheSize: L2缓存大小(字节)
		maxThreadsPerMultiProcessor： 每个多处理器支持的最大线程数量
		concurrentKernels: 设备是否支持同时执行多个核函数
		asyncEngineCount: 异步引擎数量
		unifiedAddressing: 是否支持设备与主机共享一个统一的地址空间
		*/
		cudaDeviceProp device_prop;
		/* cudaGetDeviceProperties: 获取指定的GPU设备属性相关信息 */
		cudaGetDeviceProperties(&device_prop, dev);

		fprintf(stdout, "\n设备 %d 名字: %s\n", dev, device_prop.name);

		/* cudaDriverGetVersion: 获取CUDA驱动版本 */
		cudaDriverGetVersion(&driver_version);
		fprintf(stdout, "CUDA驱动版本： %d.%d\n", driver_version/1000, (driver_version%1000)/10);
		/* cudaRuntimeGetVersion: 获取CUDA运行时版本 */
		cudaRuntimeGetVersion(&runtime_version);
		fprintf(stdout, "CUDA运行时版本： %d.%d\n", runtime_version/1000, (runtime_version%1000)/10);

		fprintf(stdout, "设备计算能力： %d.%d\n", device_prop.major, device_prop.minor);
		fprintf(stdout, "设备上可用的全局内存总量： %f MB, %llu bytes\n",
			(float)device_prop.totalGlobalMem / (1024 * 1024), (unsigned long long)device_prop.totalGlobalMem);
		fprintf(stdout, "每一个线程块上可用的共享内存总量： %f KB, %lu bytes\n",
			(float)device_prop.sharedMemPerBlock / 1024, device_prop.sharedMemPerBlock);
		fprintf(stdout, "每一个线程块上可用的32位寄存器数量: %d\n", device_prop.regsPerBlock);
		fprintf(stdout, "一个线程束包含的线程数量： %d\n", device_prop.warpSize);
		fprintf(stdout, "在内存拷贝中允许的最大pitch数: %d bytes\n", device_prop.memPitch);
		fprintf(stdout, "每一个线程块中支持的最大线程数量: %d\n", device_prop.maxThreadsPerBlock);
		fprintf(stdout, "每一个线程块的每个维度的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxThreadsDim[0], device_prop.maxThreadsDim[1], device_prop.maxThreadsDim[2]);
		fprintf(stdout, "每一个线程格的每个维度的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxGridSize[0], device_prop.maxGridSize[1], device_prop.maxGridSize[2]);
		fprintf(stdout, "GPU最大时钟频率: %.0f MHz (%0.2f GHz)\n",
			device_prop.clockRate*1e-3f, device_prop.clockRate*1e-6f);
		fprintf(stdout, "设备上可用的常量内存总量: %lu bytes\n", device_prop.totalConstMem);
		fprintf(stdout, "纹理对齐要求: %lu bytes\n", device_prop.textureAlignment);
		fprintf(stdout, "是否支持设备重叠功能: %s\n", device_prop.deviceOverlap ? "Yes" : "No");
		fprintf(stdout, "设备上多处理器的数量: %d\n", device_prop.multiProcessorCount);
		fprintf(stdout, "执行核函数时是否有运行时间限制: %s\n", device_prop.kernelExecTimeoutEnabled ? "Yes" : "No");
		fprintf(stdout, "设备是否是一个集成GPU: %s\n", device_prop.integrated ? "Yes" : "No");
		fprintf(stdout, "设备是否支持映射主机内存: %s\n", device_prop.canMapHostMemory ? "Yes" : "No");
		fprintf(stdout, "CUDA设备计算模式: %d\n", device_prop.computeMode);
		fprintf(stdout, "一维纹理支持的最大大小: %d\n", device_prop.maxTexture1D);
		fprintf(stdout, "二维纹理支持的最大大小(x,y): (%d, %d)\n", device_prop.maxTexture2D[0], device_prop.maxSurface2D[1]);
		fprintf(stdout, "三维纹理支持的最大大小(x,y,z): (%d, %d, %d)\n",
			device_prop.maxTexture3D[0], device_prop.maxSurface3D[1], device_prop.maxSurface3D[2]);
		fprintf(stdout, "内存时钟频率峰值: %.0f Mhz\n", device_prop.memoryClockRate * 1e-3f);
		fprintf(stdout, "全局内存总线宽度: %d bits\n", device_prop.memoryBusWidth);
		fprintf(stdout, "L2缓存大小: %d bytes\n", device_prop.l2CacheSize);
		fprintf(stdout, "每个多处理器支持的最大线程数量: %d\n", device_prop.maxThreadsPerMultiProcessor);
		fprintf(stdout, "设备是否支持同时执行多个核函数: %s\n", device_prop.concurrentKernels ? "Yes" : "No");
		fprintf(stdout, "异步引擎数量: %d\n", device_prop.asyncEngineCount);
		fprintf(stdout, "是否支持设备与主机共享一个统一的地址空间: %s\n", device_prop.unifiedAddressing ? "Yes" : "No");
	}

	return 0;
}

执行结果如下：

GitHub：https://github.com/fengbingchun/CUDA_Test

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDATensorRT

CUDA Samples: 获取设备属性信息的相关文章

CUDA Samples: ripple

以下CUDA sample是分别用C 和CUDA实现的生成的波纹图像并对其中使用到的CUDA函数进行了解说 code参考了 GPU高性能编程CUDA实战一书的第五章各个文件内容如下 funset cpp include funset
NVIDIA Video Codec SDK简介

NVIDIA的Video Codec SDK提供API对视频进行加速编解码最新发布版本为12 0 支持Windows和Linux平台可从 https developer nvidia com video codec sdk archiv
CUDA Samples: matrix multiplication(C = A * B)

以下CUDA sample是分别用C 和CUDA实现的两矩阵相乘运算code即C A B CUDA中包含了两种核函数的实现方法第一种方法来自于CUDA Samples v8 0 0 Simple matrixMul 第二种采用普通的方法实
CUDA Samples: Long Vector Add

以下CUDA sample是分别用C 和CUDA实现的两个非常大的向量相加操作并对其中使用到的CUDA函数进行了解说各个文件内容如下 common hpp ifndef FBC CUDA TEST COMMON HPP define F
OpenCV中GPU模块(CUDA)函数

The OpenCV GPU module is a set of classes and functions to utilize GPU computational capabilities It is implemented usin
Ubuntu14.04上安装TensorRT 2.1操作步骤

在Ubuntu14 04 上安装TensorRT2 1有两种方法 1 通过 deb直接安装 2 通过Tar文件安装这里通过Tar文件安装安装步骤 1 安装CUDA 8 0 可参考 http blog csdn net fengbingc
windows7 64位机上CUDA7.0配置及在VS2010中的简单使用举例

1 查看本机配置查看显卡类型是否支持NVIDIA GPU 选中计算机 gt 右键属性 gt 设备管理器 gt 显示适配器 NVIDIA GeForce GT 610 从https developer nvidia com cuda gpu
CUDA基础介绍

一 GPU简介 1985年8月20日ATi公司成立同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡 1992年4月ATi发布了Mach32图形卡集成了图形加速功能 1998年4月ATi被IDC评选为图形芯片工业的市场领导者
Ubuntu下通过CMake文件编译CUDA+OpenCV代码操作步骤

在 CUDA Test 工程中 CUDA测试代码之前仅支持在Windows10 VS2013编译今天在Ubuntu 14 04下写了一个CMakeLists txt文件支持在Linux下也可以通过CMake编译CUDA Test工程 C
CUDA Samples: Streams' usage

以下CUDA sample是分别用C 和CUDA实现的流的使用code 并对其中使用到的CUDA函数进行了解说 code参考了 GPU高性能编程CUDA实战一书的第十章各个文件内容如下 funset cpp include funset
windows7 64位机上安装配置CUDA7.5(或8.0)+cudnn5.0操作步骤

按照官网文档 http docs nvidia com cuda cuda installation guide microsoft windows index html axzz4TpI4c8vf 进行安装在windows7上安装cud
Ubuntu16.04上升级NVIDIA显卡驱动及安装CUDA10.0操作步骤

Ubuntu 16 04上已装有CUDA 8 0 现在想再安装CUDA 10 0 由于已安装的显卡驱动版本396 54不支持CUDA 10 0 因此安装CUDA 10 0之前需要先升级显卡驱动到410及以上版本可在https docs n
GPU及GPU通用计算编程模型简介

以下内容来自网络总结 NVIDIA公司在1999年发布GeForce256时首先提出GPU 图形处理器的概念随后大量复杂的应用需求促使整个产业蓬勃发展至今 GPU英文全称Graphic Processing Unit 中文翻译为图形处
灰度图像直方图均衡化公式及实现

图像的直方图直方图是图像中像素强度分布的图形表达方式它统计了每一个强度值所具有的像素个数直方图均衡化是通过拉伸像素强度分布范围来增强图像对比度的一种方法是图像处理领域中利用图像直方图对对比度进行调整的方法均衡化指的是把一个分布
CUDA Samples: image normalize(mean/standard deviation)

以下CUDA sample是分别用C 和CUDA实现的通过均值和标准差对图像进行类似归一化的操作并对其中使用到的CUDA函数进行了解说各个文件内容如下关于均值和标准差的计算公式可参考 http blog csdn net fengbi
《GPU高性能编程CUDA实战》中代码整理

CUDA架构专门为GPU计算设计了一种全新的模块目的是减轻早期GPU计算中存在的一些限制而正是这些限制使得之前的GPU在通用计算中没有得到广泛的应用使用CUDA C来编写代码的前提条件包括 1 支持CUDA的图形处理器即由NVIDI
CUDA Samples：Vector Add

以下CUDA sample是分别用C 和CUDA实现的两向量相加操作参考CUDA 8 0中的sample C ProgramData NVIDIA Corporation CUDA Samples v8 0 0 Simple 并对其中使用
CUDA Samples: 获取设备属性信息

通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异下面code列出了经常用到的设备信息 include funset hpp in
在Caffe中调用TensorRT提供的MNIST model

在TensorRT 2 1 2中提供了MNIST的model 这里拿来用Caffe的代码调用实现原始的mnist mean binaryproto文件调整为了纯二进制文件mnist tensorrt mean binary 测试结果与使用
TensorRT Samples: GoogleNet

关于TensorRT的介绍可以参考 http blog csdn net fengbingchun article details 78469551 以下是参考TensorRT 2 1 2中的sampleGoogleNet cpp文件改写的

随机推荐

Visual Studio Code中英文的切换

我在学习 Flutter 的时候使用过 VsCode 来开发一般来说安装好的 VsCode 都是英文版的有些人可能不太习惯用英文版的不过没有关系我在这里提供中英文切换的方法给大家切换为中文 1 点击 1 中的选项在 2 中的
java栈溢出现象_JVM源码分析之栈溢出完全解读

概述之所以想写这篇文章其实是因为最近有不少系统出现了栈溢出导致进程crash的问题并且很隐蔽根本原因还得借助coredump才能分析出来于是想从JVM实现的角度来全面分析下栈溢出的这类问题或许你碰到过如下的场景日志里出现了St
python uiautomator2 init 作用

目录背景具体步骤总结背景在搭建Python的自动化测试环境时执行脚本一直报错 ions GatewayError Uiautomator started failed
(Linux)docker容器安装Kibana--简单安装

docker容器安装Kibana docker容器安装Kibana 启动Kibana docker容器安装Kibana 使用docker命令安装Kibana容器 sudo docker pull kibana 7 4 2 等待下载安装完成
matlab 2022更新

matlab 2022b dictionary 对象将唯一键映射到值以便快速查找深度学习工具箱直接导入 PyTorch 模型将模型导出到 TensorFlow Simulink 将库浏览器停靠在模型中 MATLAB NET 引擎 A
Bootstrap JavaScript插件：警告信息 (alert.js)

作者 WangMin 格言努力做好自己喜欢的每一件事 CSDN原创文章博客地址 WangMin 警告框插件 alert js 为警告框组件一个关闭功能就是点击警告框的关闭按钮可以让警告框消失并将它从 DOM 中删除使用方法 1
SpringBoot+ActiveMQ-点对点队列模式（消费端）

ActiveMQ消息中间件的点对点模式point to point 消息队列生产端案例配合消费端测试 SpringBoot ActiveMQ生产端 ActiveMQ版本 apache activemq 5 16 5 SpringBoot
C#基础教程

我的第一个 C 程序 Console WriteLine Hello World Console ReadKey 编写 Console Readkey 这个函数是为了在控制台窗口停留一下直到敲击键盘为止不然运行时 Hello World
树莓派开机启动终端运行方法

在路径 home pi config autostart 下建立一个文本文本并以后缀名 desktop 结尾根据是否需要显示终端写入下面两段内容之一显示终端启动 Desktop Entry Name testboot Icon ut
基于SpringBoot的校园请假管理系统

全网粉丝20W csdn特邀作者博客专家 CSDN新星计划导师 java领域优质创作者博客之星掘金华为云阿里云 InfoQ等平台优质作者专注于Java技术领域和毕业项目实战文末获取项目下载方式一项目背景介绍校园请假信息管
ruoyi若依获取当前登录用户以及用户信息

this store state user 登录成功有token情况下直接打印这个
matlab knn回归,(25条消息)KNN算法matlab函数 ClassificationKNN.fit

mdl ClassificationKNN fit X Y 基于特征和分类标签返回分类模型 X 每行表示一个特征向量每列表示特征向量中一个变量 Y 每行代表的是X中特征向量说代表的标签或种类 mdl ClassificationKNN f
关于用vector管理CImage时遇到的坑

假设有一个类A 里面有一个CImage 如果用vector储存 erase前面的元素后后面的CImage就无法使用会报ATLASSERT hBitmap m hBitmap 检查失败 struct A CImage img int tm
YoloV8改进策略：将CIoU替换成Wise-IoU，幸福涨点，值得拥有，还支持EIoU、GIoU、DIoU、SIoU无缝替换。

文章目录摘要 Wise IoU 论文翻译摘要简介 A ln norm损失 B 交集并集 C 聚焦机制相关工作 A BBR的损失函数 B 带FM的损失函数方法仿真实验 B 梯度消失问题的解决方法 C 提出的方法实验 A 实验设
乐观锁和悲观锁

在学习Java时我们常常会听到乐观锁和悲观锁那么什么是乐观锁什么是悲观锁呢我们先来看一下如下情况乐观锁就是先更新再检验而悲观锁就是先进行保护然后再修改为什么要保护什么是保护我们设想如下情况 A 100 现在有两个线程T1和
python wow自动打怪脚本官方教程_【按键精灵】魔兽世界LR 自动打怪脚本

Hwnd Plugin Window Find 0 魔兽世界设置换视角标志1 刚切换视角 0否 UserVar Flag1 0 Rem 开始按Tab寻找目标 Call Plugin Bkgnd KeyPress Hwnd 9 Delay
（5）项目中DTO代替@Transient使用

Transient 实体类字段上此实体类和数据库表对应某实体类对象字段要返回给前端数据库里面没有查询忽视数据库里面对应的字段上面这种方法很乱也不见得好使用DTO对象在每层数据中传输
Python连接MySQL

Python连接MySQL可以使用多种库比如pymysql mysql connector python PyMySQL等这里以pymysql为例介绍Python连接MySQL的基本操作 1 安装pymysql库 pip instal
《ReactNative系列讲义》进阶篇---05.FlatList（二）

版权声明本文为博主原创文章未经博主允许不得转载一简介上篇文章中我们了解到了FlatList组件的基本用法其实FlatList还有很多丰富的功能可实现更多更灵活的业务需求接下来让我们一起来看看吧二基础知识支持单独的头部文
CUDA Samples: 获取设备属性信息

通过调用CUDA的cudaGetDeviceProperties函数可以获得指定设备的相关信息此函数会根据GPU显卡和CUDA版本的不同得到的结果也有所差异下面code列出了经常用到的设备信息 include funset hpp in

CUDA Samples: 获取设备属性信息

CUDA Samples: 获取设备属性信息 的相关文章

随机推荐

热门标签

CUDA Samples: 获取设备属性信息的相关文章