CUDA：如何检查计算能力是否正确？

2024-04-09

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间，然后有一天在某些内核中默默地失败。我花了半天时间追寻一个难以捉摸的错误，结果发现构建规则已经sm_21而该设备（Tesla C2050）是2.0.

是否有任何我可以添加的 CUDA API 代码可以自我检查它是否在具有兼容计算能力的设备上运行？我需要编译和使用具有许多计算能力的设备。我可以采取任何其他措施来确保不会发生此类错误吗？

在运行时 API 中，cuda获取设备属性 http://www.clear.rice.edu/comp422/resources/cuda/html/group__CUDART__DEVICE_g5aa4f47938af8276f08074d09b7d520c.html返回两个字段major and minor它返回任何给定的枚举 CUDA 设备的计算能力。您可以使用它来解析任何 GPU 的计算能力，然后在其上建立上下文，以确保它是适合您的代码执行的架构。nvcc可以使用以下命令从单次调用生成包含多个体系结构的目标文件-gencode选项，例如：

nvcc -c -gencode arch=compute_20,code=sm_20  \
        -gencode arch=compute_13,code=sm_13  \
        source.cu

将生成一个带有嵌入式 fatbinary 对象的输出对象文件，其中包含 GT200 和 GF100 卡的 cubin 文件。运行时 API 将自动处理架构检测，并尝试从 fatbinary 对象加载合适的设备代码，而无需任何额外的主机代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA：如何检查计算能力是否正确？的相关文章

Valgrind 和 CUDA：报告的泄漏是真的吗？

我的应用程序中有一个非常简单的 CUDA 组件 Valgrind 报告了大量泄漏和仍然可达的情况所有这些都与 cudaMalloc 调用有关这些泄露是真的吗我打电话cudaFree对于每一个cudaMalloc 这是 valgrind
CUDA 标量和 SIMD 视频指令的效率

SIMD指令的吞吐量低于32位整数运算如果是 SM2 0 仅标量指令版本则低 2 倍如果是 SM3 0 则低 6 倍什么情况下适合使用它们如果您的数据已经以 SIMD 视频指令本机处理的格式打包则需要多个步骤对其进行解包以便可
CUDA：同步线程

几乎在我读到的有关 CUDA 编程的任何地方都提到了 warp 中的所有线程都执行相同操作的重要性在我的代码中我遇到了无法避免某种条件的情况它看起来像这样 some math code calculating d1 d2 if d1
如何在arch linux中降级到cuda 10.0？

我想在 arch linux 中将我的 cuda 10 1 降级到 cuda 10 0 因为 TensorFlow 仅需要 cuda 10 0 我在 arch Linux 的 CUDA 10 1 上安装了tensorflow 但我不知道te
如何使用 eclipse Nsight 仅使用一个 GPU 调试 CUDA

我收到错误所有 cuda 设备均用于显示在调试时无法使用使用Ubuntu 有没有什么方法可以使用 Nsight eclipse 仅使用一个 GPU 进行调试我见过类似的解决方案 sudo 服务 lightdm 停止杀死 X 但这也
GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保
加强托管线程和操作系统线程之间的关系（CUDA 用例）

Problem 我正在尝试创建一个与 net 良好集成的 CUDA 应用程序设计目标是拥有多个可以从托管代码调用的 CUDA 函数数据还应该能够在函数调用之间保留在设备上以便可以将其传递给多个 CUDA 函数重要的是每个单独的数据
优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI

随机推荐

PHP readfile 与 file_get_contents

我使用以下代码来生成 zip push to download the zip header Content type application zip header Content Disposition attachment filena
为什么在 js 取消设置只读标签后，iOS 不显示键盘用于输入？

我有一个UITextField in HTML表单设置为只读输入时 javascript 应测试该字段当前是否正在由其他人编辑如果不是则只读将设置为 false 并允许编辑该字段为此我使用了 onFocus 事件这在 Chrom
带有 Like 语句的 OUTLOOK VBA 过滤器

我想添加一个类似的声明因为我想过滤以以下开头的电子邮件tmeadmin 这段代码与以下内容断线like陈述我如何解决它 Dim objOutlook As Outlook Application Dim objNamespace As
错误：无法确定当前字符，它不是 android 的 React-Native 中的字符串、数字、数组或对象

每当我跑步时反应本机运行 Android在保持模拟器运行时我收到此错误反应本机运行 ios工作完全正常 Error Command failed gradlew app installDebug PreactNativeDevServe
CSS：将背景图像拉伸到屏幕的 100% 宽度和高度？

我有一个名为 myImage jpg 的图像这是我的CSS body background image url images myImage jpg background repeat no repeat background size
Python通过字符串名称导入子模块？

如何使用字符串列表子模块名称来导入当前模块中的子模块当前代码 from mainapp utils import firstutil from mainapp utils import secondutil from mainapp
防止 Google Play 上的虚假评论 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我将 Android 应用程序发布到 Google Play 一切都很好我收到了大约 5000 条用户评论平均分为 4 6 分但在某个时刻我开
如果 URL 参数很长，控制器操作不会调用

仅供参考我的问题不是重复的MVC 3 中的长 url 为 404 20 https stackoverflow com questions 20798392 404 20 for long url in mvc 3所以请不要混淆我有一个
谁在为kafka集群设置授权

我有一个 3 节点 Kafka 集群和 2 个用于生产者和消费者的 kafka 客户端我已启用 SSL 身份验证我想为集群启用授权我已在代理节点的 server properties 中添加了以下属性 authorizer class
检测不同分辨率下的图像相等性

我正在尝试构建一个脚本来浏览我的原始高分辨率照片并替换我在拥有专业帐户之前上传到 Flickr 的旧的低分辨率照片对于其中许多我可以只使用 Exif 信息例如拍摄日期来确定匹配但有些确实很旧要么原始文件没有 Exif 信息要
如何使用java从linux环境获取tomcat中当前目录的相对路径

我想用来从我的网络应用程序外部读取属性文件我在 Windows 环境中的 tomcat 中部署了一个 war 文件并且可以使用以下代码从 Web 应用程序外部读取属性文件 Method 1 String filePath new jav
Android OpenCV 并行化循环

我知道 OpenMP 包含在 NDK 中使用示例如下 http recursify com blog 2013 08 09 openmp on android http recursify com blog 2013 08 09 open
通过转发构造函数参数构建基于可变参数模板的 mixin

我正在尝试构建一个 mixin 模板其基础全部作为可变参数模板参数传递我想通过将每个 mixin 类的构造函数参数作为参数传递给可变参数模板构造函数来构造 mixin 当使用每个 mixin 类类型的对象调用时可变参数模板构造函数会进
在 Objective-C 中观察文件或文件夹

侦听文件夹或文件以查看其是否已保存或是否已添加新文件的最佳方法是什么如果您只想监视目录但不处理单个文件的监视那么 FSEvents API 是理想的选择 Stu Connolly 有一个很棒的 FSEvents C API 的 Obje
如何使用“%f”将双精度值填充到具有正确精度的字符串中

我正在尝试使用 a 来填充带有双精度值的字符串sprintf像这样 sprintf S f val 但精度被截断至小数点后六位我需要大约 10 位小数来保证精度如何才能做到这一点宽度精度宽度应包括小数点 8 2表示8个字符宽点前
UIButton 在 UIScrollView 中时不起作用

我的观点结构 UITableView UITableViewCell UIScrollView CustomView UIButton 问题是当我触摸 UIButton 时它不起作用我用代码创建它 btn UIButton alloc i
继续打开 OpenFileDialog 直到选择有效文件

我有打开 OpenFileDialog 的代码我正在检查文件的大小以确保它不超过特定限制但是如果用户选择了一个大尺寸的文件我需要警告他并引导他返回对话框以选择不同的文件或单击取消这是我尝试过的 OpenFileDialog di
获取 PHP 中动态选择的类常量的值

我希望能够做这样的事情 class ThingIDs const Something 1 const AnotherThing 2 thing Something id ThingIDs thing 这是行不通的有没有一种简单的方法可以做
调试 Windows 消息内容和目标的好方法是什么？

我正在开发一个基于其他行为模拟 Windows 鼠标的应用程序一个示例是按键盘上的或键将 WM MOUSEWHEEL 消息发送到具有适当增量的目标窗口问题是在某些情况下我很难复制那些消息i thinkwindows 正在发送到目
CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何

CUDA：如何检查计算能力是否正确？

CUDA：如何检查计算能力是否正确？ 的相关文章

随机推荐

热门标签

CUDA：如何检查计算能力是否正确？的相关文章