CUDA 确定每个块的线程、每个网格的块

2024-02-11

我是 CUDA 范式的新手。我的问题是确定每个块的线程数和每个网格的块数。这是否需要一些艺术和尝试？我发现许多例子似乎为这些事情选择了任意的数字。

我正在考虑一个问题，我可以将任意大小的矩阵传递给乘法方法。这样，C 的每个元素（如 C = A * B）将由单个线程计算。在这种情况下，您如何确定线程/块、块/网格？

一般来说，您希望调整块/网格的大小以匹配您的数据，并同时最大化占用率，即一次有多少个线程处于活动状态。影响占用的主要因素是共享内存使用、寄存器使用和线程块大小。

支持 CUDA 的 GPU 的处理能力分为 SM（流式多处理器），SM 的数量取决于实际的卡，但为了简单起见，这里我们将重点关注单个 SM（它们的行为都相同）。每个 SM 都有有限数量的 32 位寄存器、共享内存、最大数量的活动块以及最大数量的活动线程。这些数字取决于 GPU 的 CC（计算能力），可以在维基百科文章的中间找到http://en.wikipedia.org/wiki/CUDA http://en.wikipedia.org/wiki/CUDA.

首先，线程块大小应始终是 32 的倍数，因为内核在 warp 中发出指令（32 个线程）。例如，如果您的块大小为 50 个线程，GPU 仍将向 64 个线程发出命令，而您只是在浪费它们。

其次，在担心共享内存和寄存器之前，请尝试根据与卡的计算能力相对应的最大线程和块数来确定块的大小。有时有多种方法可以做到这一点...例如，CC 3.0 卡的每个 SM 可以有 16 个活动块和 2048 个活动线程。这意味着，如果每个块有 128 个线程，则在达到 2048 个线程限制之前，您可以在 SM 中容纳 16 个块。如果您使用 256 个线程，则只能容纳 8 个线程，但您仍然使用所有可用线程，并且仍然会完全占用。然而，当达到 16 个块限制时，每个块使用 64 个线程将仅使用 1024 个线程，因此只有 50% 的占用率。如果共享内存和寄存器使用不是瓶颈，那么这应该是您主要关心的问题（而不是数据维度）。

关于网格的主题...网格中的块分布在 SM 上以开始，然后剩余的块被放入管道中。一旦SM中有足够的资源来获取块，块就会被移入SM进行处理。换句话说，当 SM 中的块完成时，新的块就会被移入。您可以提出这样的论点：较小的块（上一个示例中的 128 个而不是 256 个）可能会更快完成，因为特别慢的块会占用更少的资源，但是这很大程度上取决于代码。

关于寄存器和共享内存，请查看接下来的内容，因为它可能会限制您的占用。共享内存对于整个 SM 来说是有限的，因此请尝试以允许尽可能多的块仍然适合 SM 的数量来使用它。寄存器的使用也是如此。同样，这些数字取决于计算能力，可以在维基百科页面上找到表格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA 确定每个块的线程、每个网格的块的相关文章

CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
如何用Go语言的cgo编译Cuda源码？

我用 cuda c 编写了一个简单的程序它可以在 eclipse nsight 上运行这是源代码 include
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
旋转相机与旋转场景点（仅该点，而不是整个场景）之间有什么不同？

我认为旋转相机并拍摄场景照片与保持相机稳定并反向旋转场景会产生相同的结果假设原始相机旋转矩阵为R1 旋转相机意味着我们应用另一个旋转矩阵 R12 因此 R2 R12 R1 是新的旋转矩阵假设X是场景点的真实世界坐标以反向方式旋转场景点
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

随机推荐

Java Spring REST API CORS 不适用于 Chrome 中通过 jQuery 的 DELETE 请求

我正在创建一个使用 jQuery 编写的 Web 前端它将 REST 请求发送到使用 Spring 框架用 Java 编写的 REST Web 服务我遇到了 CORS 请求的奇怪错误特别是如果我使用 Safari 则一切正常相反
我们如何访问堆栈变量而不弹出它们？

据我所知 C 中有两种变量栈变量和堆变量堆栈变量速度很快并由编译器和 CPU 自动管理我关于堆栈变量的问题是堆栈变量真的存储在堆栈 FILO 数据结构中吗如果是这样为什么我们可以使用它们而不弹出它们并丢失它们的值为什么要用栈
DidSelectRow 方法由于 tapGestureRecognizer 而被禁用

我正在 swift 3 0 中开发一个项目我有 UIViewController 来填充一些文本字段因此我使用表视图作为下拉菜单一旦选择一行它将被分配给 UILabel 此外我还添加了 UITapGuestureRecogniz
获取数组中第一个条目的指针

我想获取数组中第一个条目的指针这就是我尝试的方法 int Results 1 2 3 4 5 unsafe int FirstResult Results 0 得到以下编译错误有什么想法如何修复它吗您只能获取 a 中不固定表达式的地址
DebugBreak 不中断

我正在用 C 编写一个类但无法使用 F5 进行调试该代码将从另一个调用它的服务运行过去我用过 debugbreak 当我看到一个窗口告诉我抛出异常时选择对其进行调试最近我更新到了Windows 7 它一直工作了一段时间今天
Android 8.0 中的 HTTP Volley 标头

自从 Android 8 0 发布以来我遇到了授权标头的问题还有其他方法可以将标头添加到 Volley 请求中吗这在最新的 Android 版本上无法正常工作 override public Map
嘲笑日延长

在我需要测试的代码中我使用 import dayjs from dayjs import utc from dayjs plugin utc dayjs extend utc dayjs add 15 minute 在我的测试中我需要模拟
从另一个线程在主线程上运行方法

我的模型类必须从互联网获取一些数据所以我决定在另一个线程上运行它这样用户界面就不会冻结因此当一个对象需要一些数据时它首先使用这种类型的方法询问模型 void giveMeSomeData id object withLabel i
Spring Security：在 servlet Filter 内访问当前经过身份验证的用户

我最近开始学习 Spring Security 今天我解决了这个基本的我相信问题为什么我不能访问 Servlet Filter 内的当前主体如下面的类所示 package com acme test import java io I
错误：stdClass 类的对象无法转换为字符串

当我运行下面的代码时 id Input get branch id retailer code DB table branches gt select retailer code gt where id id gt first user n
Azure 上的 Web Api 使用“return InternalServerError(ex)”不显示错误详细信息

我的 Web Api 在本地运行时在发布模式下将返回以下格式的任何错误 Message An error has occurred ExceptionMessage No text specified ExceptionType Sys
如何在 PrimeFaces 中的 CommandButton 上定义带有闭包的 oncomplete 事件？

我正在使用一些 JavaScript 交互性扩展 PrimeFaces 应用程序的一部分一切都始于CommandButton它从 bean 获取一些数据并调用 JavaScript 目前它看起来像这样
如何显示xml文件中的视频？

您好我使用下面给出的 xml 文件如何从 xml 文件获取视频
使用CMD在Mysql中导入压缩文件

我正在尝试使用命令提示符将压缩数据库文件导入 Mysql 使用以下命令 7z lt backup sql 7z mysql u root test The root user don t有什么password与之相关 test是我的目标空白
WinForm应用程序数据持久化（C#）

我相信 ASP NET 应用程序中可变短期持久性的最佳方法是会话变量会话范围应用变量应用范围页面视图页面范围应用设置应用范围 Windows 窗体应用程序中可变短期持久性的最佳方法是什么表格范围用户会话范围应用
如何将数据转换为非等列？

我有一个事件数据集按以下分组let像这样 set seed 3 events lt data frame let rep LETTERS 1 2 each 3 age c 0 sample 1 20 size 2 0 sample 1 2
使用 boost 的 async_write 的异步 tcp 服务器会导致错误的文件描述符

首先我不是以英语为母语的人所以我可能会犯一些语法错误对此感到抱歉我正在尝试使用 C 和 Boost 创建一个异步 TCP 服务器我已经成功接受客户并收到他们的消息但我无法回复他们的消息我想要实现的是在 TCPServer 类上
从 Xamarin / C# 中的 URL 加载 UIImage

已经过去4年了这个问题 https stackoverflow com questions 2095635 load an image from a url已得到答复这篇博文 http escoz com blog displaying w
使用 PHP 从 Microsoft Teams 自定义机器人验证 HMAC

我正在尝试使用 PHP 验证 Microsoft Teams 自定义机器人遵循 Microsoft指示 https learn microsoft com en us microsoftteams platform concepts cu
CUDA 确定每个块的线程、每个网格的块

我是 CUDA 范式的新手我的问题是确定每个块的线程数和每个网格的块数这是否需要一些艺术和尝试我发现许多例子似乎为这些事情选择了任意的数字我正在考虑一个问题我可以将任意大小的矩阵传递给乘法方法这样 C 的每个元素如 C A B

CUDA 确定每个块的线程、每个网格的块

CUDA 确定每个块的线程、每个网格的块 的相关文章

随机推荐

热门标签

CUDA 确定每个块的线程、每个网格的块的相关文章