了解 CUDA 网格维度、块维度和线程组织（简单解释）[关闭]

2023-12-04

GPU 如何组织线程来执行？

Hardware

例如，如果 GPU 设备有 4 个多处理单元，并且每个单元可以运行 768 个线程：那么在给定时刻，真正并行运行的线程不会超过 4*768 个（如果您计划了更多线程，它们将等待轮到他们了）。

Software

线程以块的形式组织。块由多处理单元执行。块的线程可以使用 1Dimensions(x)、2Dimensions (x,y) 或 3Dim 索引 (x,y,z) 来标识（索引），但在任何情况下 xy对于我们的示例，z

显然，如果您需要 4*768 以上的线程，则需要 4 个以上的块。块也可以按 1D、2D 或 3D 索引。有一个块队列等待进入 GPU（因为在我们的示例中，GPU 有 4 个多处理器，并且只有 4 个块同时执行）。

现在是一个简单的案例：处理 512x512 图像

假设我们希望一个线程处理一个像素 (i,j)。

我们可以使用每个 64 个线程的块。那么我们需要 512*512/64 = 4096 个块（所以有 512x512 线程 = 4096*64）

通常将线程组织在 blockDim = 8 x 8（每个块 64 个线程）的 2D 块中（以便更轻松地索引图像）。我更喜欢将其称为“threadsPerBlock”。

dim3 threadsPerBlock(8, 8);  // 64 threads

2D gridDim = 64 x 64 块（需要 4096 个块）。我更喜欢称之为 numBlocks。

dim3 numBlocks(imageWidth/threadsPerBlock.x,  /* for instance 512/8 = 64*/
              imageHeight/threadsPerBlock.y);

内核是这样启动的：

myKernel <<<numBlocks,threadsPerBlock>>>( /* params for the kernel function */ );

最后：会有类似“4096 个块的队列”的内容，其中一个块正在等待分配给 GPU 的多处理器之一以执行其 64 个线程。

在内核中，线程要处理的像素 (i,j) 是这样计算的：

uint i = (blockIdx.x * blockDim.x) + threadIdx.x;
uint j = (blockIdx.y * blockDim.y) + threadIdx.y;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

了解 CUDA 网格维度、块维度和线程组织（简单解释）[关闭] 的相关文章

如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the
优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my

随机推荐

将字符向量转换为时间？

我想将以下字符向量转换为时间变量 times lt c 9 9 2015 16 03 13 9 9 2015 17 03 13 9 9 2015 17 56 38 9 9 2015 17 57 29 9 9 2015 19 52 55 9
如何读取 FastCGI 请求的所有输出？

我正在尝试使用 Rust 向 PHP 文件发出请求FastCGI协议感谢以下答案我得到了这段代码我之前的问题 use std os unix net UnixStream use std io Read Write use std st
将 DIV 缩小到换行到其最大宽度的文本？

将 div 收缩包装到某些文本非常简单但是如果文本由于最大宽度例如而换行到第二行或更多行则 DIV 的大小不会缩小到新换行的文本它仍然扩展到断点在本例中为最大宽度值导致 DIV 右侧有相当多的边距当想要将此 DIV 居中
Swift iOS 9 NSURLErrorDomain 错误 -1004

我在 iOS 9 和 iOS 8 上使用 Swift 2 和 Alamofire 在 iOS 8 中我对 API 的所有请求都工作正常在 iOS 9 中它们立即失败并显示 1004 NSURLErrorDomain 并显示消息无法
C#、Html 敏捷性、选择 div 标签内的每个段落

例如如何选择 div 标签中的每个段落 div p Hi p p Help Me Please p p Thankyou p 我已经下载了 Html Agility 并在我的程序中引用我所需要的只是段落可能有不同数量的段落并且有大量
将 jsonb 列值转换为 PostgreSQL 中的多列

假设我在 PostgreSQL 中有一个表其中包含以下列 CREATE TABLE sample id int jsonb jsonb date date 我插入了这两行 INSERT INTO sample id jsonb date
如何使用 json.net 忽略类中的属性（如果为 null）

我在用Json NET将类序列化为 JSON 我有这样的课程 class Test1 JsonProperty id public string ID get set JsonProperty label public string Lab
根据另一列中的行更新列行

我在 R 中有一个数据集如下所示我正在尝试更新描述列中的空单元格以获取值列中的 0 值 Criteria Value Description Success 0 Success 21 look up Success 20 re
Android 检查 LocationManager 的权限

我试图在单击活动布局中的按钮时显示 GPS 坐标以下是单击按钮时调用的方法 public void getLocation View view TextView tv TextView findViewById R id gps coor
std::enable_if 的基本用法存在问题

我正在尝试制作一个简单的模板函数它给出了一些参数它输出它们之间有一个空格其中一些可以是枚举的元素在这种情况下我想输出它的整数值这是我的代码 include
为生产者消费者问题的变体选择数据结构

现在我有一个队列有多个生产者和单个消费者消费者线程操作缓慢此外消费者通过 peek 操作从队列中取出元素并且在消费操作完成之前无法从队列中删除该元素这是因为生产者线程作为辅助操作还会拍摄当时未完全处理的所有元素的快照现在
如何禁用 XPage 的客户端验证？

我知道我可以通过以下方式禁用 xsp properties 中的服务器或应用程序 xsp client validation false 在控制层面通过 disableClientSideValidation true 如果没有为每个控件设
无法联系 pgAdmin 4 服务器：致命错误

我将 PostgreSQL 从 13 3 升级到 13 4 并收到 pgAdmin 4 的致命错误我发现其他类似的问题尝试解决删除文件夹的问题 C Users myusername AppData Roaming pgadmin sess
用类实例替换数组中的元素

这类似于this所以请先阅读它以了解我想要做什么现在我想在有类实例时进行替换例如 import numpy as np class B def init self a b self a a self b b arr np array
从 Sqlite 获取项目并删除重复项目时的无效操作

我想从sqlite数据库中获取项目数据库中有大约6 000个项目有些项目是重复的因此我想在获取项目时删除这些重复信息我使用了以下代码 public async static Task
Mongo通过正则表达式查找：仅返回匹配的字符串

我的应用程序有以下堆栈 Ruby 上的 Sinatra gt MongoMapper gt MongoDB 该应用程序在数据库中放置了多个条目为了交叉链接到其他页面我添加了某种语法例如咖啡是一种由咖啡豆制成的黑色含咖啡因液体茶是
解释 qsort 库中使用的函数的 typedef

我正在使用 qsort 库函数对结构元素数组进行排序在互联网上搜索时我发现了一个资源信息使用 C qsort 函数对结构进行排序 support microsoft 我知道 qsort 函数需要通过通用指针进行类型转换但是我无法得到
计算floor(pow(2,n)/10) mod 10 - pow(2,n) 的数字总和

这也是一个与数学相关的问题但我想用 C 实现它所以我有一个以下形式的数字2 n 我必须计算其数字之和以 10 为基数 P 我的想法是用下面的公式来计算 sum 2 n mod 10 floor 2 n 10 mod 10 floor
列表行为异常

我正在解决一些问题并遇到了这个 Python代码 row col init 1 1 现在我附加这个init to row and col row append init row append init col append init col
了解 CUDA 网格维度、块维度和线程组织（简单解释）[关闭]

Closed 这个问题需要多问focused 目前不接受答案 GPU 如何组织线程来执行 Hardware 例如如果 GPU 设备有 4 个多处理单元并且每个单元可以运行 768 个线程那么在给定时刻真正并行运行的线程不会超过 4

热门标签