并发块如何运行单个 GPU 流式多处理器？

2023-12-04

我正在研究CUDA编程结构，学习后的感受是：创建块和线程后，每个块都会分配给每个流式多处理器（例如，我使用的是 GForce 560Ti，它有 14 个流式多处理器，因此一次可以将 14 个块分配给所有流式多处理器）。但当我浏览一些在线材料时，例如这个：

http://moss.csc.ncsu.edu/~mueller/cluster/nvidia/GPU+CUDA.pdf

其中提到多个块可以在一个多处理器上同时运行。我基本上对流式多处理器上的线程和块的执行感到非常困惑。我知道块的分配和线程的执行绝对是任意的，但我想知道块和线程的映射实际上是如何发生的，以便可以发生并发执行。

流式多处理器 (SM) 可以使用以下方式一次执行多个块硬件多线程，一个类似于超线程.

The CUDA C 编程指南第 4.2 节对此进行了如下描述：

4.2 硬件多线程

每个 warp 的执行上下文（程序计数器、寄存器等）由多处理器处理的数据在整个过程中都保持在片上扭曲的寿命。因此，从一个执行上下文切换到另一个没有成本，并且在每次指令发出时，都会发生扭曲调度程序选择一个线程束，该线程束已准备好执行下一个线程指令（经线的活动线程）并发出给这些线程的指令。

特别是，每个多处理器都有一组 32 位寄存器，在 warp 之间进行分区，并行数据缓存或共享在线程块之间划分的内存。

可以驻留和处理的块和扭曲的数量给定内核的多处理器上的一起取决于内核使用的寄存器和共享内存的数量以及多处理器上可用的寄存器和共享内存的数量。还有最大居民块数和最大每个多处理器的常驻扭曲数。这些限制以及多处理器上可用的寄存器和共享内存的数量是设备计算能力的函数，并给出在附录 F 中。如果没有足够的寄存器或共享内存每个多处理器可用于处理至少一个块，内核将无法启动。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

并发块如何运行单个 GPU 流式多处理器？的相关文章

CUDA __syncthreads() 编译正常，但带有红色下划线

我已经使用 CUDA 4 2 一周了但遇到了一些问题当我编写 syncthreads 函数时它会带有下划线看起来是错误的然后如果我将鼠标放在该函数上则会出现一条消息标识符 syncthreads 未定义但是当我编译我的项目
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

UITableView 从右到左对齐

我正在为 iphone 3 0 开发一个阿拉伯语应用程序我想知道是否有一种方法可以将 UITableViewCell 转换为从右到左我希望一切都向相反的方向发展有什么想法吗创建您自己的 UITableViewCell 子类并不难并
ConstraintLayout 对多个水平链的处理方式不同

我正在尝试设置我认为应该是一个简单的布局ConstraintLayout我有一系列文本条目其标签的大小可以根据语言的不同而变化标签右侧有一个屏障因此即使标签长度发生变化文本条目也能保持对齐我希望文本条目具有标称大小在本示例中顶
如何在 Python Turtle 中导入图像？

我想要的是获取一个图像来替换默认的海龟就像这里所做的那样 http blog trinket io using images in turtle programs 这是我的代码但我不知道为什么它不起作用 import turtle im
单击通知不会启动活动

我正在从服务创建通知显示了通知但是当我单击它时没有任何反应它应该打开一个活动 My code NotificationManager notificationManager NotificationManager getSystem
使用 CORDA 流创建原子事务的最佳方法

我有一个用例我需要将数据发送给多个交易对手但各方需要彼此保持匿名从交易对手处收回背书后我需要提交整个交易整个事务的原子性需要保持使用 Flows 实现这一目标的最佳方法是什么为此您需要使用机密身份机密身份在状态中由Anon
Golang 中的货币格式使用来自 golang.org/x/text/currency 的currency.Symbol

您好我正在开发一个以货币格式格式化值的函数我使用 golang org x text currency 来完成这项工作但我得到的输出是逗号位置的点没有千位分隔符 func produto Produto FormataPreco v
OSS 许可证插件在启动 OssLicensesMenuActivity 时崩溃

每个人我已经使用本教程包含了 Android OSS适用于 Android OSS 许可证的 Google API 进入我的项目目标sdk版本是27 但我在开始时遇到一个问题Oss许可证菜单活动我这样做如下 OssLicensesMe
及时只显示一种颜色

我正在开发油漆应用程序问题是当我选择颜色和油漆然后选择不同的颜色时整个油漆颜色会更改为新颜色任何人都可以告诉我为什么会发生这种情况以及如何解决这个问题吗以及如何添加橡皮擦 imageview DrawView在这里 public
Switch 语句输出字符串错误

我遇到了这个基本问题其中 switch case 与字符串一起使用 Break 语句不在 case 之间使用但为什么即使它与 case 字符串不匹配它也会适用于所有 case 所以我很想知道为什么输出是3而不是1 public sta
OpenCV 中的形态重建

在 OpenCV 中处理带有文本的图像时我的打开操作不会产生正确的输出数据该问题与本文中描述的问题非常相似 http www cpe eng cmu ac th wp content uploads CPE752 06part2 pdf
roadoi 中的 UseMethod("http_error") 错误

我正在尝试roadoi从 R 访问 Unpaywall 但无论我尝试查询什么我都会得到以下响应 UseMethod http error 中的错误没有适用的方法 http error 应用于类 c simpleError error 健
C++ 函数地址在附加探查器库中的显示与主题代码库中的显示不同

我用 C 编写了一个仪器通过挂钩进入和退出调用来记录进入和退出函数它按照预期与遗留代码库一起工作然而在挂钩我从 git 下载的项目时我保存在主题代码的 extern 变量中的函数地址它们在探查器库中的结果是不同的这扰乱了挂钩函
选择特定组件时，Inno Setup 禁用组件选择

我希望能够根据所选的特定组件禁用对组件的选择我无法通过组件嵌套来做到这一点因为组件需要自行选择但如果选择了另一个特定组件则不能选择目前我使用NextButtonClick显示消息的事件 if IsComponentSelected
Html 复选框：更改颜色

在开发 NET 应用程序期间我遇到了一个问题我想做的是改变一个简单的 Html 复选框的背景颜色所以我使用了以下 HTML 代码
CSS 过渡自动高度不起作用[重复]

这个问题在这里已经有答案了我有一个网站我决定用纯 CSS 片段替换基于 jquery 的切换框当我使用固定高度值进行过渡 CSS 的最后几行时效果很好但是使用auto值缺少动画只有高度变化才有效果有没有办法将其与自动值一起
我可以在 PHP 中使用 PDO 创建数据库吗？

我想创建一个使用 PDO 与 MySQL 交互的类我可以使用 PDO 创建新的 MySQL 表吗是的你可以 The dsnPart 是 PDO 构造函数的第一个参数不必有数据库名称你可以简单地使用mysql host localho
`plot.密度` 将“xlim”扩展到我的数据范围之外。为什么以及如何解决它？

使用下面的代码我试图获取不同分布的密度图 dens lt apply df c 7 9 12 14 16 18 2 density plot NA xlim range sapply dens x ylim range sapply de
为什么属性在编译期间需要显式键入？

使用属性语法的编译要求在编译时知道接收器的类型我可能不明白某些东西但考虑到 Objective C 是一种动态语言这似乎是一个损坏或不完整的编译器实现属性 comment 定义为 property nonatomic retain
在 Javascript 中捕获按键（Google 文档）

我正在尝试编写一个小greasemonkey 脚本书签你有什么Google 文档我想添加的功能需要一个 keypress keyup keydown 事件处理程序这三个之一不幸的是 Javascript 不是我的强项而且我似乎无
并发块如何运行单个 GPU 流式多处理器？

我正在研究CUDA编程结构学习后的感受是创建块和线程后每个块都会分配给每个流式多处理器例如我使用的是 GForce 560Ti 它有 14 个流式多处理器因此一次可以将 14 个块分配给所有流式多处理器但当我浏览一些在线材料时

并发块如何运行单个 GPU 流式多处理器？

并发块如何运行单个 GPU 流式多处理器？ 的相关文章

随机推荐

热门标签

并发块如何运行单个 GPU 流式多处理器？的相关文章