如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

2023-12-11

我在读专业CUDA C编程，并在GPU 架构概述部分：

CUDA 采用单指令多线程 (SIMT) 架构来管理和执行 32 个线程组（称为 warp）。 warp 中的所有线程同时执行相同的指令。每个线程都有自己的指令地址计数器和寄存器状态，并根据自己的数据执行当前指令。每个 SM 将分配给它的线程块划分为 32 线程线程束，然后调度这些线程束在可用硬件资源上执行。

SIMT 架构类似于 SIMD（单指令、多数据）架构。 SIMD和SIMT都通过将相同的指令广播到多个执行单元来实现并行性。一个关键的区别是 SIMD 要求向量中的所有向量元素在统一的同步组中一起执行，而 SIMT 允许同一 warp 中的多个线程独立执行。尽管 warp 中的所有线程都在同一程序地址处一起启动，但各个线程也可能有不同的行为。 SIMT 使您能够为独立的标量线程编写线程级并行代码，以及为协调线程编写数据并行代码。 SIMT 模型包含 SIMD 所不具备的三个关键功能：
➤ 每个线程都有自己的指令地址计数器。
➤ 每个线程都有自己的寄存器状态。
➤ 每个线程可以有独立的执行路径。

第一段提到“All threads in a warp execute the same instruction at the same time.”，而在第二段中，它说“Even though all threads in a warp start together at the same program address, it is possible for individual threads to have different behavior.”。这让我很困惑，上面的说法似乎很矛盾。谁能解释一下吗？

这并不矛盾。 warp 中的所有线程始终以锁步方式执行相同的指令。为了支持条件执行和分支，CUDA 在 SIMT 模型中引入了两个概念

谓词执行（参见here)
指令重放/序列化（参见here)

谓词执行意味着条件指令的结果可用于屏蔽线程执行后续指令而无需分支。指令重放是处理经典条件分支的方式。所有线程通过重放指令来执行条件执行代码的所有分支。不遵循特定执行路径的线程将被屏蔽并执行相当于 NOP 的操作。这就是CUDA中所谓的分支发散惩罚，因为它对性能影响很大。

这就是锁步执行如何支持分支。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？的相关文章

cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
如何在使用 GPU 支持编译的 macOS 上安装 Xgboost？

我尝试在过去 3 天的 MacOS Mojave 10 14 6 上安装集成了 GPU 支持的 xgboost 但是没有成功我尝试了两种方法 pip 安装 xgboost xgboost 安装在这里并且在没有 GPU 选项的情况下成功运
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
C# - 获取 GPU 的总使用百分比

我正在向我的程序添加一些新功能这些功能当前通过串行连接将 CPU 使用情况和 RAM 使用情况发送到 Arduino 请参阅this https create arduino cc projecthub thesahilsaluja cp
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

随机推荐

正在加载 Apple Pay 送货地址无街道

我正在尝试从以下地址中提取送货地址ABRecordRef由苹果公司提供我有以下内容但我的街道总是返回nil ABMultiValueRef addresses ABRecordCopyValue abRecordRef kABPerso
如何使用 P3D 渲染器实现 noSmooth()？

我想使用 P3D 渲染器通过 PGraphics 实例渲染基本的 3D 形状而无需任何锯齿平滑但 noSmooth 似乎不起作用在 OF 我记得打电话给setTextureMinMagFilter GL NEAREST GL NEA
在没有公共块的情况下通过子例程将一组变量值传递给函数有哪些方法？

我不想在我的程序中使用公共块我的主程序调用一个子例程该子例程调用一个函数该函数需要来自子例程的变量将信息集从子例程传递到函数有哪些方法 program call CONDAT i j end program SUBROUTINE C
未安装新组件的文件，因为旧组件具有相同的文件

我们遇到重大更新时未安装文件的问题我们有一个重大更新
如何在 Swift 中为 Int 数组（自定义字符串结构）实现 Hashable 协议

我正在制作一个结构其作用就像String 不同之处在于它仅处理 Unicode UTF 32 标量值因此它是一个数组UInt32 See 这个问题了解更多背景我想做的事我希望能够使用我的自定义ScalarStringstruct
如何防止Windows进入空闲状态？

我正在开发一个 C 应用程序该应用程序在后台运行无需任何 Windows 控件我想通知 Windows 我的应用程序仍然处于活动状态以防止 Windows 进入空闲状态是否有任何 API 可供我的应用程序调用以通知 Window
Numba 并行代码比顺序代码慢

我是 Numba 新手我正在尝试使用 Numba 版本 0 54 1 在 Python 中实现旧的 Fortran 代码但是当我添加parallel True程序实际上变慢了我的程序非常简单我更改 L x L 网格中的位置 x 和
是否可以在 Header 之外添加 CSS 规则？ [复制]

这个问题在这里已经有答案了可能的重复在 HTML 页面的 HEAD 元素之外声明 CSS 样式我正在创建一些在 CMS 内使用的内容但我无权访问标头标签有没有办法在里面添加CSS规则文件的我想做这个 ClassName bord
使用服务器“不兼容的魔法值 1013478509”启动时 java 小程序失败

我的小程序有问题我有一个学校项目我要制作一款乒乓在线游戏它离线运行良好但当我尝试从服务器加载它时我只是得到一个空框架其中有红色文本当我单击文本时我收到消息不兼容的魔法值 1013478509 我正在使用 jetty all
如何在 python pandas 中转换时间列并查找具有条件的时间增量

我有一个非空对象的时间列我无法将其转换为 timedelta 或 datetime Time msg 12 29 36 306000 Setup 12 29 36 507000 Alerting 12 29 38 207000 Servi
TSQL Msg 1013“使用相关名称来区分它们。”

我看了很多建议在过去的两个小时里不知道如何解决这个问题 SET DATEFORMAT DMY DECLARE Source DATETIME 01 01 2001 DECLARE Destenaition DATETIME 01 01 2
Java 中的链接方法很慢吗？

假设我有一个对象A哪个可以调用getB call getC call getD 调用 doSomething 现在我想使用一些方法D在我的应用程序中多次即 A getB getC getD doSomething1 A getB getC
如何在Java中打开txt文件并读取数字

如何打开 txt 文件并将由输入或空格分隔的数字读取到数组列表中读取文件将每一行解析为一个整数并存储到一个列表中 List
如何更改 stderr 中的 java 日志记录控制台输出以使其脱颖而出？

我正在使用标准ConsoleHandler from java util logging默认情况下控制台输出定向到错误流即System err 如何将控制台输出更改为输出流即System out 我已经到达 SimpleFormatt
当 JsonConstructor 参数名称与 JSON 不匹配时如何抛出异常？

我正在反序列化一堆 C 只读结构它们的构造函数标记为 JsonConstructor 如果我收到的任何 JSON 格式错误我会尝试尽早失败不幸的是如果构造函数参数和输入 JSON 之间存在命名差异则该参数只会被分配一个默认值有没
如何将调试器附加到 Web 服务？

我正在使用网络服务谁能告诉我如何调试它附加到正在执行应用程序池的 w3wp exe 实例
发布管道无权执行操作“Microsoft.Web/sites/config/list/action”

我有一个 DevOps 发布管道通过虚拟机上的 CLI 愉快地推送到开发资源组当我添加一个阶段推送到相同的 QA 资源组时我得到以下结果错误 AuthorizationFailed 对象 ID 为的客户端无权在范围 subscr
在jQuery中，如何高效地添加大量元素？

我目前有真值表生成器的草图虽然它工作得很好但速度相当慢我添加到的每个布尔值组合 table 使用 jQuery 对于每个值有一个 td 元素由 jQuery 创建然后添加到 table 此外我使用 jQuery UI 来制作漂亮
如何知道堆栈函数消耗了多少？

最近我在采访中遇到了这样一个问题我们如何确定特定函数消耗了多少堆栈存储空间众所周知堆栈是平台的实现细节无法从语言本身内部检查或以任何方式查询本质上不可能保证 C 或 C 程序的任何部分是否可以进行另一个函数调用堆栈大小或者
如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

我在读专业CUDA C编程并在GPU 架构概述部分 CUDA 采用单指令多线程 SIMT 架构来管理和执行 32 个线程组称为 warp warp 中的所有线程同时执行相同的指令每个线程都有自己的指令地址计数器和寄存器状态并根据自己

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？ 的相关文章

随机推荐

热门标签

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？的相关文章