CUDA：避免分支发散时的串行执行

2023-12-04

假设由单个 warp 执行的 CUDA 内核（为简单起见）达到if-else语句，其中经纱内的 20 个线程满足condition而 32 - 20 = 12 线程则不会：

if (condition){
    statement1;     // executed by 20 threads
else{
    statement2;     // executed by 12 threads
}

根据CUDA C 编程指南:

warp 一次执行一条公共指令 [...] 如果 warp 的线程通过数据相关的条件分支发散，则 warp 串行执行所采用的每个分支路径，禁用不在该路径上的线程，并且当所有路径完成后，线程会聚回相同的执行路径。

因此，这两个语句将在单独的周期中顺序执行。

Kepler 架构的每个 warp 调度器包含 2 个指令调度单元，因此能够在每个周期为每个 warp 发出 2 个独立指令。

我的问题是：在这种只有两个分支的情况下，为什么可以statement1 and statement2不由两个指令调度单元发出以供warp内的32个线程同时执行，即20个线程执行statement1而另外 12 个同时执行statement2？如果指令调度程序不是 warp 一次执行一条公共指令的原因，那么是什么？是只提供32线程宽指令的指令集吗？还是硬件相关的原因？

每条内核指令始终针对扭曲中的所有线程执行。因此，逻辑上不可能同时在同一个线程束内的不同线程上执行不同的指令。这将违背SIMT执行模型GPU 是基于它构建的。对于你的问题：

Kepler 架构的每个 warp 调度器包含 2 个指令调度单元，因此能够在每个周期为每个 warp 发出 2 个独立指令。

...

为什么statement1和statement2不能由两个指令调度单元发出以供warp内的32个线程同时执行，即20个线程执行statement1，而另外12个线程同时执行statement2？

我不确定你是否意识到这一点，但如果statement1 and statement2计算上是独立的，那么它们可以在一个周期内执行：

指示来自statement1将在所有线程上执行，
指示来自statement2由于第二个调度单元，将在调度时的同一周期内对所有线程执行。

这就是 GPU 中分支分歧的一般工作原理，可以找到一些进一步的阅读，例如here。因此，我相信您已经免费得到了您想要的东西 - 两个语句都在同一个周期内执行（或can be).

EDIT:

正如talonmies在评论中所述，可能值得一提的是条件执行，因为它有时有助于防止分支分歧造成的惩罚。有关此主题的更多信息，请参见：在这个所以线程，引用：

对于更简单的条件，NVIDIA GPU 支持 ALU 处的条件评估，这不会导致发散，并且对于整个扭曲遵循相同路径的条件，显然也没有惩罚。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

SIMD

CUDA：避免分支发散时的串行执行的相关文章

在 C# 中创建具有单独列的分隔文本

我一直在尝试在 C 中创建一个制表符限制的文本文件以便数据正确显示在单独的列中 Firstname Lastname Age John Smith 17 James Sawyer 31 我尝试过 t 字符但我得到的只是 Firstnam
如何检查QProcess是否正确执行？

QProcess process sdcompare QString command sdcompare QStringList args sdcompare command sdcompare diff args sdcompare lt
C++中的类查找结构体数组

我正在尝试创建一个结构数组它将输入字符串链接到类如下所示 struct string command CommandPath cPath cPathLookup set an alarm AlarmCommandPath send an
将 System.Windows.Input.KeyEventArgs 键转换为 char

我需要将事件参数作为char 但是当我尝试转换 Key 枚举时我得到的字母和符号与传入的字母和符号完全不同如何正确地将密钥转换为字符这是我尝试过的 ObserveKeyStroke this new ObervableKeyStrok
如何在 C# 中定义文本框数组？

您好当我在 Windows 申请表上创建文本框时我无法将其命名为 box 0 box 1 等我这样做的目的是因为我想循环使用它们其实我发现TextBox array firstTextBox secondTextBox 也有效
如何在 Linq 中获得左外连接？

我的数据库中有两个表如下所示顾客 C ID city 1 Dhaka 2 New york 3 London 个人信息 P ID C ID Field value 1 1 First Name Nasir 2 1 Last Name U
单击 form2 上的按钮触发 form 1 中的方法

我对 Windows 窗体很陌生我想知道是否可以通过单击表单 2 中的按钮来触发表单 1 中的方法我的表格 1 有一个组合框我的 Form 2 有一个保存按钮我想要实现的是当用户单击表单 2 中的保存时我需要检查表单 1
未经许可更改内存值

我有一个二维数组当我第一次打印数组的数据时日期打印正确但其他时候 array last i 的数据从 i 0 到 last 1 显然是一个逻辑错误但我不明白原因因为我复制并粘贴了 for 语句那么 C 更改数据吗 I use g
如何将整数转换为 void 指针？

在 C 中使用线程时我面临警告警告从不同大小的整数转换为指针代码如下 include
C++：.bmp 到文件中的字节数组

是的我已经解决了与此相关的其他问题但我发现它们没有太大帮助他们提供了一些帮助但我仍然有点困惑所以这是我需要做的我们有一个 132x65 的屏幕我有一个 132x65 的 bmp 我想遍历 bmp 并将其分成小的 1x8 列以获
如何使用 Mongodb C# 驱动程序连接多个集合

我需要将 3 个集合与多个集合合并在一起 lookup我在 C 驱动程序中尝试过它允许我 lookup用户采集但无法执行秒 lookup用于设置集合有人可以帮忙吗 db Transactions aggregate lookup fro
等待线程完成

private void button1 Click object sender EventArgs e for int i 0 i lt 15 i Thread nova new Thread Method nova Start list
std::async 与重载函数

可能的重复 std bind 重载解析 https stackoverflow com questions 4159487 stdbind overload resolution 考虑以下 C 示例 class A public int f
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
如何对 Web Api 操作进行后调用？

我创建了一个 Web API 操作如下所示 HttpPost public void Load string siteName string providerName UserDetails userDetails implementat
Process.Start() 方法在什么情况下返回 false？

From MSDN https msdn microsoft com en us library e8zac0ca v vs 110 aspx 返回值 true 表示有新的进程资源开始了如果由 FileName 成员指定的进程资源 St
线程和 fork()。我该如何处理呢？ [复制]

这个问题在这里已经有答案了可能的重复多线程程序中的fork https stackoverflow com questions 1235516 fork in multi threaded program 如果我有一个使用 fork 的
memset 未填充数组

u32 iterations 5 u32 ecx u32 malloc sizeof u32 iterations memset ecx 0xBAADF00D sizeof u32 iterations printf 8X n ecx 0
如何将 Roslyn 语义模型返回的类型符号名称与 Mono.Cecil 返回的类型符号名称相匹配？

我有以下代码 var paramDeclType m semanticModel GetTypeInfo paramDecl Type Type Where paramDeclType ToString returns System Col
检查Windows控制台中是否按下了键[重复]

这个问题在这里已经有答案了可能的重复 C 控制台键盘事件 https stackoverflow com questions 2067893 c console keyboard events 我希望 Windows 控制台程序在按下某个

随机推荐

python绘制多个直方图

我有一个包含 30 个变量的数据框 X v1 v2 v30 and col name v1 v2 v30 对于每个变量我想绘制直方图以了解变量分布但是写代码逐一绘制太手动了我可以用for循环之类的东西一次性绘制30个直方图吗例如
Python 3.1.3 打开 mbox 文件，与 python 2.x 相比真的慢吗？

我尝试在 python 3 1 3 中使用邮箱模块打开 mbox 文件里面只有3封邮件只有27k大但是当阅读邮件时我的 CPU 使用 100 大约 2 3 分钟直到它完成任务且没有错误我用 python 2 7 1 尝试了同样
在 Android 上实时更改曲目的播放速率

我想知道是否有人知道一个可以实时更改曲目播放速率的库我的想法是加载曲目并将其播放速率更改为一半或两倍首先我尝试使用 MusicPlayer 但根本不可能然后我尝试使用 SoundPool 问题是使用 SoundPool 一旦加载曲
如何复制包含“\0”字符的数据

我正在尝试复制包含 0 的数据我正在使用 C 当研究结果是否定的时我决定编写自己的函数来将数据从一个 char 复制到另一个 char 但它没有返回想要的结果我的尝试如下 include
Laravel 急切加载与嵌套关系

我知道有人问过这个问题但我的情况有所不同我定义了与评论模型关系的帖子模型 Post Model public function comments return this gt hasMany comment 和评论模型每个评论属于一个
在Python中查找列表中最长和最短的列表[重复]

这个问题在这里已经有答案了我需要打印列表中具有最小和最大项目数的列表例如如果我有 total list 1 2 3 1 2 3 4 1 2 3 4 5 我需要返回具有最小和最大长度的列表我该怎么做输出可能类似于 total lis
WndProc 中未捕获表单 WM_KEYDOWN 和 WM_KEYUP 消息

不捕获表单 keydown 和 keyup 消息 public partial class Form1 Form const int WM KEYDOWN 0x100 const int WM KEYUP 0x101 protected o
Firestore：查询与搜索词匹配或相似的名称

我有一个用户列表其姓名位于 Firestore 数据库中我想要实现的是让用户能够搜索和找到其他用户我的问题是 Query query db collection users whereEqualTo name searchTerm F
检查电池电量 iOS Swift [关闭]

Closed 这个问题需要调试细节目前不接受答案我刚刚开始使用 Swift 一直在寻找一种检查电池电量的方法我发现这个资源并一直在尝试它但由于某种原因似乎无法让它工作我不太确定如何解决这个问题有任何想法吗 Xcode 11 Sw
无法实例化活动 - android studio

我正在 android studio 中制作一个应用程序当启动我的一项活动时应用程序崩溃并说它无法实例化该活动我检查了清单文件活动名称带有红色下划线上面写着 X 不是具体类验证 Android XML 文件中的资源任何帮助将不
空手道：如何使用 sudo 实现 Linux 使用的 --no-sandbox 标头

我想在 jenkins 中为 UI 测试自动化设置一个无头 chrome 驱动程序但要运行测试命令 sudo E java jar karate 0 9 3 jar karate GUI feature 我必须以 root 身份运行并且
Twitter API 获取推文 - 返回 CORS 来源被阻止

我正在尝试从主题标签获取推文我收到以下错误跨源请求被阻止同源策略不允许读取远程资源 https api twitter com oauth2 token 原因 CORS 标头 Access Control Allow Origin 丢
是否可以使用 Mali OpenCL SDK 在 ARM CPU (Cortex-a7) 上执行 OpenCL 代码？

Mali OpenCL SDK 允许在 Mali GPU 上执行 opencl 代码是否可以使用 Mali OpenCL SDK 在 ARM CPU Cortex a7 上执行 OpenCL 代码目前还没有 ARM 仅公开发布了在 Ma
使用自定义类访问 OLEObject 事件

我正在尝试在 Excel VBA 中创建一个自定义类来处理 OLEObject 工作表上的 ActiveX 控件的 GotFocus 和 LostFocus 事件定制类clsSheetControl Dim WithEvents obj
ASP MVC 编译时包含部分视图

我有两个不同的视图每个视图对一个公共部分视图进行超过 500 次局部视图调用良好的设计告诉我我应该将部分视图保留在原处并从两个重叠的视图中引用它以防止代码重复不幸的是性能受到影响将部分视图复制粘贴到其他两个视图中会产生 30
Outlook 对象模型 - 检测电子邮件是否已发送

我的测试 Delphi 2006 BDS 应用程序中有以下代码 procedure TForm1 Button1Click Sender TObject const olMailItem 0 var Outlook OleVariant v
cloudsim中的分时在cloudsim中如何工作？

cloudsim中的分时是如何工作的没有代表时间片或量子的变量那么round robin的概念在cloudsim中是如何验证的呢如果我们有 50 个 cloudlet 10 个虚拟机其实CloudletSchedulerTimeSh
WebForm_DoPostBackWithOptions 未定义

我下载并设置了 MS 的 Stock Trader 应用程序我正在运行 Vista Ultimate IIS7 VS 2008 NET 3 5 整个应用程序大约有 120 MB 所以相当复杂但一切似乎都通过 msi 设置得很好当我运行
如何在单个 iOS 应用程序中使用多个 Facebook 应用程序 ID？

我想要一个 iOS 应用程序在运行时在多个 Facebook 应用程序之间切换我希望用户能够在不同的 Facebook 应用程序 ID 下登录和发帖具体取决于他们使用的是 iOS 应用程序的哪个部分 Facebook iOS SDK 从
CUDA：避免分支发散时的串行执行

假设由单个 warp 执行的 CUDA 内核为简单起见达到if else语句其中经纱内的 20 个线程满足condition而 32 20 12 线程则不会 if condition statement1 executed by 20

CUDA：避免分支发散时的串行执行

CUDA：避免分支发散时的串行执行 的相关文章

随机推荐

热门标签

CUDA：避免分支发散时的串行执行的相关文章