CUDA线程执行顺序

2024-04-26

我有一个 CUDA 程序的以下代码：

#include <stdio.h>

#define NUM_BLOCKS 4
#define THREADS_PER_BLOCK 4

__global__ void hello()
{  

   printf("Hello. I'm a thread %d in block %d\n", threadIdx.x, blockIdx.x);

}


int main(int argc,char **argv)
{
    // launch the kernel
    hello<<<NUM_BLOCKS, THREADS_PER_BLOCK>>>();

    // force the printf()s to flush
    cudaDeviceSynchronize();

    return 0;
}

其中每个线程都会打印它的threadIdx.x and blockIdx.x。该程序的一种可能输出是这样的：

Hello. I'm a thread 0 in block 0
Hello. I'm a thread 1 in block 0
Hello. I'm a thread 2 in block 0
Hello. I'm a thread 3 in block 0
Hello. I'm a thread 0 in block 2
Hello. I'm a thread 1 in block 2
Hello. I'm a thread 2 in block 2
Hello. I'm a thread 3 in block 2
Hello. I'm a thread 0 in block 3
Hello. I'm a thread 1 in block 3
Hello. I'm a thread 2 in block 3
Hello. I'm a thread 3 in block 3
Hello. I'm a thread 0 in block 1
Hello. I'm a thread 1 in block 1
Hello. I'm a thread 2 in block 1
Hello. I'm a thread 3 in block 1

运行该程序几次我得到类似的结果，除了块顺序是随机的。例如，在上面的输出中，我们的块顺序为 0, 2, 3, 1。再次运行该问题，我得到 1,2,3, 0。这是预期的。然而，每个块中的线程顺序始终是0,1,2,3。为什么会发生这种情况？我也以为会是随机的。

我尝试更改代码以强制每个块中的线程 0 需要更长的时间来执行。我是这样做的：

__global__ void hello()
{  

    if (threadIdx.x == 0)
    {
        int k = 0;
        for ( int i = 0; i < 1000000; i++ )
        {
            k = k + 1;
        }
    }

   printf("Hello. I'm a thread %d in block %d\n", threadIdx.x, blockIdx.x);

}

我期望线程顺序为 1,2,3, 0。但是，我得到了与上面显示的结果类似的结果，其中线程顺序始终为 0,1,2,3。为什么会发生这种情况？

然而，每个块中的线程顺序始终是0,1,2,3。为什么会发生这种情况？我也以为会是随机的

每块有 4 个线程，您只需启动一个warp每块。 Awarp http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#simt-architecture是 CUDA 中的执行（以及调度和资源分配）单元，而不是线程。目前，一个 warp 由 32 个线程组成。

这意味着每个块的所有 4 个线程（因为在这种情况下没有条件行为）都在执行lockstep。当他们到达printf函数调用，它们都执行对该函数的调用在同一行代码中, 步调一致.

那么问题就变成了，在这种情况下，CUDA 运行时如何调度这些“同时”的函数调用？这个问题的答案是未指定的，但它不是“随机的”。因此，warp 内操作的调度顺序在不同的运行中不会改变是合理的。

如果您启动足够的线程来为每个块创建多个扭曲，并且可能还包含一些其他代码来分散和/或“随机化”扭曲之间的行为，您应该能够看到printf来自以“随机”顺序发生的单独扭曲的操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA线程执行顺序的相关文章

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

这个问题在这里已经有答案了 Thrust 库可用于对数据进行排序该调用可能如下所示带有键和值向量 thrust sort by key d keys begin d keys end d values begin 在 CPU 上调用 d
如何实现设备端CUDA虚拟功能？

我发现 CUDA 不允许将具有虚拟函数的类传递到内核函数中对于这个限制有什么解决方法吗我真的很希望能够在内核函数中使用多态性 Thanks 罗伯特克罗维拉评论中最重要的部分是只需在设备上创建对象即可所以记住这一点我正在处理我有一
使用非均匀节点优化 CUDA 内核插值

原问题我有以下内核使用非均匀节点执行插值我想对其进行优化 global void interpolation cufftDoubleComplex Uj double points cufftDoubleComplex result i
CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h
如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int

随机推荐

当用户单击控制台窗口时代码停止执行

我有一个控制台应用程序无需用户交互即可执行我的代码如果用户有意或无意地在控制台窗口内单击所有执行都会停止这与从控制台窗口复制文本有关应用程序再次开始执行的唯一方法是用户选择文本然后右键单击控制台窗口将其复制到剪贴板要查看实际
新用户创建后使用 Dropzone.js 上传，发送标头

我正在使用一个很棒的插件 dropzone js dropzonejs com 来让我的网站在注册新用户时更加漂亮基本上用户填写一个表单将几个图像放入 dropzone 然后单击提交这会触发一个 ajax 调用将表单发布到 ph
Safari 扩展弹出窗口链接

是否可以在 Safari 弹出窗口中使用链接我已经做了我能想到的所有事情但似乎向弹出窗口添加链接只会改变外观并且不会导致任何可点击的内容无论是使用 href 还是 onclick 您可以在 href 或 div 上添加 onclic
asp.net mvc 树路径的复杂路由

我想知道如何定义这样的路由映射 TreePath Action Id TreeMap 是从数据库动态加载的如下所示 Gallery GalleryA SubGalleryA View 3 您可以创建自定义路由处理程序来执行此操作实际路线
当我从 Django 应用程序“打印”它们时，它们会去哪里？

我在 Linux 服务器上有一个 Django 应用程序在其中一种观点中某种形式print命令被执行并打印一些字符串我怎样才能知道打印的字符串是什么是否有一些日志保存这些东西输出应该在 django 启动的终端中如果你不直接启
Cassandra 中的强一致性

根据datastax文章可以保证强一致性如果 R W gt N 在哪里 R是读操作的一致性级别 W为写操作的一致性级别 N 是副本数这里的强一致性是什么意思呢这是否意味着每次从数据库给出查询响应时响应将始终是最后更新的值
跨 AVX 通道的最佳方式是什么？

有些问题具有类似的标题但我的问题涉及其他地方未涵盖的一个非常具体的用例我有 4 个 128d 寄存器 x0 x1 x2 x3 我想将它们的内容重新组合在 5 个 256d 寄存器 y0 y1 y2 y3 y4 中以准备其他计算 on
使用 C#/C++ 托管 VST/DX 仪器？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我试图了解用 C 或 C 构建准系统虚拟仪器主机所需的工作量但我无法获得任何硬信息有人知道有什么好的
Pandas DataFrame MultiIndex groupby 滚动操作缺少日期

我有一个数据框其中有一个 MultiIndex 其中索引的最后一列是日期我正在尝试以特定频率对列进行滚动操作据我了解如果我有 TimeIndex 通常的 pandas 方法是使用频率字符串调用滚动函数例如如果我希望窗口为两天则
VB6 和 .PFX 代码签名

我的老板已经从 Comodo 获得了证书而我一直在努力寻找获得证书问题的解决方案intoVB6 应用程序证书本身是 VB6 格式的我对这类事情几乎一无所知 Comodo 的人真是太乐于助人了我的老板说他可以在互联网上找到一些东西显
找出用于制作 JAR 的 Scala 版本

我试图弄清楚使用哪个 Scala 版本进行编译A jar 我有两个版本一个来自我的 ivy2 存储库另一个来自 Maven 运行后jar xf A jar 我苦苦寻找scala and version 但什么也没发现 grep ri s
Mechanize 出现 SSL 错误

我得到了这些命令irb require mechanize agent Mechanize new agent get https monabo lemonde fr customer account forgotpassword 我收到这
highcharts 弄错了我的时间

highcharts 弄错了我的时间我来自委内瑞拉以防万一我正在做一个实时系统我可以在数据库中获取时间秒和毫秒例如 10 39 09 2 我应用 strtotime time 然后通过 json 发送到图表在我的高图表中我进
Seaborn 线图使用中位数而不是均值

我在用着seaborn lineplot 创建像这样的线图代表平均值的线由代表标准差的带包围 sns lineplot x trial y rvalues hue subject err style band ci sd data df
从文件中读取行，在第二个文件中 grep ，并为每个 $line 输出一个文件

我有以下两个文件 sequences txt 158333741 Acaryochloris marina MBIC11017 uid58167 158333741 432 1 432 COG0001 0 158339504 Acaryoc
如何在 spring-data-mongodb 框架中将 BigDecimal 转换为 Double

Spring Data MongoDB 映射默认将 BigDecimal 转换为 String 但是我希望它们在 mongodb 中转换为 Double 这是后者在 mongodb 中对该字段进行查询比较查询聚合查询所必需的我如何
合并排序代码不起作用并显示异常

public static void Merge int arr int p int q int r int n1 q p int n2 r q int L new int n1 int R new int r n2 for int i 0
如何访问 Flask 路由中的查询字符串？

如何访问 Flask 路由中的查询参数或查询字符串从 Flask 文档来看这一点并不明显示例路线 data下面说明了我想要访问该数据的上下文如果有人要求类似的东西example com data abc 123 我想访问该字符串 a
如何在特定时间后从“std::cin”读取超时

我写了一个小程序 int main int argc char argv int n std cout lt lt Before reading from cin lt lt std endl Below reading from cin
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include

CUDA线程执行顺序

CUDA线程执行顺序 的相关文章

随机推荐

热门标签

CUDA线程执行顺序的相关文章