我在 CUDA 5.0 中遇到随机播放指令问题。
这是我的内核的片段。它在循环内部。打印仅用于调试目的,因为我无法使用普通调试器:
...
tex_val = tex2D(srcTexRef, threadIdx.x + w, y_pos);
if (threadIdx.x == 0)
{
left = left_value[y_pos];
}
else
{
printf("thread %d; shfl value: %f \n", threadIdx.x, __shfl_up(value, 1));
left = __shfl_up(value, 1);
}
printf("thread %d; value: %f; tex_val: %f; left: %f \n", threadIdx.x, value, tex_val, left);
...
从那里我得到这个输出:
l0: ITERATION 1
l1: thread 0; value: 0; tex_val: 1; left: 4
l2:
l3: ITERATION 2
l4: thread 1; shfl value: 0
l5: thread 0; value: 5; tex_val: 1; left: 5
l6: thread 1; value: 0; tex_val: 1; left: 0
l7:
l8: ITERATION 3
l9: thread 1; shfl value: 0
l10: thread 2; shfl value: 1
l11: thread 0; value: 6; tex_val: 1; left: 6
l12: thread 1; value: 1; tex_val: 1; left: 0
l13: thread 2; value: 2; tex_val: 1; left: 1
...
从输出中我可以看到线程 1 在任何迭代中都没有从线程 0 获取值,即使我可以清楚地看到它具有值(第 4 行 - shfl 值为 0;第 5 行 - 值为 5)。线程 2 及更高线程可以从较低线程获取值。我哪里出错了?是因为分支而发生的吗?
是的,这是因为分支。引用自CUDA 编程指南 B.14.2 http://docs.nvidia.com/cuda/cuda-c-programming-guide/#warp-shuffle-functions:
The __shfl()
内在函数允许在 warp 内的线程之间交换变量,而无需使用共享内存。所有交换同时发生active经纱内的螺纹,...
and
线程只能从积极参与的另一个线程读取数据__shfl()
命令。如果目标线程处于非活动状态,则检索到的值未定义。
在分支中,活动线程是那些采用相同执行路径的线程,而那些采用不同执行路径的线程是非活动线程。在您的情况下,线程 0 处于非活动状态,因此您无法从中进行洗牌。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)