CUDA 中的随机播放指令不起作用

2024-02-24

我在 CUDA 5.0 中遇到随机播放指令问题。

这是我的内核的片段。它在循环内部。打印仅用于调试目的，因为我无法使用普通调试器：

...
tex_val = tex2D(srcTexRef, threadIdx.x + w, y_pos);
if (threadIdx.x == 0)
{
    left = left_value[y_pos];
}
else
{
    printf("thread %d; shfl value: %f \n", threadIdx.x, __shfl_up(value, 1));
    left = __shfl_up(value, 1);
}

printf("thread %d; value: %f; tex_val: %f; left: %f \n", threadIdx.x, value, tex_val, left);
...

从那里我得到这个输出：

l0:  ITERATION 1
l1:  thread 0; value: 0; tex_val: 1; left: 4
l2: 
l3:  ITERATION 2
l4:  thread 1; shfl value: 0
l5:  thread 0; value: 5; tex_val: 1; left: 5
l6:  thread 1; value: 0; tex_val: 1; left: 0
l7: 
l8:  ITERATION 3
l9:  thread 1; shfl value: 0
l10: thread 2; shfl value: 1
l11: thread 0; value: 6; tex_val: 1; left: 6
l12: thread 1; value: 1; tex_val: 1; left: 0
l13: thread 2; value: 2; tex_val: 1; left: 1
...

从输出中我可以看到线程 1 在任何迭代中都没有从线程 0 获取值，即使我可以清楚地看到它具有值（第 4 行 - shfl 值为 0；第 5 行 - 值为 5）。线程 2 及更高线程可以从较低线程获取值。我哪里出错了？是因为分支而发生的吗？

是的，这是因为分支。引用自CUDA 编程指南 B.14.2 http://docs.nvidia.com/cuda/cuda-c-programming-guide/#warp-shuffle-functions:

The __shfl()内在函数允许在 warp 内的线程之间交换变量，而无需使用共享内存。所有交换同时发生active经纱内的螺纹，...

and

线程只能从积极参与的另一个线程读取数据__shfl()命令。如果目标线程处于非活动状态，则检索到的值未定义。

在分支中，活动线程是那些采用相同执行路径的线程，而那些采用不同执行路径的线程是非活动线程。在您的情况下，线程 0 处于非活动状态，因此您无法从中进行洗牌。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

shuffle

CUDA 中的随机播放指令不起作用的相关文章

VSTS 构建失败/发布无法在 bin 文件夹中找到 roslyn\csc.exe

我们有一个网站项目安装了以下 nuget 软件包 Microsoft CodeDom Providers DotNetCompilerPlatform 1 0 8 Microsoft Net Compilers 2 4 0 The web
OpenCV Visual Studio ntdll.dll

我尝试在 Visual Studio 2013 上使用 OpenCV 2 4 10 创建一个项目但由于以下异常到目前为止我运气不佳请建议帮助 TIA letstryitonemoretime exe Win32 Loaded C Us
使用 Selenium for C# 登录 Facebook

我一直在使用 Selenium C 框架并尝试进行 facebook 登录但没有任何运气这是我到目前为止得到的基于这篇文章使用 Selenium 测试 Facebook Connect 应用程序 https stackoverflo
将列表（对象）转换为列表（字符串）

有没有办法转换List of Object to a List of String 在 c 或 vb net 中而不迭代所有项目幕后迭代很好我只想要简洁的代码 Update 最好的方法可能就是进行新的选择 myList Select f
具有多重继承的类的 sizeof

首先我知道 sizeof 取决于机器和编译器的实现我使用的是 Windows 8 1 x64 gcc 5 3 0 没有标志传递给编译器我从大学讲座中得到了以下代码 include
有没有办法使 C90 标准中的枚举无符号？（符合 MISRA-C 2004 标准）

我正在尝试找到一种使枚举无符号的方法 enum x1 0 x2 x3 uint8 t x2 lt PC LINT MISRA C 2004 will complain about mixing signed and unsigned h
返回指向 std::vector 中的对象的 a

我有一个关于返回对向量元素的引用的非常基本的问题有一个向量vec存储类的实例Foo 我想访问这个向量中的一个元素不想使用向量索引我应该如何编码该方法getFoo here include
async wait 在调用异步方法时返回 Task> 而不是 List

我正在尝试了解 async wait 的用法并且研究了一些博客文章现在我已经编写了一个测试代码但它没有按照我期望的方式工作我有一个返回列表的方法 private List
Azure 2012 年 10 月 SDK 损坏 UseDevelopmentStorage=true

有人尝试过使用 usedevelopmentstorage true 连接字符串的 2012 年 10 月 Azure sdk 吗 CloudStorageAccount Parse UseDevelopmentStorage true 抛
C 中“for”循环中的两个变量

我正在编写一些代码需要在其中使用两个变量for环形下面的代码看起来没问题吗它确实给了我预期的结果 for loop 1 offset loop 2 offset 2 loop 1 gt offset 190 loop 2 lt 190
获取给定EntityType的导航属性

我在用VS2010 EF4 0 需要如下功能 private string GetNaviProps Type entityType eg typeof Employee NorthwindEntities en new Northwind
如何解释“错误C2018：未知字符'0x40'？[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案在编译一些代码时我收到以下信息错误 C2018 未知字符 0x40 我想知道如何解决这样的问题这是我要开始的地方
C 中的 N 依赖注入 - 比链接器定义的数组更好的方法？

Given a 库模块在下文中称为Runner 它作为可重复使用的组件无需重新编译即静态链接库中应用程序分区架构的而不是主分区请注意它仅包含main 出于演示目的 Given a set 顺序无关调用的其他模块对象Call
win32 API 和 .NET 框架之间的选择

我必须开发一个适用于 Windows 的应用程序该应用程序将能够通过网络摄像头识别手势来控制鼠标我将使用 vc 2008 进行开发但我很困惑是使用 NET 框架还是核心 win32 API 性能对于我的应用程序非常重要根据 Ivor
double 类型的静态类成员的常量表达式初始值设定项

在 C 11 和 C 14 中为什么我需要constexpr在下面的代码片段中 class Foo static constexpr double X 0 75 而这会产生编译器错误 class Foo static const doub
使用 roslyn 扩展 C# 语法

我试图在没有 else 情况的情况下实现 return if return value if 因为我只想在条件有效时返回或返回一个值我知道有if condition return or if condition return value
将小数格式化为两位或整数

对于 10 我想要 10 而不是 10 00 对于 10 11 我想要 10 11 没有代码可以实现吗即通过指定格式字符串类似于 0 N2 decimal num 10 11M Console WriteLine num ToString
在代码中而不是 XAML 中呈现 UserControl

我想用RenderTargetBitmap将 UserControl 呈现为位图而无需为其编写 XAML 当我这样做时我得到一张空白图像我是否错过了关键的一步 ValTool Controls VideoFisheyeOverlayC
具有多种类型的 C# 泛型类型推断

我有以下通用方法用于将一种类型的输入对象序列化为超类型如下所示 public string SerialiseAs
如何向 ItemsControl 中的 WPF 按钮添加相同的命令

如何将命令添加到 wpf 按钮该按钮是ItemsControl并正在修改ItemsSource itself 这是我的 XAML

随机推荐

有谁知道 LocationManager 上的 Android addProximityAlert 是否耗电

我基本上只是想添加大约 20 个有时是 80 个接近警报且半径约为 500 米且没有时间限制只是想知道这样做是否会很快耗尽电池电量减小半径也会有什么不同吗这肯定会很快耗尽你的电池在任何情况下您都不想设置超过几个接近警报您描
在自定义AuthorizeAttribute中获取Post请求参数

我在用this https stackoverflow com a 19050773 384554从输入流中获取请求参数 POST 在请求正文中使用 JSON 在我的onAuthorize被覆盖的函数AuthorizeAttribute 它
与证书作斗争：私钥未成功获取访问权限

我在为开发人员提供许多服务器和个人电脑的公司工作服务器是win2003 开发PC是Windows XP 在名为 preiis01 的服务器 Win2003 中在预生产环境中公司其他人使用任何其他用户对我来说未知用户安装客户端证书用
如何发出 jsonp 请求

我需要做一些跨站点脚本编写下面的代码块包含 jsonp 的方法该方法就像失败一样返回但是当我将其更改为 get 请求时我就成功了我需要能够使用 jsonp 方法成功响应可以排除以下情况响应是有效的 json 并且此参数位于 u
同一 .Net 6 项目中多个 nuget 包中同一 DLL 的不同版本

我有一个名为 Foundation dll 的基本 nuget 库我还有另外 5 个 nuget 库它们使用不同版本的 Foundation dll 一切都在一个项目中我的问题是当我构建一个项目时 VS Net 显然只会在 bin
webpack 4 模块可以配置为允许 Jasmine 监视其成员吗？

我无法让我的测试 jasmine 测试套件与 webpack 4 一起运行升级 webpack 后几乎每个测试都会出现以下错误 Error
C# 中泛型类型的命名空间范围别名

让我们看一个下面的例子 public class X public class Y public class Z public delegate IDictionary
用 C# 下载 HTML 页面

我正在用 C 编写一个应用程序有没有办法只给我的程序提供 URL 来下载 HTML 页面例如我的程序将获取 URL www google com 并下载 HTML 页面 Use WebClient DownloadString htt
Django模型子类中相同的字段，不同的选择

是否可以使用不同的choices对于模型的子类下面的代码应该可以给你一个想法 class Clothing models Model size models CharField max length 1 colour models Cha
Play 控制台：在哪里可以找到运行我的应用程序的设备列表？

我正在寻找一种方法来导出当前安装了 Android 应用程序的设备列表这可能吗如果可以如何实现玩游戏时转到您的应用程序页面在左侧边栏上选择统计打开添加新指标或编辑现有指标下拉列表选择设备 gt 安装基础 gt 所有设
用Java发送/接收电子邮件

我想通过 Java 发送电子邮件任何电子邮件如来自 yahoo gmail 或任何其他部分我尝试了代码here http www tutorialspoint com java java sending email htm 但是我得到
Swift - Objective-C 加载类方法？

在 Objective C 中 NSObject有一个名为的类方法load当类第一次加载时被调用 Swift 中的等价物是什么 implementation MyClass void load self registerClass end
Sl 4、MVVM：在TextBlock中使用Inlines，如何绑定到ViewModel？

我们通过向 TextBlock Inlines 添加一系列 System Windows Documents Run 对象来格式化 TextBlock 的文本我们如何绑定ViewModel中的格式化文本以显示在TextBlock中感谢您
如何使用 Jackson API（列表内的列表）迭代 JSON 响应？

如何使用 Jackson API 迭代 Java 中的 JSON 响应换句话说如果响应有一个列表并且该列表内有另一个列表在本例中称为天气那么我如何获取温度这是我试图迭代的示例 message like cod 200 coun
JBOSS - 计时器的先前执行仍在进行中，计时器状态为 IN_TIMEOUT

我正在使用 JBOSS EAP 6 4 我使用 EJB Shedule 注释在 ScedulerBean 中安排了一些调度程序如下所示这里的ShedulerBean依赖于StartupBean Singleton DependsOn S
实体框架与 NHibernate - 性能

我希望在我们的系统中实现 ORM 我们目前有许多表其中有大量可怕的数据和存储过程我听说使用 ORM 会降低系统速度有谁知道哪种 ORM 使用 C 代码中创建的查询并映射到存储过程在速度和性能方面更好 Thanks EDIT 该项目将使
C++ 迭代器对向量中的某些元素进行迭代

如果这是一个微不足道的问题请原谅我我只是在学习 C 并试图理解某些概念尤其是当涉及到迭代器时我完全迷失了假设我有一个表示某种数据结构的自定义类其成员之一是整数向量我想为该类编写一个双向迭代器它仅输出向量中的偶数有没有简单且
matlab ode45 检索参数

我正在 Matlab 中试验 ode45 我已经学会了如何将参数传递给 ode 函数但我仍然有一个问题假设我想计算汽车的轨迹速度曲线并且我有一个函数例如getAcceleration 这给了我汽车的加速度以及正确的档位 accel
如何使用 SQL Server 企业版在 app_data 下添加新数据库

我绝对是 MVC 的新手现在我才刚刚开始我查看了教程播客其中我可以在下面添加一个新的 SQL Server 数据库项目app data 但是一旦我单击该按钮就会弹出一条消息显示我的桌面上没有安装 SQL Server 2005
CUDA 中的随机播放指令不起作用

我在 CUDA 5 0 中遇到随机播放指令问题这是我的内核的片段它在循环内部打印仅用于调试目的因为我无法使用普通调试器 tex val tex2D srcTexRef threadIdx x w y pos if threadIdx

CUDA 中的随机播放指令不起作用

CUDA 中的随机播放指令不起作用 的相关文章

随机推荐

热门标签

CUDA 中的随机播放指令不起作用的相关文章