如何在 OpenCL 中验证波前/扭曲大小？

2024-02-11

我使用的是 AMD Radeon HD 7700 GPU。我想使用以下内核来验证波前尺寸是否为 64。

__kernel
void kernel__test_warpsize(
        __global T* dataSet,
        uint size
        )
{   
    size_t idx = get_global_id(0);

    T value = dataSet[idx];
    if (idx<size-1)
        dataSet[idx+1] = value;
}

在主程序中，我传递了一个包含 128 个元素的数组。初始值为dataSet[i]=i。在内核之后，我期望以下值：数据集[0]=0 数据集[1]=0 数据集[2]=1 ... 数据集[63]=62 数据集[64]=63 数据集[65]=63 数据集[66]=65 ... 数据集[127]=126

但是，我发现dataSet[65]是64，而不是63，这不符合我的预期。

我的理解是，第一个波前（64个线程）应该将dataSet[64]更改为63。因此，当执行第二个波前时，线程#64应该获取63并将其写入dataSet[65]。但我看到 dataSet[65] 仍然是 64。为什么？

您正在调用未定义的行为。如果您希望访问工作组中另一个线程正在写入的内存，则必须使用屏障。

此外，假设 GPU 同时运行 2 个波前。那么 dataSet[65] 确实包含正确的值，第一个波前根本还没有完成。

此外，根据规范，所有项目的输出为 0 也是有效结果。这是因为一切也可以完全串行执行。这就是为什么你需要障碍。

根据您的评论我编辑了这部分：

Install http://developer.amd.com/tools-and-sdks/heterogeneous-computing/codexl/ http://developer.amd.com/tools-and-sdks/heterogeneous-computing/codexl/ Read: http://developer.amd.com/download/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf http://developer.amd.com/download/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf

优化一定数量线程内的分支只是优化的一小部分。您应该了解 AMD 硬件如何在工作组内调度波前，以及如何通过交错执行波前（在工作组内）来隐藏内存延迟。分支还会影响整个工作组的执行，因为运行它的有效时间基本上与执行单个运行时间最长的波前的时间相同（在组中的所有内容完成之前它无法释放本地内存等，因此它无法调度另一个工作组）。但这也取决于您的本地内存和寄存器使用情况等。要查看实际发生的情况，只需获取 CodeXL 并运行 GPU 分析即可。这将准确显示设备上发生的情况。

即使这仅适用于当前一代的硬件。这就是为什么这个概念不在 OpenCL 规范本身中的原因。这些属性变化很大，并且很大程度上取决于硬件。

但如果您真的想知道 AMD 波前尺寸是多少，答案几乎总是 64（请参阅http://devgurus.amd.com/thread/159153 http://devgurus.amd.com/thread/159153参考他们的 OpenCL 编程指南）。构成当前整个产品线的所有 GCN 设备均为 64。也许一些较旧的设备有 16 或 32，但现在所有设备都只有 64（对于 nvidia，一般是 32）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

如何在 OpenCL 中验证波前/扭曲大小？的相关文章

何时使用 cudaHostRegister() 和 cudaHostAlloc()？ “固定或页面锁定”内存是什么意思？ OpenCL 中哪些是等效的？

我刚刚接触 Nvidia 的 API 有些表达对我来说不太清楚我想知道是否有人可以帮助我了解何时以及如何以简单的方式使用这些 CUDA 命令更准确地说在研究如何通过内核并行执行例如使用 CUDA 来加速某些应用程序时在某些时候我面
在 OpenCL 中使用内核导致另一个内核

我已经编写了图像卷积的代码使用 API 的 clCreateImage2D 创建空间使用 clEnqueueWriteImage 写入设备使用 read imageui 读取内核中的图像使用 write imageui 将图像写回主
在混合供应商的硬件上运行 OpenCL

我一直在他们的 Stream 2 0 beta 中使用 ATI OpenCL 实现当前测试版中的 OpenCL 目前仅使用 CPU 下一版本应该支持 GPU 内核我下载 Stream 是因为我的工作机器上有 ATI GPU 我编写的软件
什么样的工作受益于 OpenCL

首先我很清楚 OpenCL 并没有神奇地让一切变得更快我很清楚 OpenCL 有局限性现在回答我的问题我习惯使用编程进行不同的科学计算我处理的一些事情在计算的复杂性和数量方面非常激烈所以我想知道也许我可以使用 OpenCL 来
在 OpenCL 中以编程方式选择最佳 GPU 的最佳方法是什么？

我的笔记本电脑上有两个显卡 Intel Iris 和 Nvidia GeForce GT 750M 我正在尝试使用简单的向量相加OpenCL 我知道 Nvidia 卡速度更快并且可以更好地完成工作原则上我可以把if代码中的语句将查找N
性能：boost.compute vs. opencl C++ 包装器

以下代码分别使用 boost compute 和 opencl C 包装器将两个向量相加结果显示 boost compute 几乎比 opencl c 包装器慢 20 倍我想知道我是否错过了使用 boost compute 或者它确实很
数组大小和复制性能

我确信这个问题之前已经得到了回答但我找不到一个好的解释我正在编写一个图形程序其中管道的一部分将体素数据复制到 OpenCL 页面锁定固定内存我发现这个复制过程是一个瓶颈并对一个简单的性能进行了一些测量std copy 数据是浮
并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen
OpenCL clBuildProgram 缓存源代码，如果 #include 源代码发生更改，则不会重新编译

我用opencl实现了一个项目我有一个包含内核函数的文件内核使用的函数包含在单独的头文件中但是当我更改包含的文件时有时会应用更改有时则不会这让我很困惑应用程序是否有错误我检查了 stackoverflow 中的其他帖子发现
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
OpenCL C/C++ 动态绑定库（win32 及更多）

我正在尝试 OpenCL 为了将其投入生产我希望能够动态绑定到 OpenCL DLL 在 Windows 下以便优雅地处理没有 OpenCL 的情况安装在主机上是否有任何可用的库或代码片段可以在 C 或 C 中处理这种动态绑定
合理化我的简单 OpenCL 内核中有关全局内存的情况

const char programSource kernel void vecAdd global int a global int b global int c int gid get global id 0 for int i 0 i
为什么程序（全局）作用域变量必须是 __constant？

我是 OpenCL 新手对这个限制感到非常困惑例如如果我想写一个LCG 我必须使状态字可以修改为rand and srand 在 ANSI C 中我将使用以下方法来做到这一点 ANSI C static unsigned long
OpenCL：为什么指向指针的指针不能作为参数传递给内核函数？

你好我只是想澄清一下为什么我们不能将 2D 数组指针作为参数传递给内核为什么不允许如果我使用它作为参数会发生什么在内部因为我知道代码会给出一些错误请只做那些需要的因为在 OpenCL 1 x 中设备有一个独立的地址空间在设备
为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

我试图了解 OpenCL 设备例如 GPU 的体系结构但我不明白为什么本地工作组中的工作项数量有明确的限制即常量 CL DEVICE MAX WORK GROUP SIZE 在我看来这应该由编译器处理即如果为简单起见一维内
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
官方 OpenCL 2.2 标准是否支持 WaveFront？

众所周知 AMD OpenCL 支持 WaveFront 2015 年 8 月 http amd dev wpengine netdna cdn com wordpress media 2013 12 AMD OpenCL Programm
OpenCL 何时使用全局、私有、本地、常量地址空间

我正在尝试学习 OpenCL 但我很难决定使用哪些地址空间因为我只找到组装的资源声明这些地址空间是什么但没有声明它们为什么存在或何时使用它们资源至少太分散了所以带着这个问题我希望把所有这些信息汇总一下所有地址空间是什么它们为什么
是否可以在 OpenCL 中并行运行求和计算？

我是 OpenCL 的新手不过我了解 C C 基础知识和 OOP 我的问题如下是否可以以某种方式并行运行求和计算任务理论上可能吗下面我将描述我尝试做的事情任务例如是 double values new double 1000 l
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一

随机推荐

无法使用 VPN 和代理背后的 crashlytics 构建 Android 应用程序

作为一名远程工作者我使用 VPN代理 pac 配置文件位于http proxy mycompany com proxy pac http proxy mycompany com proxy pac 更新包安卓SDK管理器以下代理设置可以
有没有办法通过 sbt 插件获取项目的所有依赖项？

我想编写一个 sbt 插件在其中我需要获取当前项目的所有依赖项的列表有一些信息是可能的是否可以在我们的项目中我们使用更新任务来获取库依赖项 update map updateReport gt updateReport sele
将文件夹添加到收藏夹并更改文件夹图标 [Electron macOS]

一周以来我一直在寻找一种解决方案将带有特定图标的文件夹添加到收藏夹侧边栏就像 Dropbox 所做的那样有什么解决方案可以用 Electron 或 Objective C 来做到这一点吗到目前为止我发现了什么自己拖放 filei
每个数据组合的特殊组编号

我想为每对行分配不同的组号对于某些配对分配唯一的编号作为组编号 edit 我们可以认为这些是成对存在于数据中的如果这些对存在于行中则为它们分配一个组号直到出现下一对因为真实数据中可能还有其他数据行这是示例数据 names lt
Seaborn中轴标签的字体大小

在seaborn中如何仅更改x轴和y轴标签字体大小有没有办法专门更改轴标签而不是使用设置上下文方法这是我的代码 def corrfunc x y kws r stats pearsonr x y 0 2 ax plt gca a
当 return 语句和对象之间存在换行符时，Javascript 函数无法返回对象？

这里是jsfiddle http jsfiddle net fzdQP 完整代码 function foo1 return msg hello1 function foo2 return msg hello2 output foo1 msg
是否可以使用CSS取消文本大写，然后重新大写？

我从外部来源收到了一段全部大写的文本我希望它的第一个字母简单地大写看来text transform capitalize不会将单词的其余部分取消大写有没有办法不用JS就可以做到这一点像这样的东西吗 http jsbin com ag
Rownum 语句返回与没有它时不同的行

好吧我有这个 select 语句它返回担任职员的人数最少的部门编号但由于数据库中的数据它返回两个部门当我添加 rownum 1 时它给了我一个完全不同的部门编号其中有最多的职员我不知道为什么会这样做感谢帮助 select
Gwt 列表框项目对对象的引用

我有一个列表框我想添加一些项目只有将项目添加为字符串的方法但是我想使用字符串和对对象的引用向列表框添加一个项目这样如果在列表框中选择了某个项目我也会获得对象引用否则我必须始终以 equal 方式搜索正确的对象因此还有什么选
从地图创建字符串

我目前正在开发一个项目通过使用上下文无关语法规则我将生成随机句子现在我正在创建一个函数该函数将接受哈希值并遍历它选择正确的产生式来创建句子并将其作为字符串返回例如给定以下格式的哈希
随着记录的增长，mongoldb 文档更新的性能下降

我有一个 iOS 应用程序它将批量数据发送到 API 端点该端点将数据存储到 mongodb 数据库中我的数据建模如下 id ObjectId device id Uuid rtfb status bool repetitions s
如何从数据库插入图像？

我想在我的报告的详细信息区域中插入数据库中的图像贾斯帕软件工作室 JPG 图像保存在 MySQL 中imgdata类型的longblob 我尝试将此表达式放入 Image 元素中 F imgdata MyUtil getInputStrea
需要 Gradle 版本 1.10。当前版本是2.2.1。在安卓中

我有一个使用 Android Studio 构建的 Android 项目并尝试在我的 Android Studio 上导入并运行它但在尝试同步项目时遇到以下错误 Failed to sync Gradle project project
使用 java api 在 Elasticsearch 中创建索引并添加映射会导致缺少分析器错误

代码是Scala 语言它与Java 代码极其相似我们的地图索引器用于创建索引的代码 https gist github com a16e5946b67c 6d12b2b8 https gist github com a16e5946b6
包含子字符串列表中精确子字符串的字符串

Scala 初学者在这里我试图找到所有推文文本中至少包含关键字列表中的一个关键字 given 其中一条推文 case class Tweet user String text String retweets Int 举个例子Tweet u
我如何在我的 Angular 2 项目中使用 daterangepicker js？

我正在 Angular 2 项目中工作想要集成 daterangepicker js 库来弹出日期范围选择器如果您之前没有听说过这里链接到图书馆http www daterangepicker com http www dateran
Redux Toolkit - 我无法更新 Slice 状态？

我想更新状态并尝试了几种方法来做到这一点但我不能首先我得到了一个problem https stackoverflow com questions 65764486 why reducer function return only p
SQL使用触发器进行约束

我正在研究触发因素和约束因素我有一个使用触发器的问题说实话我不太确定如何使用触发器假设我们有一个教师表这个教师表包含teacher id ssn first name last name class time 例如 teacher
R 使用 diff：二元运算符错误的非数字参数

我们使用以下命令解析包含一些数字的 CSV 文件 tt lt read table test2 csv sep stringsAsFactors FALSE 它有效印刷tt 1 产生一个很好的向量并且sd tt 1 是明智的然而当我们
如何在 OpenCL 中验证波前/扭曲大小？

我使用的是 AMD Radeon HD 7700 GPU 我想使用以下内核来验证波前尺寸是否为 64 kernel void kernel test warpsize global T dataSet uint size size t id

如何在 OpenCL 中验证波前/扭曲大小？

如何在 OpenCL 中验证波前/扭曲大小？ 的相关文章

随机推荐

热门标签

如何在 OpenCL 中验证波前/扭曲大小？的相关文章