为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

2024-04-05

我试图了解 OpenCL 设备（例如 GPU）的体系结构，但我不明白为什么本地工作组中的工作项数量有明确的限制，即常量 CL_DEVICE_MAX_WORK_GROUP_SIZE。

在我看来，这应该由编译器处理，即，如果（为简单起见，一维）内核以本地工作组大小 500 执行，而其物理最大值为 100，并且内核看起来如下所示：

__kernel void test(float* input) {
    i = get_global_id(0);
    someCode(i);
    barrier();
    moreCode(i);
    barrier();
    finalCode(i);
}

那么它可以自动转换为该内核上工作组大小为 100 的执行：

__kernel void test(float* input) {
    i = get_global_id(0);
    someCode(5*i);
    someCode(5*i+1);
    someCode(5*i+2);
    someCode(5*i+3);
    someCode(5*i+4);
    barrier();
    moreCode(5*i);
    moreCode(5*i+1);
    moreCode(5*i+2);
    moreCode(5*i+3);
    moreCode(5*i+4);
    barrier();
    finalCode(5*i);
    finalCode(5*i+1);
    finalCode(5*i+2);
    finalCode(5*i+3);
    finalCode(5*i+4);
}

然而，这似乎不是默认情况下完成的。为什么不？有没有办法使这个过程自动化（除了我自己编写预编译器之外）？或者是否存在一个内在的问题，可能使我的方法在某些示例上失败（您能给我一个）吗？

我认为 CL_DEVICE_MAX_WORK_GROUP_SIZE 的起源在于底层硬件实现。

多个线程同时在计算单元上运行，每个线程都需要保持状态（用于调用、跳转等）。大多数实现为此使用堆栈，如果您查看 AMD Evergreen 系列，它们是可用堆栈条目数量的硬件限制（每个堆栈条目都有子条目）。这本质上限制了每个计算单元可以同时处理的线程数量。

至于编译器可以做到这一点，使其成为可能。它可以工作，但要明白这意味着再次重新编译内核。这并不总是可能的。我可以想象这样的情况：开发人员以二进制格式转储每个平台的编译内核，并将其与他们的软件一起发布，只是出于“不那么开源”的原因。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？的相关文章

BLAS 相当于 GPU 的 LAPACK 函数

在LAPACK中有这个function http www netlib org lapack double dspgvx f对角化 SUBROUTINE DSPGVX ITYPE JOBZ RANGE UPLO N AP BP VL VU
在 OpenCL 内核中实现小型查找表的最佳方法是什么

在我的内核中需要对一个小查找表只有 8 个 32 位整数进行大量随机访问每个内核都有一个唯一的查找表下面是内核的简化版本用于说明如何使用查找表 kernel void some kernel global uint global
在多 GPU 系统中，如何将 OpenCL 设备与给定 PCI 供应商、设备和总线 ID 的特定 GPU 相匹配？

我希望能够在由 PCI ID 标识的多 GPU 系统上将 OpenCL 设备与系统中的 GPU 进行匹配例如如果我的系统具有多个 GPU 可能来自不同的供应商我可以通过枚举 PCI 总线来列出设备这为我提供了 PCI 供应商设备和
OpenCL 中的最佳本地/全局工作规模

我想知道如何在 OpenCL 中为不同设备选择最佳的本地和全局工作大小 AMD NVIDIA INTEL GPU 有什么通用规则吗我是否应该分析设备的物理构建多处理器数量多处理器中的流处理器数量等这取决于算法实现吗因为我看到一些
PyOpenCL 中的时间测量

我正在 FPGA 和 GPU 中使用 PyOpenCL 运行内核为了测量执行所需的时间我使用 t1 time event mykernel queue c width c height block size block size d c
在 OpenCL 中，mem_fence() 与 Barrier() 相比有何作用？

Unlike barrier 我想我明白 mem fence 不影响工作组中的所有项目 OpenCL 规范指出第 6 11 10 节对于mem fence 命令加载和存储执行内核的工作项所以它适用于single工作项但同时在第 3
OpenGL/OpenCL 互操作、OpenCL 渲染到纹理的麻烦

我正在尝试将 OpenCL 渲染为 OpenGL 256x256 纹理全部编译正确但仅呈现黑屏如果关闭纹理它通常会渲染白色矩形 Setting up OpenCL const char source kernel void Main
工作组之间的 OpenCL 同步

是否可以同步 OpenCL 工作组例如我有 100 个工作组每个工作组只有一个项目不要问我为什么这是一个例子我需要对每个工作项设置障碍以确保所有工作组都会在这 100 个工作组中的每个工作项达到此障碍点后继续不你不能您可
opencl中的时钟()

我知道CUDA中有一个函数clock 你可以在其中放入内核代码并查询GPU时间但我想知道OpenCL中是否存在这样的东西有没有办法查询OpenCL中的GPU时间我正在使用 NVIDIA 的工具包 OpenCL 没有直接查询时钟周期的方
OpenCL：头文件的附加目录

OpenCL 规范中写道5 6 3 构建选项 5 6 3 1 预处理器选项 I dir Add the directory dir to the list of directories to be searched for header f
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
合理化我的简单 OpenCL 内核中有关全局内存的情况

const char programSource kernel void vecAdd global int a global int b global int c int gid get global id 0 for int i 0 i
在 Windows 8 (x64) 中安装期间出现 PyOpenCL“致命错误：CL/cl.h：没有此类文件或目录”错误

在大量搜索此问题的解决方案后我发现此特定错误尚未针对 Windows 正确记录所以我决定将这个问题与解决方案一起发布抱歉如果我将其发布在错误的部分我希望这个解决方案能够帮助用户解决未来 PyOpenCL 安装错误请注意此处使用
GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保
为什么程序（全局）作用域变量必须是 __constant？

我是 OpenCL 新手对这个限制感到非常困惑例如如果我想写一个LCG 我必须使状态字可以修改为rand and srand 在 ANSI C 中我将使用以下方法来做到这一点 ANSI C static unsigned long
为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

我试图了解 OpenCL 设备例如 GPU 的体系结构但我不明白为什么本地工作组中的工作项数量有明确的限制即常量 CL DEVICE MAX WORK GROUP SIZE 在我看来这应该由编译器处理即如果为简单起见一维内
使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据

AMD Kaveri 的 hUMA 异构统一内存访问和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一应该允许 CPU 和 GPU 之间进行无副本的数据共享我想知道最新的 OpenCL 或其他 GPGPU 框
杀死 OpenCL 内核

有没有办法通过 OpenCL API 终止正在运行的 OpenCL 内核我在规范中没有找到任何内容我能想到的唯一解决方案是 1 定期检查内核中主机希望内核停止时写入的标志或 2 在单独的进程中运行内核并终止整个进程我认为这两个都不是
在内核 OpenCL 中实现 FIFO 的最佳方法

目标在 OpenCL 中实现下图所示 OpenCl 内核所需的主要内容是将系数数组和临时数组相乘然后最后将所有这些值累加为 1 这可能是最耗时的操作并行性在这里非常有帮助我正在为内核使用一个辅助函数来执行乘法和加法我希望这个函数也
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof

随机推荐

更改 SQL Server Management Studio 中自动恢复信息的位置

我们的本地 IT 在网络路径上有我的文档文件夹这会导致 MSQL Server Management Studio 出现问题因为它每 10 分钟保存一次自动恢复信息并且在保存时会锁定我找到了 VS2008 保存其设置的位置但我
如何更改 python 应用程序引擎中日志消息的默认格式？

我想默认在来自请求处理程序的日志消息中记录模块和类名通常的方法似乎是通过调用来设置自定义格式字符串logging basicConfig 但这只能调用一次并且在我的代码运行时已经被调用另一种方法是创建一个新日志Handler可以传递一
Google 地方信息自动完成功能不适用于动态生成的输入元素

自动完成功能在多个静态输入字段上完美运行但是当我通过按钮添加输入字段时自动完成功能不适用于这些输入字段也许问题出在闭包上但我不确定因为我的 JavaScript 很弱谁能帮我这是代码
Jenkins 构建步骤超时

在 Jenkins 中有没有办法为每个或选定的构建步骤提供不同的超时构建时插件提供了完整项目上的超时如果卡住则中止构建功能我需要的是为每个步骤提供不同的超时这样我就可以使我的流程更加高效如果您使用 Jenkins 管道并且较
在 Laravel 8 新安装中，“mix”不被识别为内部或外部命令

我安装了一个新的 Laravel 8 应用程序然后我运行 npm install 后来我就跑了 npm run dev 我收到以下错误 mix 未被识别为内部或外部命令 gt dev E wamp64 www Laravel8Projec
如何用mysql+PDO中的数据制作婴儿生长图表

I am trying to make a chart with growth baby table I have in DB I lost the idea and right now I don t know how to do it
如何删除源代码树中的 .svn 文件夹？

我已将 svn 中的源代码检出到我的 Linux PC 中在每个子文件夹中都有一个 svn 文件夹现在我想知道如何删除树中各处的该文件夹 svn 假设你使用的是Unix平台并且可以使用bash find name svn type d
WTForms：我似乎无法动态地为 QuerySelectField 提供默认值

我有一个看起来像这样的表格 class AddProductForm Form title TextField Title type QuerySelectField Type query factory lambda ProductTyp
如何使用我的自定义图像更改 Facebook 登录按钮

我的脚本有这样的代码 echo p class wdfb login button p
AngularJS：为 ngStyle 应用过滤器

祝大家有美好的一天我在理解 AngularJS 时遇到问题我可以在 ngStyle 指令中使用自定义过滤器吗为什么当我更改输入中的值时它不能同时更改跨度标记的不透明度但它会更改标记中的值在不直接使用控制器作用域的情况下如何实现这
未定义的方法“full_title”[重复]

这个问题在这里已经有答案了我收到以下错误 undefined method full title 在这一行在我的布局文件上
如何在 Spyder/IPython/matplotlib 中再次获得交互式绘图？

我从 Python x y 2 7 2 3 升级到2 7 6 0 http code google com p pythonxy wiki Downloads在 Windows 7 中很高兴看到我终于可以输入function name 并
Facebook Graph API 不返回事件图片

编辑看来 Facebook 终于修复了这个错误你能帮我理解为什么会发生这种情况吗这是一个公开活动附有图片 https www facebook com events 282054218538223 https www faceboo
如何在窗口模式下禁用 VS Code 小地图？

我在 Visual Studio Code 中执行了以下操作 settings json gt editor minimap enabled true 并排打开 2ed 文件窗口模式小地图存在于两个窗口中这占用了太多空间但当我在单个
如何实现pdf编辑器

I am working on an application and I am using pdfkit which I should have the ability to read pdf files and edit them I f
如何在 ElasticSearch 中从形状获取交点

我已经存储了一条路线ElasticSearch作为多边形现在我有一个圆一个点和一个半径我可以检查圆点是否与多边形相交下面是我使用的代码问题如何获取与圆相交的路线上的点 public Boolean isMatchingDoc L
省略 Doctrine 生成的 SQL 的鉴别器部分

假设以下情况AbstractPage model ORM Entity ORM Table name page ORM InheritanceType SINGLE TABLE ORM DiscriminatorColumn name ty
在单个查询中从 mongo 中删除多个文档

我有一个要删除的 mongo id 列表目前我正在这样做 inactive users gt list of inactive users for item in inactive users db users remove id ite
VHDL (Xilinx) 中的错误：无法链接设计

为什么我在 VHDL 中遇到错误另外有时无法执行流程因为之前的流程失败了非常感谢永久解决方案1 在win 10上找出 installation directory Xilinx 14 x ISE DS ISE gnu MinG
为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

我试图了解 OpenCL 设备例如 GPU 的体系结构但我不明白为什么本地工作组中的工作项数量有明确的限制即常量 CL DEVICE MAX WORK GROUP SIZE 在我看来这应该由编译器处理即如果为简单起见一维内

为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？ 的相关文章

随机推荐

热门标签

为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？的相关文章