官方 OpenCL 2.2 标准是否支持 WaveFront？

2024-04-25

众所周知，AMD-OpenCL 支持 WaveFront（2015 年 8 月）：http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/12/AMD_OpenCL_Programming_Optimization_Guide2.pdf http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/12/AMD_OpenCL_Programming_Optimization_Guide2.pdf

例如，AMD Radeon HD 7770 GPU 支持超过 25,000 进行中的工作项目，并且可以切换到新的波前（包含最多到 64 个工作项）在一个周期内。

但为什么在 OpenCL 标准 1.0/2.0/2.2 中没有提到 WaveFront？

没有一个PDF是没有字的波前: https://www.khronos.org/registry/OpenCL/specs/ https://www.khronos.org/registry/OpenCL/specs/

我还发现：

2013: https://community.amd.com/thread/160658 https://community.amd.com/thread/160658

OpenCL 是一个开放标准。它仍然不支持这种 swizzling 概念。它甚至还不支持波前/扭曲。

2013: https://stackoverflow.com/a/19874984/1558037 https://stackoverflow.com/a/19874984/1558037

这就是为什么这个概念不在 OpenCL 规范本身中的原因。

2011: https://forums.khronos.org/showthread.php/7211-How-can-i-split-my-work-load-in-a-GPU-with-OpenCL https://forums.khronos.org/showthread.php/7211-How-can-i-split-my-work-load-in-a-GPU-with-OpenCL

标准 OpenCL 没有“波前”的概念

2011: https://www.cvg.ethz.ch/teaching/2011spring/gpgpu/GPU-Optimization.pdf https://www.cvg.ethz.ch/teaching/2011spring/gpgpu/GPU-Optimization.pdf

确实OpenCL 2.2官方标准仍然不支持WaveFront？

结论:

OpenCL 标准中没有 WaveFront，但是在 OpenCL-2.0 中，有一些具有类似于 WaveFronts 的 SIMD 执行模型的子组.

第 100 页： http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/12/AMD_OpenCL_Programming_User_Guide2.pdf http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/12/AMD_OpenCL_Programming_User_Guide2.pdf

6.4.2 工作组/小组级职能

OpenCL 2.0 引入了 Khronos子组扩展。子组是硬件 SIMD 执行模型的逻辑抽象类似于波前、扭曲或矢量，并允许编程更接近以独立于供应商的方式硬件。该扩展包括一组与集合匹配的跨子组内置函数上面指定的跨工作组内置函数。

他们一定采用了一种更加动态的方法，称为sub-group: https://www.khronos.org/registry/OpenCL/specs/opencl-2.2.pdf https://www.khronos.org/registry/OpenCL/specs/opencl-2.2.pdf

Sub-group: Sub-groups are an implementation-dependent grouping of work-items within a
work-group. The size and number of sub-groups is implementation-defined.

and

Work-groups are further divided into sub-groups,
which provide an additional level of control over execution.

and

The mapping of work-items to
sub-groups is implementation-defined and may be queried at runtime.

所以即使它不被称为波前，它现在可以在运行时查询并且

在没有同步功能（例如屏障）的情况下，子组内的工作项可以被序列化。在......的存在下子组功能、子组内的工作项可以序列化在任何给定的子组函数之前，在动态遇到的之间子组职能对以及工作组职能和内核的末尾。

即使步调一致的方式有时也可能会丢失。

除此之外，

 sub_group_all() and
sub_group_broadcast() and are described in OpenCL C++ kernel language and IL specifications.
The use of these sub-group functions implies sequenced-before relationships between statements
within the execution of a single work-item in order to satisfy data dependencies.

表示存在某种子组内通信。因为现在 opencl 有子内核定义：

Device-side enqueue: A mechanism whereby a kernel-instance is enqueued by a kernel-instance
running on a device without direct involvement by the host program. This produces nested
parallelism; i.e. additional levels of concurrency are nested inside a running kernel-instance.
The kernel-instance executing on a device (the parent kernel) enqueues a kernel-instance (the
child kernel) to a device-side command queue. Child and parent kernels execute asynchronously
though a parent kernel does not complete until all of its child-kernels have completed.

最终，像这样的东西

kernel void launcher()
{
    ndrange_t ndrange = ndrange_1D(1);
    enqueue_kernel(get_default_queue(), CLK_ENQUEUE_FLAGS_WAIT_KERNEL, ndrange,
    ^{
    size_t id = get_global_id(0);
    }
    );
}

您应该能够生成您自己的（升级的？）波前，具有您需要的任何大小，并且它们与父内核同时工作（并且可以通信子组内线程），但它们不被称为波前，因为它们不是由硬件硬编码的（恕我直言）。

2.0 api 规范说：

Extreme care should be exercised when writing code that uses
subgroups if the goal is to write portable OpenCL applications.

这让人想起 AMD 的 16 宽 simd 和 nvidia 的 32 宽 simd 与一些虚构的 FPGA 的 95 宽计算核心。也许是伪波前？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

官方 OpenCL 2.2 标准是否支持 WaveFront？的相关文章

Lockfree 标准集合和教程或文章

有人知道用于无锁常用数据类型的实现即源代码的好资源吗我正在考虑列表队列等锁定实现非常容易找到但我找不到无锁算法的示例以及 CAS 的工作原理以及如何使用它来实现这些结构查看 Julian M Bucknall 的博客他详细
为什么C++标准库中没有线程池？ [复制]

这个问题在这里已经有答案了自 C 11 以来 C 中并行并发编程工具的数量激增线程异步函数并行算法协程但是流行的并行编程模式又如何呢线程池 https en wikipedia org wiki Thread pool 据我
Java - 同步方法导致程序大幅减慢

我正在尝试了解线程和同步我做了这个测试程序 public class Test static List
我可以在 R 中并行读取 1 个大 CSV 文件吗？ [复制]

这个问题在这里已经有答案了我有一个很大的 csv 文件需要很长时间才能阅读我可以使用 parallel 或相关的包在 R 中并行读取此内容吗我尝试过使用 mclapply 但它不起作用根据OP的评论 fread来自data tab
块执行后变量返回 null

我正在调度一个队列来在单独的线程上下载一些 flickr 照片在 viewWillAppear 中当我记录块内数组的内容时它完美地显示了所有内容 dispatch queue t photoDowonload dispatch que
独占锁定ConcurrentHashMap

我知道不可能锁定 ConcurrentHashMap 进行独占访问但是我找不到原因是因为构成CHM的 Segment 没有被api公开吗据推测如果是的话客户端代码可以执行交接锁定 Cheers 我知道不可能锁定 Concur
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
.NET 中的线程中止

我有一个线程正在分析文件并对数据库进行事务调用每个事务都有一个审计条目作为其事务的一部分调用 Thread Abort 来停止文件的处理有什么大问题吗而不是到处散布丑陋的安全点文件将在 Abort 调用后关闭明显的问题是放弃交易的
我是否需要关心异步 Javascript 的竞争条件？

假设我加载了一些我知道在将来某个时候会调用的 Flash 影片window flashReady并将设置window flashReadyTriggered true 现在我有一个代码块我想在闪存准备好时执行它我希望它立即执行如果wi
BlockingCollection.TakeFromAny 方法是否适合构建阻塞优先级队列？

我需要建立一个阻塞优先级队列我的预感是TakeFromAny https learn microsoft com en us dotnet api system collections concurrent blockingcollect
使用任务的经典永无止境的线程循环？

给出了一个非常常见的线程场景宣言 private Thread thread private bool isRunning false Start thread new Thread gt NeverEndingProc thread S
在 Swift async/await 中，我可以使用 Lock 还是 Semaphore

这不是问题这是一个想寻求帮助以及专业指导的问题根据文档 Sendable 类型可以在 Swift Concurrency 中安全地传递在旧项目中并非所有类型都是可发送的并且可能使用Cocoa类型但它们是线程安全的例如 class
Node.js 工作线程中的 I/O 性能

下面是一个工作线程示例在本地计算机上同步 I O 大约需要 600 毫秒 const fs require fs const isMainThread Worker parentPort workerData require worker
std::map 只读操作的线程安全

我有一个 std map 用于将值字段 ID 映射到人类可读的字符串当我的程序在任何其他线程启动之前启动时该映射会被初始化一次之后就不会再被修改现在我为每个线程提供了这个相当大的映射的自己的副本但这显然是内存使用效率低下
Java 执行器和长寿命线程

我继承了一些使用 Executors newFixedThreadPool 4 的代码运行 4 个长寿命线程来完成应用程序的所有工作这是推荐的吗我读过Java 并发实践 https rads stackoverflow com amzn
Openresty 中的并发模型是什么？

我很难理解 openresty 或 nginx 的并发模型我读了Lua变量作用域 http wiki nginx org HttpLuaModule Lua Variable Scope 它解释了变量的生命周期但它没有说明对它们的并发访
Android：如何暂停和恢复可运行线程？

我正在使用 postDelayed 可运行线程当我按下按钮时我需要暂停并恢复该线程请任何人帮助我这是我的主题 protected void animation music6 music4 postDelayed new Runnab
我对线程失去了理智

我想要这个类的对象 public class Chromosome implements Runnable Comparable
Guzzle 中的“并发”到底是什么？

我没有找到太多关于concurrency选项中Pool 如果这是可以在服务器上打开的 TCP 套接字数量那么问题是我可以使用多少并发来更快地处理请求我有这个使用的例子Pool I am using Laravel this is ba
为什么Apache MPM prefork.c 使用互斥体来保护accept()？

我坐下来读书Apache 的 MPM prefork c http code metager de source xref apache httpd server mpm prefork prefork c这段代码使用了一个名为accept

随机推荐

Javascript - 按带有标签的公共值对对象数组进行分组

我试图通过按特定值分组并将该值添加为标签并将其从新数组中的对象中取出来将一个对象数组转换为另一个对象数组 Input 例如我有这个对象数组 let tech id 1 grouping Front End value HTML id 2 g
如何从视图中获取窗口实例？

我通过在 windowManager 中添加一个视图mWindowManager addview 现在我想知道是否可以获得window实例他们是myView getWindowID and myView getWindowToken 但我
PowerPoint VBA - 将形状复制到幻灯片

我开发了一个 Powerpoint VBA 函数向其中传递 Shape 和 Slide 对象该函数查找内部带有文本 LOGO 的形状如果找到它将用我传递给函数的形状替换该形状该功能在 Office 2013 上完美运行但在 Of
Linux上的轻量级内存泄漏调试

我首先寻找现有的答案并看到Valgrind是大家最喜欢的 Linux 内存泄漏调试工具很遗憾Valgrind似乎不适合我的目的我将尝试解释原因限制条件泄漏仅在客户环境中重现由于某些法律限制我们必须使用现有的二进制文件没有重建
如何通过模型继承在 ASP.Net Core Razor 页面中使用 DisplayTemplates？

尝试让 ASP Net Core 2 2 中的 DisplayTemplates 与从类似于此问题的基类继承的类一起使用如何在视图中处理具有继承的实体模型 https stackoverflow com questions 10473419
如何找到脚本的目录？ [复制]

这个问题在这里已经有答案了考虑以下 Python 代码 import os print os getcwd I use os getcwd to 获取脚本文件的目录位置 http www faqs org docs diveintopyt
用于直播视频的 Youtube iFrame Api？

我正在尝试使用 youtube iframe api 实现来自 youtube 频道的实时视频 api 中有一个 videoId 属性它也适用于实时视频但我们必须在每次流启动时添加视频 id iframe直播视频中有解决方案https
为什么此代码会抛出“在 void 上下文中无用使用匿名哈希 ({})”警告。

我正在重构我继承的 Perl 程序以下行 exists self gt DEVEL d nsaobj gt filter list d 抛出以下警告 Useless use of anonymous hash in void contex
Vim：用字符填充行

如何在一行或多行末尾重复添加字符将行填充到特定列例如 x 代表第 40 列不是该行上的字符并且文本后没有空格或制表符 line one x line two x line three x line eleventy billion
为什么我的 WCF Web 服务在具有不同字段名称的不同命名空间中呈现此对象？

上下文我正在尝试与 DocuSign 的 Connect 通知服务集成我已经使用名为 DocuSignConnectUpdate 的方法设置了 WCF 服务该方法将 DocuSignEnvelopeInformation 作为其唯一参
Spyder 4 不显示绘图，并显示类似这样的消息“在绘图窗格选项菜单下取消选中“静音内联绘图””。

我写了这段代码它应该在spyder ide 中显示绘图 import pandas as pd import numpy as np import matplotlib pyplot as plt from IPython display
Java中如何替换第一次出现的字符串

我想替换下面第一次出现的字符串 String test see Comments this is for some test help us 如果测试包含如下输入则不应替换请参阅评论末尾有空格看评论看评论我想得到如下输出 Out
在 jQuery Mobile 和 PhoneGap 中创建模板/持久页眉/页脚模板

我正在深入使用 jQuery Mobile PhoneGap 编写移动应用程序我在用着这个示例模板 http coenraets org blog 2011 10 sample application with jquery mobile
GCC 配置文件引导优化 (PGO) 收集哪些信息以及哪些优化使用这些信息？

当我启用时 GCC 会收集哪些信息 fprofile generate以及哪个优化实际上使用了收集到的信息当设置 fprofile use flag 我这里需要引用我搜索了一段时间但没有找到任何记录有关链接时间优化 LTO 的信息将是
使用 C# 中的互操作将宏插入并运行到 Word 中

如何使用 C 中的 Interop 将宏插入并运行到 Word 文档中 using System Runtime InteropServices using Microsoft Vbe Interop using Word Microsof
Curl 如何 POST multipart/form-data 数据以及如何在 Flask 请求中读取 multipart/form-data

我尝试通过 CURL 发布 multipart form data 其中包含 JSON 对象流对象 pdf 和 jpeg 文件 curl i X POST H Authorization eyJhbGciOiJIUzI1NiIsImV4c
基于查询参数的WCF REST服务url路由

由于 WCF 路由不支持 REST 服务的路由因此我创建了一项 REST 服务该服务具有一个端点该端点接受所有传入请求并根据查询参数重定向这些请求我按照这篇文章做到了这一点http blog tonysneed com 2012
VBA 和 GetRawInputDeviceList

我正在 Access 2013 中工作并尝试获取 VBA 的 GetRawInputDeviceList GetRawInputDeviceInfo RegisterRawInputDevices 和 GetRawInputData 等效
从 XUL 运行 JavaScript 代码的单元测试 - 什么以及如何

我正在编写一个 XUL 应用程序它不是 Firefox 扩展而是通过 XULrunner 使用的独立应用程序我的目的是在我的开发过程中采用 TDD 我正在考虑犀牛单位 http code google com p rhinounit
官方 OpenCL 2.2 标准是否支持 WaveFront？

众所周知 AMD OpenCL 支持 WaveFront 2015 年 8 月 http amd dev wpengine netdna cdn com wordpress media 2013 12 AMD OpenCL Programm

官方 OpenCL 2.2 标准是否支持 WaveFront？

官方 OpenCL 2.2 标准是否支持 WaveFront？ 的相关文章

随机推荐

热门标签

官方 OpenCL 2.2 标准是否支持 WaveFront？的相关文章