在 OpenCL 内核中实现小型查找表的最佳方法是什么

2024-01-02

在我的内核中，需要对一个小查找表（只有 8 个 32 位整数）进行大量随机访问。每个内核都有一个唯一的查找表。下面是内核的简化版本，用于说明如何使用查找表。

__kernel void some_kernel(  
    __global uint* global_table,
    __global uint* X,
    __global uint* Y) {

    size_t gsi = get_global_size(0);
    size_t gid = get_global_id(0);

    __private uint LUT[8]; // 8 words of of global_table is copied to LUT

    // Y is assigned a value from the lookup table based on the current value of X
    for (size_t i = 0; i < n; i++) {
        Y[i*gsi+gid] = LUT[X[i*gsi+gid]];
    }   
}

由于尺寸较小，我通过将表保留在 __private 内存空间中来获得最佳性能。然而，由于访问查找表的随机性，仍然对性能造成很大影响。删除查找表代码后（例如，用简单的算术运算代替），尽管内核会提供错误的答案，但性能会提高 3 倍以上。

有没有更好的办法？我是否忽略了一些 OpenCL 功能，该功能可以为非常小的内存块提供高效的随机访问？是否有使用向量类型的有效解决方案？

[编辑] 请注意，X 的最大值为 7，但 Y 的最大值为 2^32-1。换句话说，查找表的所有位都被使用，因此它不能被打包成更小的表示形式。

我能想到的最快的解决方案是首先不使用数组：而是使用单个变量并使用某种访问函数来访问它们，就像它们是数组一样。 IIRC（至少对于 AMD 编译器来说是这样，但我很确定对于 NVidia 来说也是如此）：一般来说，数组总是存储在内存中，而标量则存储在内存中may被存储在寄存器中。（但我对这个问题有点模糊——我可能是错的！）

即使您需要一个巨大的 switch 语句：

uint4 arr0123, arr4567;
uint getLUT(int x) {
    switch (x) {
    case 0: return arr0123.r0;
    case 1: return arr0123.r1;
    case 2: return arr0123.r2;
    case 3: return arr0123.r3;
    case 4: return arr4567.r0;
    case 5: return arr4567.r1;
    case 6: return arr4567.r2;
    case 7: default: return arr4567.r3;
    }
}

...与 __private 数组相比，您可能仍然在性能方面领先，因为假设 arr 变量全部适合寄存器，则纯粹是 ALU 绑定的。（当然，假设您有足够的备用寄存器用于 arr 变量。）

请注意，某些 OpenCL 目标甚至不have私有内存，您在那里声明的任何内容都会进入 __global。使用寄存器存储是一个更大的胜利。

当然，这种 LUT 方法的初始化速度可能较慢，因为您需要至少两次单独的内存读取来从全局内存复制 LUT 数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

在 OpenCL 内核中实现小型查找表的最佳方法是什么的相关文章

什么样的工作受益于 OpenCL

首先我很清楚 OpenCL 并没有神奇地让一切变得更快我很清楚 OpenCL 有局限性现在回答我的问题我习惯使用编程进行不同的科学计算我处理的一些事情在计算的复杂性和数量方面非常激烈所以我想知道也许我可以使用 OpenCL 来
OpenCL 中的最佳本地/全局工作规模

我想知道如何在 OpenCL 中为不同设备选择最佳的本地和全局工作大小 AMD NVIDIA INTEL GPU 有什么通用规则吗我是否应该分析设备的物理构建多处理器数量多处理器中的流处理器数量等这取决于算法实现吗因为我看到一些
OpenGL-OpenCL 互操作传输时间 + 位图纹理

两部分问题我正在开展一个学校项目使用生命游戏作为实验 gpgpu 的工具我使用 OpenCL 和 OpenGL 进行实时可视化目标是让这个东西尽可能大更快经过分析我发现帧时间主要由 CL 获取和释放 GL 缓冲区决定并且时间
并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen
工作组之间的 OpenCL 同步

是否可以同步 OpenCL 工作组例如我有 100 个工作组每个工作组只有一个项目不要问我为什么这是一个例子我需要对每个工作项设置障碍以确保所有工作组都会在这 100 个工作组中的每个工作项达到此障碍点后继续不你不能您可
OpenCL 本地内存大小和计算单元数量

每个 GPU 设备 AMD NVidea 或任何其他都分为多个计算单元多处理器每个计算单元都有固定数量的内核顶点着色器流处理器所以一个人有 Compute Units x VertexShaders compute unit
如何在 OpenCL 中验证波前/扭曲大小？

我使用的是 AMD Radeon HD 7700 GPU 我想使用以下内核来验证波前尺寸是否为 64 kernel void kernel test warpsize global T dataSet uint size size t id
OpenCL clBuildProgram 缓存源代码，如果 #include 源代码发生更改，则不会重新编译

我用opencl实现了一个项目我有一个包含内核函数的文件内核使用的函数包含在单独的头文件中但是当我更改包含的文件时有时会应用更改有时则不会这让我很困惑应用程序是否有错误我检查了 stackoverflow 中的其他帖子发现
OpenCL 双精度与 CPU 双精度不同

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程我的CPU和GPU双精度结果不一致我可以在这里发布部分代码但我首先想知道是否有其他人遇到过这个问题当我运行多次迭代的循环时 GPU 和 CPU 双精
OpenCL：头文件的附加目录

OpenCL 规范中写道5 6 3 构建选项 5 6 3 1 预处理器选项 I dir Add the directory dir to the list of directories to be searched for header f
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误？

使用 OpenCL 进行简单的矩阵乘法 Multiply two matrices A B C include
为什么程序（全局）作用域变量必须是 __constant？

我是 OpenCL 新手对这个限制感到非常困惑例如如果我想写一个LCG 我必须使状态字可以修改为rand and srand 在 ANSI C 中我将使用以下方法来做到这一点 ANSI C static unsigned long
OpenCL 在调用 clGetPlatformIDs 时崩溃

我是 OpenCL 新手在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
空的 openCL 程序抛出弃用警告

我下载了 AMD APP 3 0 SDK 一旦包含 include
杀死 OpenCL 内核

有没有办法通过 OpenCL API 终止正在运行的 OpenCL 内核我在规范中没有找到任何内容我能想到的唯一解决方案是 1 定期检查内核中主机希望内核停止时写入的标志或 2 在单独的进程中运行内核并终止整个进程我认为这两个都不是
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解
如何在 Emgu CV 项目中利用 OpenCL

我是使用 Emgu CV 的新手并开始创建小型示例项目例如面部检测眼睛检测等如果我可以利用 OpenCL 来加速使用 GPU 的过程那就太好了否则当我降低scaleFactor时它会导致大量的CPU利用率我怎样才能做到这一
是否可以在 OpenCL 中并行运行求和计算？

我是 OpenCL 的新手不过我了解 C C 基础知识和 OOP 我的问题如下是否可以以某种方式并行运行求和计算任务理论上可能吗下面我将描述我尝试做的事情任务例如是 double values new double 1000 l

随机推荐

找到 R 中每个组的 75 个百分位数并用中位数替换

这些问题与我自己的主题类似计算 90 百分位并将其替换为 R 中各组的中位数 https stackoverflow com questions 51929941 calculation of 90 percentile and repla
为什么 onPostExecute 在 AsyncTask 中的 doInBackground 完成之前执行

我试图创建一个 AsyncTask 从服务器端获取一些数据但它在 IOUtils copy response getEntity getContent writer 行的 onPostExecute 中报告空指针异常我使用一些日志来查看发
我们可以从 Android 应用程序连接到 sql server 吗？

我正在开发一个与网站关联的应用程序我的应用程序主屏幕包含登录和注册按钮在用户注册时所有字段值都必须存储在SQL Server 中是否可以从移动 Android 应用程序连接到 SQL Server 如果是这样怎么办在您的网站上我
将字符串转换为 System.IO.Stream [重复]

这个问题在这里已经有答案了我需要将 String 转换为 System IO Stream 类型以传递给另一个方法我尝试了这个但没有成功 Stream stream new StringReader contents 尝试这个 conv
使用空条件布尔？在 if 语句中[重复]

这个问题在这里已经有答案了为什么这段代码有效 if list Any true 但这段代码没有 if list Any saying 错误 CS0266 无法隐式转换类型 bool 布尔那么为什么它不是一个语言特性在中进行这样的隐式转换
从 github 安装 R 包时出错：找不到构建 data.table 所需的构建工具

在 RStudio 中我尝试从 github 安装 data table 包如下这些说明 https stackoverflow com a 9656182 4945268 并且该包似乎下载没有问题 gt library devtool
我的应用程序如何检测另一个应用程序窗口的更改？

在 Mac 上的 Cocoa 中我想检测属于另一个应用程序的窗口何时被移动调整大小或重新绘制我怎样才能做到这一点您需要使用 Accessibility API 它们是纯 C 语言位于 ApplicationServices 框架内
如何更改 Firebase 身份验证的应用名称（用户看到的内容）

感谢 Firebase v 3 9 0 我的社交 OAuth 在我的 ionic 应用程序中运行良好我想做一个小小的改变当提示登录时它会显示登录以继续my real appname 12345f firebaseapp com 如何
C# 进度条与下载不同步（WebClient 类）

我正在编写一个系统其中包含一个小型 FTP 模块它根本不是主要功能但需要我必须将进度条与 WebClient 类事件 DownloadProgressChangedEventHandler 和 AsyncCompletedEvent
如何访问隐藏分区/卷

我必须使用 C 或 C 编写代码来访问隐藏的磁盘分区卷但找不到有关此事的任何帮助参考作为隐藏卷它不包含磁盘盘符因此您不能仅键入 C 并访问它一个例子是 Windows 附带的恢复分区你在资源管理器上看不到它但它就在那里
活锁的好例子？

我了解活锁是什么但我想知道是否有人有一个很好的基于代码的示例通过基于代码我做not意思是两个人试图在走廊里超越对方如果我再读一遍我就会失去午餐这是一个非常简单的 Java 活锁示例丈夫和妻子试图喝汤但他们之间只有一把勺子
OpenJDK 与 OracleJDK 中的字体稍宽

我注意到使用 OpenJDK 与 OracleJDK 的字体间距存在差异我已将范围缩小到字体它们由 OpenJDK 渲染得稍宽一些仔细目视上面的屏幕截图显示字符宽度是相同的唯一的区别是间距我还通过对所有字符 A Za z0 9 的
压缩序列化 Python 数据最节省空间的方法是什么？

From Python 文档 https docs python org 3 library pickle html 默认情况下 pickle 数据格式使用相对紧凑的二进制表示形式如果您需要最佳的大小特征您可以有效地压缩腌制数据我将在
在确认弹出窗口中取消来自 javascript 的回发

出现这个问题后ASP NET 如果使用 onclick 则不会调用 OnServerClick 事件处理程序 https stackoverflow com questions 1245033 asp net onserverclick e
CodeIgniter - 奇怪的输出问题

我发现脚本输出存在一个非常奇怪的问题有时我会在输出开始之前得到一个四位十六进制代码并在输出末尾得到一个零例如 2fc3 0 十六进制数根据请求的 uri 和或内容而变化我没有使用缓存并且输出压缩已关闭我在几个项目中看到了这个问题
无法在 Ubuntu Windows 上的 bash 上连接到 Docker 守护进程

我能够安装 docker docker compose 和 docker machine 但是当我尝试跑步时 root DESKTOP 51NFMIM docker ps Cannot connect to the Docker daemo
（对象）是一个“字段”，但使用方式类似于“类型”

我的智能感知给了我错误 ClassLibrary1 GetTimeZone myWorldTime 是一个字段但使用方式类似于类型知道我做错了什么吗 Object Browser for the class1 https i sta
如何获得唯一确定给定双精度的“最短”BigDecimal

基本上我很好奇如何掌握new BigDecimal Double toString d 无需经历创建字符串的过程 The 的文档Double toString http download oracle com javase 6 docs
使用 ASCII 和基数 128 混淆字符串

假设一个字符串是一个数字系统其中每个事物可以是字符 DEL 或任何 ASCII 事物根据该 ASCII 都有一个对应的数字table http web eecs utk edu pham ascii table jpg 在Python
在 OpenCL 内核中实现小型查找表的最佳方法是什么

在我的内核中需要对一个小查找表只有 8 个 32 位整数进行大量随机访问每个内核都有一个唯一的查找表下面是内核的简化版本用于说明如何使用查找表 kernel void some kernel global uint global

在 OpenCL 内核中实现小型查找表的最佳方法是什么

在 OpenCL 内核中实现小型查找表的最佳方法是什么 的相关文章

随机推荐

热门标签

在 OpenCL 内核中实现小型查找表的最佳方法是什么的相关文章