在 OpenCL 内核中动态创建本地数组

2024-02-29

我有一个 OpenCL 内核，需要将一个数组作为多个数组进行处理，其中每个子数组总和都保存在本地缓存数组中。

例如，想象一下捕鸟数组：

[[1, 2, 3, 4], [10, 30, 1, 23]]

每个工作组都有一个数组（在示例中我们有 2 个工作组）；

每个工作项处理两个数组索引（例如将值索引乘以 local_id），其中工作项结果保存在工作组共享数组中。

__kernel void test(__global int **values, __global int *result, const int array_size){
    __local int cache[array_size];

    // initialise
    if (get_local_id(0) == 0){
        for (int i = 0; i < array_size; i++)
            cache[i] = 0;
    }

    barrier (CLK_LOCAL_MEM_FENCE);

    if(get_global_id(0) < 4){
        for (int i = 0; i<2; i++)
            cache[get_local_id(0)] += values[get_group_id(0)][i] * 
                                                         get_local_id(0);
    }

    barrier (CLK_LOCAL_MEM_FENCE);

    if(get_local_id(0) == 0){
        for (int i = 0; i<array_size; i++)
            result[get_group_id(0)] += cache[i];
    }
}

问题是我无法使用内核参数定义缓存数组大小，但我需要这样做才能拥有动态内核。

我怎样才能动态创建它？就像c中的malloc函数一样...

或者唯一可用的解决方案是将临时数组发送到我的内核函数？

这可以通过添加来实现__local数组作为内核参数：

__kernel void test(__global int **values, __global int *result, 
    const int array_size, __local int * cache)

并提供所需的内核参数大小：

clSetKernelArg(kernel, 3, array_size*sizeof(int), NULL);

本地内存将在内核调用时分配。请注意，可能需要进行额外的检查以确保所需的本地内存大小不超过设备限制。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

memorymanagement

opencl

GPGPU

pyopencl

在 OpenCL 内核中动态创建本地数组的相关文章

利用“写入时复制”将数据复制到 Multiprocessing.Pool() 工作进程

我有一点multiprocessingPython 代码看起来有点像这样 import time from multiprocessing import Pool import numpy as np class MyClass objec
对 Python 的 id() 感到困惑[重复]

这个问题在这里已经有答案了我可以理解以下定义每个对象都有一个身份类型和值对象的身份一旦创建就永远不会改变你可能会认为它是对象在内存中的地址这is操作员比较身份两个物体这id 函数返回一个代表其值的整数身份我假设上面的
动态分配对象数组

我有一个包含动态分配数组的类例如 class A int myArray A myArray 0 A int size myArray new int size A Note that as per MikeB s helpful sty
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
我什么时候应该从正在观察持久模型类的正在关闭的 ViewController 类中调用removeObserver：forKeyPath？

我有一个ViewController具有一个属性的类该属性是我想要观察模型属性变化的模型在我的模型对象中我有一个在应用程序后台定期更新的属性当它更新时我需要在我的内部执行代码ViewController 为此我从我的模型中创建了
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
为什么 new()/delete() 比 malloc()/free() 慢？

为什么new delete 比malloc free 慢 EDIT 感谢到目前为止的回答如果您有new 和delete 的标准C 实现规范请指出谢谢看一下这段C代码 struct data pd malloc sizeof stru
内存地址是否指向一个字节的信息？

以下是 DTS 文件的摘录 linux arch powerpc boot dts 板名 dts memory device type memory reg lt 0x00000000 0x40000000 gt 1GB at 0 嵌入式设
为什么 mmap 在 iOS 上失败？

我正在尝试使用 mmap 在 iOS 上读取和播放音频文件它适用于最大约 400MB 的文件但当我尝试 500MB 文件时出现 ENOMEM 错误 char path NSBundle mainBundle pathForResour
Environment.WorkingSet 错误地报告内存使用情况

Environment WorkingSet 错误地报告在 Windows 2003 Server 上运行的网站的内存使用情况操作系统版本 Microsoft Windows NT 5 2 3790 Service Pack 2 NET
Windows 中内存分配的限制+我计算得是否正确？

我正在编写一个需要大量内存的程序大型图形分析目前我的程序中有两个主要的数据结构占用了大部分内存这些都是 n n 类型的矩阵int 和长度为 n 的数组类型Node 在本例中节点是一个包含两个 int 的结构体 sizeof No
本地时间的内存需要释放吗？

void log time t current time 0 tm ptm localtime current stuf 只是想确定我是否需要在方法结束时释放 tm 指针分配的内存不你不应该释放它该结构是静态分配的检查文档 htt
如何在 Emgu CV 项目中利用 OpenCL

我是使用 Emgu CV 的新手并开始创建小型示例项目例如面部检测眼睛检测等如果我可以利用 OpenCL 来加速使用 GPU 的过程那就太好了否则当我降低scaleFactor时它会导致大量的CPU利用率我怎样才能做到这一
mprotect 之后 malloc 导致分段错误

在使用 mprotect 保护内存区域后第一次调用 malloc 时我遇到分段错误这是执行内存分配和保护的代码片段 define PAGESIZE 4096 void paalloc int size Allocates and ali
默认析构函数做了多少事情

C 类中的默认析构函数是否会自动删除代码中未显式分配的成员例如 class C public C int arr 100 int main void C myC new C delete myC return 0 删除 myC 会自动释放
C++中const对象位于哪个内存区域？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 OpenCL 中将函数作为参数传递

是否可以在 OpenCL 1 2 中将函数指针传递给内核我知道可以用C实现但不知道如何在OpenCL的C中实现编辑我想做这篇文章中描述的同样的事情在 C 中如何将函数作为参数传递 https stackoverflow com q
为什么 std::allocator 在 C++17 中丢失成员类型/函数？

一边看着std 分配器 http en cppreference com w cpp memory allocator 我看到成员 value type pointer const pointer reference const refer
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
为什么我不应该对不是由 malloc() 分配的变量调用 free() ？

我在某处读到使用它是灾难性的free删除不是通过调用创建的对象malloc 这是真的为什么这是未定义的行为永远不要尝试它让我们看看当您尝试时会发生什么free 自动变量堆管理器必须推断出如何获取内存块的所有权为此它要么必须使

随机推荐

尝试在 Windows 上运行 Qt 应用程序的发布版本时出错

我正在尝试构建我的应用程序的 Windows 版本该程序在 Qt Creator 上编译并运行良好但当我尝试独立运行它时它会抛出以下错误 The procedure entry point Z17qt message output9Q
Codeigniter：使用活动记录时$query->free_result()？

在我完成 CodeIgniter 模型中活动记录查询的结果集后我应该使用 query gt free result 或者 ActiveRecord 会自动执行此操作吗 PHP 将在脚本完成后清理所有内容但是如果在循环中存在大量查询则
Google Cloud VM 当 sudoing 要求输入密码时

我一直在使用 Google Cloud debian 虚拟机并且使用 sudo 执行超级用户任务完全没有问题 sudo 不要求输入密码今天我像往常一样通过 SSH 连接当我尝试须藤某事它开始要求输入密码 We trust you ha
在 C# 中将字符串转换为整数时出现异常

我收到错误格式异常未处理输入字符串的格式不正确对于这一行 int right System Convert ToInt32 rightAngleTB Text rightAngleTB 是 TextBox 值 Text 是 25 不带
将 Linq 查询结果导出到 Excel EPPLUS

我开发了一个程序来获取 Linq 查询并使用 EPPLUS 将其写入 excel 文件下面的代码但它很慢因为它逐行填充文件有没有办法一次把excel文件全部填满一次将所有查询导出到 Excel 文件 fnctnData是查询结果
如何在 R markdown 投影仪中打印很长（超过 1 页）的参考书目？

我在渲染涵盖多个页面的参考书目时遇到问题因为只有第一页是使用 RMarkdown 和 beamer 输出打印的同样的问题已发布在http rmarkdown rstudio com authoring bibliographies an
如何检查跨域请求是否被禁用

我一直在阅读为了确保 ajax 请求安全我需要确保禁用跨站点请求在服务器端如何禁用跨站点请求或者检查它们是否被禁用启用默认情况下禁用跨站点请求仅供参考看看同源政策 http en wikipedia org wiki Sa
jquery 中的 XML 解析似乎不适合我

我有一个静态 html 页面weather html
在没有 JQuery 的情况下检查 select 元素中是否存在选项？

不幸的是我无法访问 JQuery 以及它的所有优点但我确实可以使用 JavaScript 如何检查 HTML Select 中是否存在 OPTION 编辑为了澄清我需要知道是否存在选项例如
在 Objective-C 中检查方法参数的最佳方法是什么？

在对方法或函数进行编码时最好检查输入参数以响应任何可能的失败情况例如 void insertNameInDictionary NSString nameString myDictionary setObject nameString f
如何在 Spring 和 EJB 中使用相同的事务？

我没有 Spring 开发经验因为我们是一家 Java EE 商店然而我们正在寻找一种能够满足我们需求的解决方案该解决方案在 Spring 上运行并且应该集成我们现有的 Java EE 解决方案阅读 Spring 3 0 5 文
jquery函数中的索引是什么意思

我是一个 jQuery 初学者所以如果质量不好请原谅我我想知道什么是index函数中的意思以及它到底指的是什么以前我认为它指的是索引号如 0 1 2 3 等但是当我通过 1 2 3 代替索引时我的代码停止工作我检查了这个的类型
java.lang.ClassCastException 无法转换为 android.app.Fragment

我有 MainActivity 类它有实例化 ApplicationBar 的方法所有其他 Activity 都继承于此MainActivity所以他们可以使用这种方法但我还有一个 MapHolder 类它必须从FragmentAc
indexs[201] = [0,8] 乱序。许多稀疏操作需要排序索引。使用“tf.sparse.reorder”创建正确排序的副本

我正在对每个变量进行编码的神经网络当我要拟合模型时会出现错误 indices 201 0 8 is out of order Many sparse ops require sorted indices Use tf sparse re
将 ListBoxItem IsSelected 触发器传播到子控件

我正在开发一个可自行拆卸的 CheckedListBoxListBoxItems 问题是只有当用户单击某个项目时才会检查该项目CheckBox区这有点尴尬我如何创建ListBoxItem触发器 IsSelected 以选中 DataSo
如何修复 Windows 上 Sublime Text 3 中的“权限被拒绝collect2.exe：错误：ld 返回 1 退出状态”

所以在 Sublime Text 3 中我编写了一个 cpp 文件我是编译器有 C Program Files mingw w64 x86 64 8 1 0 posix seh rt v6 rev0 mingw64 bin lib
如何从 io.ReadCloser 转到 io.ReadSeeker？

我正在尝试从 S3 下载文件并将该文件上传到 S3 中的另一个存储桶复制 API 在这里不起作用因为我被告知不要使用它从 S3 获取对象有一个response Body那是一个io ReadCloser要上传该文件有效负载需要Bod
Telegram Bot 通过 node.js 实时定位

如何发送电报机器人实时位置我在用着node telegram bot api Module Code 此代码仅发送位置 await bot sendLocation msg chat id 35 804819 51 434070 Solv
如何通过 Clap 将所有命令行参数传递给另一个程序？

我有一个程序foo使用Clap https github com clap rs clap处理命令参数解析 foo调用另一个程序 bar 最近我决定用户foo应该能够将参数传递给bar如果他们喜欢的话我添加了bar拍手命令 let ma
在 OpenCL 内核中动态创建本地数组

我有一个 OpenCL 内核需要将一个数组作为多个数组进行处理其中每个子数组总和都保存在本地缓存数组中例如想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组在示例中我们有 2 个工作组每个工作项处理两

在 OpenCL 内核中动态创建本地数组

在 OpenCL 内核中动态创建本地数组 的相关文章

随机推荐

热门标签

在 OpenCL 内核中动态创建本地数组的相关文章