如何在 pyopencl 中创建可变大小的 __local 内存？

2024-05-14

在我的 C OpenCL 代码中我使用clSetKernelArg创建“可变尺寸”__local我的内核中使用的内存，OpenCL 本身不提供该内存。看我的例子：

clSetKernelArg(clKernel, ArgCounter++, sizeof(cl_mem), (void *)&d_B);
...
clSetKernelArg(clKernel, ArgCounter++, sizeof(float)*block_size*block_size, NULL);
...
kernel="    
    matrixMul(__global float* C,
                   ...
              __local float* A_temp,
                  ...
             )"
{...

我现在的问题是，如何在 pyopencl 中做同样的事情？

我查看了 pyopencl 附带的示例，但我唯一能找到的是使用模板的方法，在我看来，这似乎是一种矫枉过正的做法。参见示例。

kernel = """
        __kernel void matrixMul(__global float* C,...){
                     ... 
            __local float A_temp[ %(mem_size) ];
                     ...
        }

你有什么建议吗？

它与 C 类似。您将一个固定大小的数组作为本地数组传递给它。这是 Enja 基数排序的示例。请注意，最后一个参数是本地内存数组。

 def naive_scan(self, num):
    nhist = num/2/self.cta_size*16
    global_size = (nhist,)
    local_size = (nhist,)
    extra_space = nhist / 16 #NUM_BANKS defined as 16 in RadixSort.cpp
    shared_mem_size = self.uintsz * (nhist + extra_space)
    scan_args = (   self.mCountersSum,
                    self.mCounters,
                    np.uint32(nhist),
                    cl.LocalMemory(2*shared_mem_size)
                )
    self.radix_prg.scanNaive(self.queue, global_size, local_size, *(scan_args)).wait()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

opencl

pyopencl

如何在 pyopencl 中创建可变大小的 __local 内存？的相关文章

切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但

随机推荐

android edittext 带有下拉列表

我有一个编辑文本它从用户那里获取值我想添加一个选项允许用户在单击 edittext 时通过下拉列表从不同的选项中进行选择有谁知道如何做到这一点这是编辑文本代码
有没有一种软件可以在所有浏览器中测试网站？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想要一个可以安装大多数已知浏览器包括 ie 6 的软件让我像在浏览器上一样测试我的网站以修复我的 CSS 并使其跨浏览器我知
Java 8 Lambda 表达式编译成什么？ [复制]

这个问题在这里已经有答案了考虑以下 Java 8 片段 public static void main String args List
HTML 链接在移动设备上不可点击，但在桌面设备上可点击

我在使用移动网站顶部的两个按钮时遇到问题 www thefrienddentist ie 它们在桌面上可点击但在移动设备上我没有得到任何响应 html 放置在 WP 主题的标题中 div style background color wh
使用 Android NDK 将文件写入 SD 卡以外的位置？

除了SD卡之外还有其他方法可以将文件写入其他位置吗我在文件系统上尝试了许多不同的路径但 fopen 总是返回 NULL 除了我在 sdcard 内写入读取的任何文件还有其他相当于
Firefox 中的 jQuery 日期选择器日历问题 [重复]

这个问题在这里已经有答案了在 2016 年的某些月份我在 Firefox 移动和网络中的 jQuery UI 日期选择器中显示了错误的日期例如 2016 年 3 月 31 日是星期四 2016 年 4 月 1 日当然是星期五但在我
使用 Web API AuthorizeAttribute 角色的 Azure AD OAuth 客户端凭据授予流程

Given 我们有 NET Web API 服务它使用以下方式保护对控制器和操作的访问授权属性 https learn microsoft com en us dotnet api system web mvc authorizeattr
从 varchar(100) 类型获取时间（HH:MM AM/PM）格式

如何将字符串 RD OT 07 30 转换为时间我只知道如何将 07 30 AM 转换为时间下面的代码给了我一个空白数据 id strtoupper POST id query mysql query SELECT STR TO DAT
Java：为什么它使用固定数量的内存？或者它如何管理内存？

JVM 似乎使用了一些固定数量的内存至少我经常看到参数 Xmx 对于最大尺寸和 Xms 对于初始大小这表明我感觉 Java 应用程序不能很好地处理内存我注意到一些事情即使一些非常小的示例演示应用程序也会加载大量内存也许这是因为
什么是 char i=0x80 以及为什么位移位中没有发生溢出

这是一个程序 include
在 iOS 8 中创建通话/双高状态栏？

是否有调用自定义通话双高状态栏的标准方法如果没有那么构建我自己的功能的最佳起点是哪里我知道关于如何做到这一点存在一些多年的问题但没有任何令人满意的答案有什么新方法可以做到这一点吗可能在 iOS 8 中这里没有什么新鲜事但我
TypeError [ClientMissingIntents]：必须为客户端提供有效意图

我在 replit 上的 Discord js 中创建机器人时代码中出现以下错误 TypeError ClientMissingIntents 必须为客户端提供有效的意图在 Client validateOptions home run
Edi 文件头未使用 BizTalk 转换为 XML

我创建了将 EDI 转换为 XML 的 BizTalk 项目它将所有事务段转换为 XML 但标头段 n 例如 ISA 不会转换为 XML 格式 Here is configuration in BizTalk for EDI file 我
在 lambda 中延迟初始化和缓存内部值的简洁方法

首先用简单的方法让代码自己说话 int heavy calc needed to be called once sleep 7500000 years return 42 int main auto foo And cached for l
AsyncTask 和 Handlers 之间有什么区别？在 Listview 中使用哪一个更好？

我正在使用嵌入在另一个列表中的多个列表这显然会减慢应用程序的速度因此我想到使用多线程将单独的列表视为线程然后将其中加载的数据作为单独的线程以使其更快这是更好的方法吗我可以根据它举一些例子吗甚至链接 Handler 与应用程序
如何设置Python的USER_SITE；我需要吗？

我在 OS X 10 10 只需使用 pip 维护上安装了 Python 我的站点包位于 Library Python 2 7 site packages 苹果的封装在 System Library Frameworks Python f
玩笑错误 TypeError: (0 , _jest.test) 不是函数

我收到错误类型错误 0 jest test 不是一个函数当尝试使用时npm test 我认为这可能与配置有关我该如何解决这个问题 File sum js function sum a b return a b export defau
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
使用 iPhone 控制蓝牙音频设备

我正在寻找为 iPhone 编写应用程序它将能够控制汽车中的收音机和 CD 播放器收音机和播放器具有可用的蓝牙连接我开始这个问题是为了获得这个地方所需的所有信息我有几个问题但如果您发现任何我没有要求的对我开始开发此应用程序不重要的
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof

如何在 pyopencl 中创建可变大小的 __local 内存？

如何在 pyopencl 中创建可变大小的 __local 内存？ 的相关文章

随机推荐

热门标签

如何在 pyopencl 中创建可变大小的 __local 内存？的相关文章