opencl

并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen

c Algorithm Sorting parallelprocessing opencl

有关 OpenCL 内核编程的教程或书籍？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我认为这个问题足够具体只是为了说清楚我不是在寻找参考而是在寻找教程我对内核编程方面特别感兴趣市

Kernel opencl GPGPU

OpenGL-OpenCL 互操作传输时间 + 位图纹理

两部分问题我正在开展一个学校项目使用生命游戏作为实验 gpgpu 的工具我使用 OpenCL 和 OpenGL 进行实时可视化目标是让这个东西尽可能大更快经过分析我发现帧时间主要由 CL 获取和释放 GL 缓冲区决定并且时间

OpenGL opencl

使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新

python python27 GPU opencl pyopencl

cl::vector 与 std::vector：不同的迭代器行为

EDIT 添加了 PlasmaHH 建议的带有内存位置的调试输出我不明白 OpenCL 的 C 绑定中 cl vector 的不同行为考虑以下代码 Header Top hpp class Top public void setBool

c vector Iterator opencl

OpenCL 标头包含与 C++ 中的相对路径问题

我正在尝试在 Eclipse CTD 上运行 OpenCL C 示例该示例在 Mac 上包含 OpenCL 标头如下所示 include

c MacOS eclipsecdt opencl

OpenGL/OpenCL 互操作、OpenCL 渲染到纹理的麻烦

我正在尝试将 OpenCL 渲染为 OpenGL 256x256 纹理全部编译正确但仅呈现黑屏如果关闭纹理它通常会渲染白色矩形 Setting up OpenCL const char source kernel void Main

c OpenGL opencl textures

限制 AMD OpenCL 的 GPU 数量

是否有解决方案限制 AMD OpenCL 平台使用的 GPU 数量对于 NVIDIA 平台只需设置环境变量即可CUDA VISIBLE DEVICES限制 OpenCL 可用的 GPU 集编辑我知道我可以使用更少的设备创建一个上下

opencl

数组大小和复制性能

我确信这个问题之前已经得到了回答但我找不到一个好的解释我正在编写一个图形程序其中管道的一部分将体素数据复制到 OpenCL 页面锁定固定内存我发现这个复制过程是一个瓶颈并对一个简单的性能进行了一些测量std copy 数据是浮

c Arrays copy opencl Bandwidth

内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数

opencl GPU memcpy boostcompute

预处理器愚蠢的做法（对 #include 进行字符串化）

注意这个问题与 OpenCL 本身无关请检查最后一段以获取我的问题的简洁陈述但提供一些背景我正在编写一些使用 OpenCL 的 C 代码我喜欢将 OpenCL 内核的源代码保存在自己的文件中以便于编码和维护而不是直接将源代码作

c include opencl cpreprocessor stringification

OpenCL 中的矩阵求逆

我正在尝试使用 OpenCL 加速一些计算算法的一部分包括反转矩阵是否有任何开源库或免费可用的代码来计算用 OpenCL 或 CUDA 编写的矩阵的 lu 分解 lapack dgetrf 和 dgetri 或一般求逆该矩阵是实数且为

opencl

性能：boost.compute vs. opencl C++ 包装器

以下代码分别使用 boost compute 和 opencl C 包装器将两个向量相加结果显示 boost compute 几乎比 opencl c 包装器慢 20 倍我想知道我是否错过了使用 boost compute 或者它确实很

c boost opencl boostcompute

在 OpenCL 中以编程方式选择最佳 GPU 的最佳方法是什么？

我的笔记本电脑上有两个显卡 Intel Iris 和 Nvidia GeForce GT 750M 我正在尝试使用简单的向量相加OpenCL 我知道 Nvidia 卡速度更快并且可以更好地完成工作原则上我可以把if代码中的语句将查找N

c opencl GPGPU

计算 OpenCL C 中内核代码的运行时间

我想测量内核代码在各种设备即 CPU 和 GPU 上的性能读取运行时我写的内核代码是 kernel void dataParallel global int A sleep 10 A 0 2 A 1 3 A 2 5 int pnp p

c Linux parallelprocessing opencl GPGPU

在 OpenCL 中，mem_fence() 与 Barrier() 相比有何作用？

Unlike barrier 我想我明白 mem fence 不影响工作组中的所有项目 OpenCL 规范指出第 6 11 10 节对于mem fence 命令加载和存储执行内核的工作项所以它适用于single工作项但同时在第 3

opencl GPGPU memorybarriers Barrier memoryfences

我可以使用 OpenCL 分配设备内存并在 CUDA 中使用指向内存的指针吗？

假设我使用 OpenCL 来管理内存以便 GPU CPU 之间的内存管理使用相同的代码但我的计算使用优化的 CUDA 和 CPU 代码不是 OpenCL 我仍然可以使用 OpenCL 设备内存指针并将它们传递给 CUDA 函数内核吗

c memory CUDA opencl

PyOpenCL 中的时间测量

我正在 FPGA 和 GPU 中使用 PyOpenCL 运行内核为了测量执行所需的时间我使用 t1 time event mykernel queue c width c height block size block size d c

time opencl GPU FPGA pyopencl

不受信任的 GPGPU 代码（OpenCL 等）- 安全吗？有什么风险？

在典型的 CPU 上运行不受信任的代码有很多方法沙箱假根虚拟化 GPGPU 不受信任的代码 OpenCL cuda 或已编译的代码怎么样假设在运行此类第三方不受信任代码之前清除了显卡上的内存是否存在安全隐患什么样的风险 Any

security CUDA sandbox opencl GPGPU

OpenCL 中的最佳本地/全局工作规模

我想知道如何在 OpenCL 中为不同设备选择最佳的本地和全局工作大小 AMD NVIDIA INTEL GPU 有什么通用规则吗我是否应该分析设备的物理构建多处理器数量多处理器中的流处理器数量等这取决于算法实现吗因为我看到一些

opencl