opencl

OpenCL 内核未矢量化

我正在尝试构建一个内核来进行并行字符串搜索为此我倾向于使用有限状态机 fsm 的转换表位于内核参数状态中代码 kernel void Find constant char text const int offset const int

opencl vectorization

什么样的工作受益于 OpenCL

首先我很清楚 OpenCL 并没有神奇地让一切变得更快我很清楚 OpenCL 有局限性现在回答我的问题我习惯使用编程进行不同的科学计算我处理的一些事情在计算的复杂性和数量方面非常激烈所以我想知道也许我可以使用 OpenCL 来

scientificcomputing opencl

在多 GPU 系统中，如何将 OpenCL 设备与给定 PCI 供应商、设备和总线 ID 的特定 GPU 相匹配？

我希望能够在由 PCI ID 标识的多 GPU 系统上将 OpenCL 设备与系统中的 GPU 进行匹配例如如果我的系统具有多个 GPU 可能来自不同的供应商我可以通过枚举 PCI 总线来列出设备这为我提供了 PCI 供应商设备和

opencl GPU PCI

在混合供应商的硬件上运行 OpenCL

我一直在他们的 Stream 2 0 beta 中使用 ATI OpenCL 实现当前测试版中的 OpenCL 目前仅使用 CPU 下一版本应该支持 GPU 内核我下载 Stream 是因为我的工作机器上有 ATI GPU 我编写的软件

GPGPU opencl

在 OpenCL 中使用内核导致另一个内核

我已经编写了图像卷积的代码使用 API 的 clCreateImage2D 创建空间使用 clEnqueueWriteImage 写入设备使用 read imageui 读取内核中的图像使用 write imageui 将图像写回主

Kernel opencl

何时使用 cudaHostRegister() 和 cudaHostAlloc()？ “固定或页面锁定”内存是什么意思？ OpenCL 中哪些是等效的？

我刚刚接触 Nvidia 的 API 有些表达对我来说不太清楚我想知道是否有人可以帮助我了解何时以及如何以简单的方式使用这些 CUDA 命令更准确地说在研究如何通过内核并行执行例如使用 CUDA 来加速某些应用程序时在某些时候我面

memorymanagement CUDA opencl

固定内存OpenCL，有人成功使用过吗？

我用的是CL MEM ALLOC HOST PTR与我的旗帜clCreateBuffer调用但计算分析器将我的所有主机内存传输类型显示为可分页我在两种不同的内核设置中尝试过它但分析器不会显示我正在使用固定内存当内核开始使用固定内

memory CUDA opencl Allocation pinning

Java 中 GPGPU/CUDA/OpenCL 的最佳方法？

图形处理单元上的通用计算 GPGPU http en wikipedia org wiki GPGPU 是一个非常有吸引力的概念可以利用 GPU 的强大功能进行任何类型的计算我喜欢使用 GPGPU 进行图像处理粒子和快速几何运算目前

Java CUDA GPGPU opencl

为什么 Cuda/OpenCL 的全局内存中不存在库冲突？

我还没有弄清楚并且谷歌没有帮助我的一件事是为什么有可能与共享内存发生银行冲突但在全局内存中却没有银行与寄存器会存在冲突吗 UPDATE哇我真的很感谢 Tibbit 和 Grizzly 的两个回答看来我只能给一个答案打绿色复选标记

CUDA opencl NVIDIA bankconflict

了解 OpenCL 在 OpenCV 中的用法（Mat/ Umat 对象）

我运行下面的代码来检查 GPU 和 CPU 使用率之间的性能差异我正在计算平均时间cv cvtColor 功能我进行了四个函数调用 Just mat 不使用 OpenCLMat目的 Just UMat 不使用 OpenCLUmat目的

c performance opencv imageprocessing opencl

确定 OpenCL 工作组大小的限制因素？

我正在尝试在资源较少的嵌入式 GPU 上运行一些为桌面显卡编写的 OpenCL 内核特别是桌面版本假设始终支持至少 256 个工作组大小但基于 Mali T628 ARM 的 GPU 仅保证 64 工作组大小事实上一些内核报告CL

opencl Mali

在 OpenCL 内核中实现小型查找表的最佳方法是什么

在我的内核中需要对一个小查找表只有 8 个 32 位整数进行大量随机访问每个内核都有一个唯一的查找表下面是内核的简化版本用于说明如何使用查找表 kernel void some kernel global uint global

opencl

BLAS 相当于 GPU 的 LAPACK 函数

在LAPACK中有这个function http www netlib org lapack double dspgvx f对角化 SUBROUTINE DSPGVX ITYPE JOBZ RANGE UPLO N AP BP VL VU

CUDA opencl GPU Lapack blas

推力：填充隔离空间

我有一个像这样的数组 0 0 010 0 0 05 0 0 3 0 0 0 8 0 0 我希望每个非零元素一次扩展一个元素直到它到达其他非零元素结果是这样的 1 1 111 1 5 55 5 3 3 3 3 8 8 8 8 有什么办法可

CUDA opencl Thrust

opencl中的主机是什么？

我现在开始学习openCL 我现在正在做教程但我无法真正理解主机的想法有人可以解释吗谢谢 OpenCL 是一个旨在支持大规模并行处理的系统例如可以由现代图形芯片 GPU 执行的处理在 OpenCL 范例中主机程序是执行基于 G

opencl host

有没有办法分析 OpenCL 或 pyOpenCL 程序？

我正在尝试优化 pyOpenCL 程序出于这个原因我想知道是否有一种方法可以分析程序并查看大部分时间都花在哪里您知道如何解决这个问题吗提前致谢 Andi 编辑例如用于 CUDA 的 nvidias nvprof 可以用于 pyC

python opencl pyopencl

为 OpenCL 设置 Visual Studio 2010 的正确方法

设置 VisualStuio 2010 处理 cl 文件的正确方法是什么我在工具文本编辑器文件扩展名下添加了 cl 并将 usertype dat 复制到 common7 ide 文件夹中但 VS 为 float4 或 cross

visualstudio2010 opencl

在几秒钟而不是几小时内旋转数百个 JPEG

我们的计算机一次获取数百张图像我们需要尽快旋转它们并调整它们的大小旋转可旋转 90 度 180 度或 270 度目前我们使用的是命令行工具图形魔术师 http www graphicsmagick org 旋转图像旋转图像 5760

OpenGL graphics opencv opencl imagerotation

OpenCL 找不到平台？

我正在尝试将 C API 用于 OpenCL 我已经安装了 NVIDIA 驱动程序并且已经测试可以运行提供的简单向量加法程序here http www thebigblob com getting started with opencl

c opencl GPU