Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
OpenCL 内核未矢量化
我正在尝试构建一个内核来进行并行字符串搜索 为此 我倾向于使用有限状态机 fsm 的转换表位于内核参数状态中 代码 kernel void Find constant char text const int offset const int
opencl
vectorization
什么样的工作受益于 OpenCL
首先 我很清楚 OpenCL 并没有神奇地让一切变得更快 我很清楚 OpenCL 有局限性 现在回答我的问题 我习惯使用编程进行不同的科学计算 我处理的一些事情在计算的复杂性和数量方面非常激烈 所以我想知道 也许我可以使用 OpenCL 来
scientificcomputing
opencl
在多 GPU 系统中,如何将 OpenCL 设备与给定 PCI 供应商、设备和总线 ID 的特定 GPU 相匹配?
我希望能够在由 PCI ID 标识的多 GPU 系统上将 OpenCL 设备与系统中的 GPU 进行匹配 例如 如果我的系统具有多个 GPU 可能来自不同的供应商 我可以通过枚举 PCI 总线来列出设备 这为我提供了 PCI 供应商 设备和
opencl
GPU
PCI
在混合供应商的硬件上运行 OpenCL
我一直在他们的 Stream 2 0 beta 中使用 ATI OpenCL 实现 当前测试版中的 OpenCL 目前仅使用 CPU 下一版本应该支持 GPU 内核 我下载 Stream 是因为我的工作机器上有 ATI GPU 我编写的软件
GPGPU
opencl
在 OpenCL 中使用内核导致另一个内核
我已经编写了图像卷积的代码 使用 API 的 clCreateImage2D 创建空间 使用 clEnqueueWriteImage 写入设备 使用 read imageui 读取内核中的图像 使用 write imageui 将图像写回主
Kernel
opencl
何时使用 cudaHostRegister() 和 cudaHostAlloc()? “固定或页面锁定”内存是什么意思? OpenCL 中哪些是等效的?
我刚刚接触 Nvidia 的 API 有些表达对我来说不太清楚 我想知道是否有人可以帮助我了解何时以及如何以简单的方式使用这些 CUDA 命令 更准确地说 在研究如何通过内核并行执行 例如使用 CUDA 来加速某些应用程序时 在某些时候我面
memorymanagement
CUDA
opencl
固定内存OpenCL,有人成功使用过吗?
我用的是CL MEM ALLOC HOST PTR与我的旗帜clCreateBuffer调用 但计算分析器将我的所有 主机内存传输类型 显示为可分页 我在两种不同的内核设置中尝试过它 但分析器不会显示我正在使用固定内存 当内核开始使用固定内
memory
CUDA
opencl
Allocation
pinning
Java 中 GPGPU/CUDA/OpenCL 的最佳方法?
图形处理单元上的通用计算 GPGPU http en wikipedia org wiki GPGPU 是一个非常有吸引力的概念 可以利用 GPU 的强大功能进行任何类型的计算 我喜欢使用 GPGPU 进行图像处理 粒子和快速几何运算 目前
Java
CUDA
GPGPU
opencl
为什么 Cuda/OpenCL 的全局内存中不存在库冲突?
我还没有弄清楚并且谷歌没有帮助我的一件事是 为什么有可能与共享内存发生银行冲突 但在全局内存中却没有 银行与寄存器会存在冲突吗 UPDATE哇 我真的很感谢 Tibbit 和 Grizzly 的两个回答 看来我只能给一个答案打绿色复选标记
CUDA
opencl
NVIDIA
bankconflict
了解 OpenCL 在 OpenCV 中的用法(Mat/ Umat 对象)
我运行下面的代码来检查 GPU 和 CPU 使用率之间的性能差异 我正在计算平均时间cv cvtColor 功能 我进行了四个函数调用 Just mat 不使用 OpenCLMat目的 Just UMat 不使用 OpenCLUmat目的
c
performance
opencv
imageprocessing
opencl
确定 OpenCL 工作组大小的限制因素?
我正在尝试在资源较少的嵌入式 GPU 上运行一些为桌面显卡编写的 OpenCL 内核 特别是 桌面版本假设始终支持至少 256 个工作组大小 但基于 Mali T628 ARM 的 GPU 仅保证 64 工作组大小 事实上 一些内核报告CL
opencl
Mali
在 OpenCL 内核中实现小型查找表的最佳方法是什么
在我的内核中 需要对一个小查找表 只有 8 个 32 位整数 进行大量随机访问 每个内核都有一个唯一的查找表 下面是内核的简化版本 用于说明如何使用查找表 kernel void some kernel global uint global
opencl
BLAS 相当于 GPU 的 LAPACK 函数
在LAPACK中有这个function http www netlib org lapack double dspgvx f对角化 SUBROUTINE DSPGVX ITYPE JOBZ RANGE UPLO N AP BP VL VU
CUDA
opencl
GPU
Lapack
blas
推力:填充隔离空间
我有一个像这样的数组 0 0 010 0 0 05 0 0 3 0 0 0 8 0 0 我希望每个非零元素一次扩展一个元素 直到它到达其他非零元素 结果是这样的 1 1 111 1 5 55 5 3 3 3 3 8 8 8 8 有什么办法可
CUDA
opencl
Thrust
opencl中的主机是什么?
我现在开始学习openCL 我现在正在做教程 但我无法真正理解主机的想法 有人可以解释吗 谢谢 OpenCL 是一个旨在支持大规模并行处理的系统 例如可以由现代图形芯片 GPU 执行的处理 在 OpenCL 范例中 主机程序 是执行基于 G
opencl
host
有没有办法分析 OpenCL 或 pyOpenCL 程序?
我正在尝试优化 pyOpenCL 程序 出于这个原因 我想知道是否有一种方法可以分析程序并查看大部分时间都花在哪里 您知道如何解决这个问题吗 提前致谢 Andi 编辑 例如 用于 CUDA 的 nvidias nvprof 可以用于 pyC
python
opencl
pyopencl
为 OpenCL 设置 Visual Studio 2010 的正确方法
设置 VisualStuio 2010 处理 cl 文件的正确方法是什么 我在工具 文本编辑器 文件扩展名下添加了 cl 并将 usertype dat 复制到 common7 ide 文件夹中 但 VS 为 float4 或 cross
visualstudio2010
opencl
在几秒钟而不是几小时内旋转数百个 JPEG
我们的计算机一次获取数百张图像 我们需要尽快旋转它们并调整它们的大小 旋转可旋转 90 度 180 度或 270 度 目前我们使用的是命令行工具图形魔术师 http www graphicsmagick org 旋转图像 旋转图像 5760
OpenGL
graphics
opencv
opencl
imagerotation
OpenCL 找不到平台?
我正在尝试将 C API 用于 OpenCL 我已经安装了 NVIDIA 驱动程序 并且已经测试可以运行提供的简单向量加法程序here http www thebigblob com getting started with opencl
c
opencl
GPU
«
1
2
3
4
5
6
7
8
9
»