GPGPU

cuda 上的矢量步加法速度较慢

我正在尝试在 CUDA C 代码上运行向量步加法函数但对于大小为 5 000 000 的大型浮点数组它的运行速度比我的 CPU 版本慢下面是我所说的相关CUDA和cpu代码 define THREADS PER BLOCK 1024

c CUDA parallelprocessing GPU GPGPU

为什么改变块和网格大小会对运行时间产生如此大的影响？

我正在研究一些cudatutorial将 RGBA 图片转换为灰度图但我不明白为什么要改变blockSize and gridSize改进了 X33 时间 global void rgba to greyscale const uchar

c CUDA GPU GPGPU

从命令行编译 CUDA 代码

我正在尝试使用以下语法从命令行编译 CUDA 代码 nvcc c MyFile cu ccbin C Program Files x86 Microsoft Visual Studio 10 0 VC bin 我安装了 CUDA Toolk

c CUDA GPGPU

Mac OSx 上的 OpenCL 内核错误

我编写了一些 OpenCL 代码该代码在 LINUX 上运行良好但在 Mac OSX 上失败并出现错误有人可以帮我确定为什么会发生这些情况吗错误后显示内核代码我的内核使用 double 所以我在顶部有相应的编译指示但我不知道为什

MacOS debugging opencl GPGPU

CUDA 上的块间屏障

我想在 CUDA 上实现块间屏障但遇到了严重的问题我不明白为什么它不起作用 include

c CUDA GPGPU NVIDIA

GPU 的哈希表实现[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在寻找可用于 CUDA 编码的哈希表实现那里有什么好的吗像Python字典之类的东西我将使用字符串作为我的键阿尔坎塔拉等人演示了一种在 GPU 上构建哈希表的数据并行算法

Hash CUDA GPGPU GPU

CUDA 中的 std::vector 到数组

有没有办法将 2D 矢量转换为数组以便能够在 CUDA 内核中使用它它被声明为 vector

CUDA GPGPU

2D/3D CUDA 块如何划分为扭曲？

如果我使用一个网格来启动我的内核该网格的块具有尺寸 dim3 block dims 16 16 网格块现在如何分割成扭曲这样一个块的前两行是否形成一个扭曲或者前两列或者这是任意排序的假设 GPU 计算能力为 2 0 线程在块内按顺

CUDA GPGPU gpuwarp

nvidia-smi 易失性 GPU 利用率解释？

我知道nvidia smi l 1将给出每一秒的 GPU 使用情况类似于以下内容但是我希望能得到关于什么的解释Volatile GPU Util真正意思是使用的 SM 数量除以 SM 总数还是占用率还是其他什么 NVIDIA S

CUDA NVIDIA GPGPU GPU

QR 分解求解 CUDA 中的线性系统

我正在GPU上写一个图像恢复算法详细信息在 Cuda 最小二乘求解速度较差求解线性系统的QR分解法 Ax b 工作原理如下 min Ax b gt QRx b gt Q T QRx Q T b gt Rx Q T b where R是

Algorithm CUDA GPGPU GPU

是否可以将 OpenCV GpuMat 绑定为 OpenGL 纹理？

除了以下内容之外我找不到任何参考 http answers opencv org question 9512 how to bind gpumat to texture 其中讨论了 CUDA 方法理想情况下我想用以下内容更新 Open

OpenGL opencv CUDA textures GPGPU

为 iOS Metal 中 MTLBuffer 使用的数据分配内存

作为后续问题这个答案我正在尝试用 Metal 中的内核函数替换 CPU 上运行的 for 循环以并行化计算并提高性能我的函数基本上是一个卷积由于我反复收到输入数组值的新数据数据源于AVCaptureSession 似乎使用newB

ios c memorymanagement GPGPU metal

使用 OpenGL ES 2.0 进行 GPGPU 编程

我正在尝试在 GPU 上进行一些图像处理例如中值模糊亮度等总体思路是做类似的事情这个框架来自 GPU 宝石 1 我能够编写 GLSL 片段着色器来处理像素因为我一直在效果设计器应用程序中尝试不同的东西然而我不确定我应该如何完成任

imageprocessing opengles GLSL GPGPU

CUDA编译器无法编译简单的测试程序

我正在尝试获取 NVIDIA 的 CUDA 设置并将其安装在我的配有 NVIDIA GEFORCE RTX 2080 SUPER 显卡的电脑上经过几个小时的尝试不同的事情和大量的研究后我已经让 CUDA 使用命令提示符工作尽管尝试在

c compilererrors CUDA GPGPU Clion

OpenCL 和 CUDA 中的持久线程

我读过一些关于 GPGPU 的持久线程的论文但我不太理解它任何人都可以给我一个例子或向我展示这种编程方式的使用吗在阅读和谷歌搜索持久线程后我脑子里记住的是持久线程只不过是一个 while 循环可以保持线程运行并计算大量工

CUDA opencl GPU GPGPU

这个 OpenCL 代码可以优化吗？

我正在为一个专门的矩阵函数编写一段 OpencL 代码 Dx1 vector v two DxD矩阵A and B和一个常数c 返回1xD vector r where r i c sum over j v j A i j B i j 下面

opencl GPGPU pyopencl

GPU与GPGPU泛淡

GPU与GPGPU泛淡 GPU Graphics Processing Unit 也即显卡是一种专门在个人电脑工作站游戏机和一些移动设备如平板电脑智能手机等上作图像运算工作的微处理器它已经是个人PC和移动设备上不可或缺的芯片

异构计算算法优化 GPU GPGPU 架构 OpenGL

使用OpenCV的OpenCL(ocl)模块

参加OpenCV的OpenCL模块以下称OCL 移植工作已经有2个月了这里我说移植而不是开发是因为大部分OCL模块的函数是从已经很成熟的GPU模块直接移植过来的因此目前阶段OCL模块所支持的函数接口是GPU模块的一个子集但由于运

OpenCL CUDA opencv GPGPU

GPU通用计算（GPGPU）——将图形处理器用于高性能计算领域

1 1 研究背景和意义随着当前计算机性能的不断提高应用范围越来越广泛不同的计算任务和计算需求都在快速增长这就决定了处理器朝着通用化和专用化两个方向飞速发展一方面以CPU为代表的通用处理器是现代计算机的核心部件经过多次器件换代的变

技术探讨 图形 GPGPU 编程优化

CUDA性能优化系列——Kmeans算法调优（二）

本篇介绍Kmeans算法中计算新的聚类中心部分这部分主要逻辑根据计算出的新的分类信息对全部数据点依次对每个类别求出所属当前类别的数据点个数与坐标和本质上就是进行规约运算 V1 Atomic实现全局规约由于最终生成16个聚类中心因

CUDA性能调优 CUDA GPGPU