Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
cuda 上的矢量步加法速度较慢
我正在尝试在 CUDA C 代码上运行向量步加法函数 但对于大小为 5 000 000 的大型浮点数组 它的运行速度比我的 CPU 版本慢 下面是我所说的相关CUDA和cpu代码 define THREADS PER BLOCK 1024
c
CUDA
parallelprocessing
GPU
GPGPU
为什么改变块和网格大小会对运行时间产生如此大的影响?
我正在研究一些cudatutorial将 RGBA 图片转换为灰度图 但我不明白为什么要改变blockSize and gridSize改进了 X33 时间 global void rgba to greyscale const uchar
c
CUDA
GPU
GPGPU
从命令行编译 CUDA 代码
我正在尝试使用以下语法从命令行编译 CUDA 代码 nvcc c MyFile cu ccbin C Program Files x86 Microsoft Visual Studio 10 0 VC bin 我安装了 CUDA Toolk
c
CUDA
GPGPU
Mac OSx 上的 OpenCL 内核错误
我编写了一些 OpenCL 代码 该代码在 LINUX 上运行良好 但在 Mac OSX 上失败并出现错误 有人可以帮我确定为什么会发生这些情况吗 错误后显示内核代码 我的内核使用 double 所以我在顶部有相应的编译指示 但我不知道为什
MacOS
debugging
opencl
GPGPU
CUDA 上的块间屏障
我想在 CUDA 上实现块间屏障 但遇到了严重的问题 我不明白为什么它不起作用 include
c
CUDA
GPGPU
NVIDIA
GPU 的哈希表实现[关闭]
Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我正在寻找可用于 CUDA 编码的哈希表实现 那里有什么好的吗 像Python字典之类的东西 我将使用字符串作为我的键 阿尔坎塔拉等人演示了一种在 GPU 上构建哈希表的数据并行算法
Hash
CUDA
GPGPU
GPU
CUDA 中的 std::vector 到数组
有没有办法将 2D 矢量转换为数组以便能够在 CUDA 内核中使用它 它被声明为 vector
CUDA
GPGPU
2D/3D CUDA 块如何划分为扭曲?
如果我使用一个网格来启动我的内核 该网格的块具有尺寸 dim3 block dims 16 16 网格块现在如何分割成扭曲 这样一个块的前两行是否形成一个扭曲 或者前两列 或者这是任意排序的 假设 GPU 计算能力为 2 0 线程在块内按顺
CUDA
GPGPU
gpuwarp
nvidia-smi 易失性 GPU 利用率解释?
我知道nvidia smi l 1将给出每一秒的 GPU 使用情况 类似于以下内容 但是 我希望能得到关于什么的解释Volatile GPU Util真正意思 是使用的 SM 数量除以 SM 总数 还是占用率 还是其他什么 NVIDIA S
CUDA
NVIDIA
GPGPU
GPU
QR 分解求解 CUDA 中的线性系统
我正在GPU上写一个图像恢复算法 详细信息在 Cuda 最小二乘求解 速度较差 求解线性系统的QR分解法 Ax b 工作原理如下 min Ax b gt QRx b gt Q T QRx Q T b gt Rx Q T b where R是
Algorithm
CUDA
GPGPU
GPU
是否可以将 OpenCV GpuMat 绑定为 OpenGL 纹理?
除了以下内容之外 我找不到任何参考 http answers opencv org question 9512 how to bind gpumat to texture 其中讨论了 CUDA 方法 理想情况下 我想用以下内容更新 Open
OpenGL
opencv
CUDA
textures
GPGPU
为 iOS Metal 中 MTLBuffer 使用的数据分配内存
作为后续问题这个答案 我正在尝试用 Metal 中的内核函数替换 CPU 上运行的 for 循环 以并行化计算并提高性能 我的函数基本上是一个卷积 由于我反复收到输入数组值的新数据 数据源于AVCaptureSession 似乎使用newB
ios
c
memorymanagement
GPGPU
metal
使用 OpenGL ES 2.0 进行 GPGPU 编程
我正在尝试在 GPU 上进行一些图像处理 例如中值 模糊 亮度等 总体思路是做类似的事情这个框架来自 GPU 宝石 1 我能够编写 GLSL 片段着色器来处理像素 因为我一直在效果设计器应用程序中尝试不同的东西 然而我不确定我应该如何完成任
imageprocessing
opengles
GLSL
GPGPU
CUDA编译器无法编译简单的测试程序
我正在尝试获取 NVIDIA 的 CUDA 设置并将其安装在我的配有 NVIDIA GEFORCE RTX 2080 SUPER 显卡的电脑上 经过几个小时的尝试不同的事情和大量的研究后 我已经让 CUDA 使用命令提示符工作 尽管尝试在
c
compilererrors
CUDA
GPGPU
Clion
OpenCL 和 CUDA 中的持久线程
我读过一些关于 GPGPU 的 持久线程 的论文 但我不太理解它 任何人都可以给我一个例子或向我展示这种编程方式的使用吗 在阅读和谷歌搜索 持久线程 后 我脑子里记住的是 持久线程只不过是一个 while 循环 可以保持线程运行并计算大量工
CUDA
opencl
GPU
GPGPU
这个 OpenCL 代码可以优化吗?
我正在为一个专门的矩阵函数编写一段 OpencL 代码 Dx1 vector v two DxD矩阵A and B和一个常数c 返回1xD vector r where r i c sum over j v j A i j B i j 下面
opencl
GPGPU
pyopencl
GPU与GPGPU泛淡
GPU与GPGPU泛淡 GPU Graphics Processing Unit 也即显卡 是一种专门在个人电脑 工作站 游戏机和一些移动设备 如平板电脑 智能手机等 上作图像运算工作的微处理器 它已经是个人PC和移动设备上不可或缺的芯片
异构计算算法优化
GPU
GPGPU
架构
OpenGL
使用OpenCV的OpenCL(ocl)模块
参加OpenCV的OpenCL模块 以下称OCL 移植工作已经有2个月了 这里我说移植而不是开发 是因为大部分OCL模块的函数是从已经很成熟的GPU模块直接移植过来的 因此 目前阶段OCL模块所支持的函数接口是GPU模块的一个子集 但由于运
OpenCL CUDA
opencv
GPGPU
GPU通用计算(GPGPU)——将图形处理器用于高性能计算领域
1 1 研究背景和意义随着当前计算机性能的不断提高 应用范围越来越广泛 不同的计算任务和计算需求都在快速增长 这就决定了处理器朝着通用化和专用化两个方向飞速发展 一方面 以CPU为代表的通用处理器是现代计算机的核心部件 经过多次器件换代的变
技术探讨
图形
GPGPU
编程
优化
CUDA性能优化系列——Kmeans算法调优(二)
本篇介绍Kmeans算法中计算新的聚类中心部分 这部分主要逻辑 根据计算出的新的分类信息 对全部数据点依次对每个类别求出所属当前类别的数据点个数与坐标和 本质上就是进行规约运算 V1 Atomic实现全局规约 由于最终生成16个聚类中心 因
CUDA性能调优
CUDA
GPGPU
«
1
2
3
4
5
6
»