GPGPU

函数对象无法正常工作

我定义了以下函数对象 struct Predicate1 device bool operator const DereferencedIteratorTuple lhs const DereferencedIteratorTuple rh

c CUDA GPU GPGPU Thrust

关于并行架构的设计模式有什么好的资源吗？

一些背景知识我正在开始使用 GPGPU OpenCL 我正在使用 java 包装器 jogamp jocl http jogamp org jocl www 希望它能为我提供一种抽象低级细节并在更高级别使用标准 OOP 的方法我已经从各

DesignPatterns Architecture parallelprocessing GPGPU

NVIDIA Fermi 中的 L2 缓存

在查看NVIDIA Fermi架构中的性能计数器名称 cuda的doc文件夹中的Compute profiler txt文件时我注意到对于L2缓存未命中有两个性能计数器 l2 subp0 read sector misses和l2 s

CUDA GPU GPGPU NVIDIA

OpenCL：在本地内存中存储指向全局内存的指针？

有什么解决办法吗这可能吗 global float abc pointer to global memory stored in private memory 我想要存储 abc在本地内存中而不是私人内存我认为这已经澄清了here清单

c opencl GPGPU

使部分（但不是全部）(CUDA) 内存访问不被缓存

我只是注意到 CUDA 内核内存访问完全有可能不被缓存参见例如这个答案在这里这可以吗对于单个内核在运行时而不是在编译时仅用于写入而不是读取和写入仅当您单独编译该内核时因为这是通过代码生成启用的指令级功能您还可以使用内联 P

caching CUDA GPGPU

将 2D 数组复制到已知可变宽度的 GPU

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each

CUDA GPU GPGPU NVIDIA

CUDA warp 中的线程是否在多处理器上并行执行？

一个经纱是 32 个线程 32 个线程在多处理器中并行执行吗如果 32 个线程没有并行执行则 warp 中不存在竞争条件在看了一些例子后我产生了这个疑问在 CUDA 编程模型中 warp 内的所有线程并行运行但硬件中的实际执行可能

CUDA GPGPU gpuwarp

为什么应该使用 CUDA 驱动程序 API 而不是 CUDA 运行时 API？

为什么我应该使用 CUDA Driver API 在哪些情况下我不能使用 CUDA Runtime API 这比 Driver API 更方便运行时 API 是比驱动程序 API 更高级别的抽象并且通常更易于使用性能差距应该很小驱动

CUDA GPGPU NVIDIA

CUDA 流销毁和 CudaDeviceReset

我已经使用 CUDA 流实现了以下类 class CudaStreams private int nStreams cudaStream t streams cudaStream t active stream public default

c class CUDA GPGPU NVIDIA

为什么使用 cudaMallocManaged 时 NVIDIA Pascal GPU 运行 CUDA 内核的速度很慢

我正在测试新的 CUDA 8 以及 Pascal Titan X GPU 并期望我的代码能够加速但由于某种原因它最终变得更慢我使用的是 Ubuntu 16 04 这是可以重现结果的最少代码 CUDASample cuh class C

c CUDA GPGPU NVIDIA nvcc

如何找到活跃的短信？

有什么方法可以知道免费活跃短信的数量吗或者至少读取每个SM的电压功率或温度值通过它我可以知道它是否工作在 GPU 设备上执行某些作业时实时执行 smid 帮助我了解了每个 SM 的 Id 类似的东西会有所帮助感谢致敬拉凯什 C

CUDA GPGPU NVIDIA ptx

为什么 CUDA Profiler 指示重放指令：82% != 全局重放 + 本地重放 + 共享重放？

我从 CUDA Profiler 获取信息我很困惑为什么重播指令全局内存重播本地内存重播共享存储体冲突重播请参阅我从探查器获得的以下信息 Replayed Instructions 81 60 Global memory rep

CUDA GPU GPGPU

如何测量 NVIDIA CUDA 中的内部内核时间？

我想测量GPU内核的时间如何在NVIDIA CUDA中测量它例如 global void kernelSample some code here get start time some code here get stop time s

CUDA GPU GPGPU NVIDIA

为什么 OpenCL 工作组大小对 GPU 性能影响巨大？

我正在 Qualcomm Adreno 630 GPU 上对一个简单的矩阵转置内核进行基准测试我试图了解不同工作组大小的影响但令人惊讶的是我得到了一些我无法解释的有趣结果这是我的内核代码 kernel void transpose

c caching opencl GPGPU memoryaccess

CUDA 可以解决许多“小型/中型”线性系统

关于我尝试使用 CUDA 加速的问题的一些背景信息我有大量小型中型相同尺寸的线性系统需要独立求解每个线性系统都是方形的实数的稠密的可逆的和非对称的这些实际上是矩阵系统因此每个系统看起来都像 AX B 其中 A X 和 B 是

MATLAB CUDA GPU linearalgebra GPGPU

改进并行计算的内存布局

我正在尝试使用 C AMP 优化用于并行计算的算法 Lattice Boltzmann 并寻找一些优化内存布局的建议刚刚发现将一个参数从结构中删除到另一个向量阻塞向量中可以增加约 10 有人有任何可以进一步改善这一点的建议或者我应该

c parallelprocessing GPGPU camp

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？

我注意到 CUDA 应用程序在失败并退出之前的最大运行时间往往为 5 15 秒我意识到最好不要让 CUDA 应用程序运行那么长时间但假设使用 CUDA 是正确的选择并且由于每个线程的顺序工作量必须运行那么长时间有什么方法可以延长这个

CUDA timeout GPGPU GPU

opencl中使用cpu设备访问文件系统

我是 opencl 的新手当内核在 cpu 设备上运行时我对 opencl 的功能有疑问假设我们有一个在 cpu 设备上运行的内核它可以从磁盘上的文件中读取数据吗如果是那怎么办如果没有那为什么不呢您能否建议详细信息的来源

opencl GPGPU

CUDA cudaMalloc

我已经开始编写一个新的 CUDA 应用程序然而我一路上遇到了一个有趣的弯路对变量 x 调用第一个 cudaMalloc 第一次失败但是当我第二次调用它时它返回 cudaSuccess 最近升级到CUDA 4 0 SDK 这是一个

c CUDA GPU GPGPU

OpenCL 全局内存获取

我正在考虑重新设计我的 GPU OpenCL 内核以加快速度问题是有大量全局内存没有合并并且提取确实降低了性能因此我计划将尽可能多的全局内存复制到本地但我必须选择要复制的内容现在我的问题是多次提取小块内存是否会比更少提取大块内

opencl GPGPU