Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
函数对象无法正常工作
我定义了以下函数对象 struct Predicate1 device bool operator const DereferencedIteratorTuple lhs const DereferencedIteratorTuple rh
c
CUDA
GPU
GPGPU
Thrust
关于并行架构的设计模式有什么好的资源吗?
一些背景知识 我正在开始使用 GPGPU OpenCL 我正在使用 java 包装器 jogamp jocl http jogamp org jocl www 希望它能为我提供一种抽象低级细节并在更高级别使用标准 OOP 的方法 我已经从各
DesignPatterns
Architecture
parallelprocessing
GPGPU
NVIDIA Fermi 中的 L2 缓存
在查看NVIDIA Fermi架构中的性能计数器名称 cuda的doc文件夹中的Compute profiler txt文件 时 我注意到对于L2缓存未命中 有两个性能计数器 l2 subp0 read sector misses和l2 s
CUDA
GPU
GPGPU
NVIDIA
OpenCL:在本地内存中存储指向全局内存的指针?
有什么解决办法吗 这可能吗 global float abc pointer to global memory stored in private memory 我想要存储 abc在本地内存中而不是私人内存 我认为这已经澄清了here清单
c
opencl
GPGPU
使部分(但不是全部)(CUDA) 内存访问不被缓存
我只是注意到 CUDA 内核 内存访问完全有可能不被缓存 参见例如这个答案在这里 这可以吗 对于单个内核 在运行时而不是在编译时 仅用于写入而不是读取和写入 仅当您单独编译该内核时 因为这是通过代码生成启用的指令级功能 您还可以使用内联 P
caching
CUDA
GPGPU
将 2D 数组复制到已知可变宽度的 GPU
我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each
CUDA
GPU
GPGPU
NVIDIA
CUDA warp 中的线程是否在多处理器上并行执行?
一个经纱是 32 个线程 32 个线程在多处理器中并行执行吗 如果 32 个线程没有并行执行 则 warp 中不存在竞争条件 在看了一些例子后我产生了这个疑问 在 CUDA 编程模型中 warp 内的所有线程并行运行 但硬件中的实际执行可能
CUDA
GPGPU
gpuwarp
为什么应该使用 CUDA 驱动程序 API 而不是 CUDA 运行时 API?
为什么我应该使用 CUDA Driver API 在哪些情况下我不能使用 CUDA Runtime API 这比 Driver API 更方便 运行时 API 是比驱动程序 API 更高级别的抽象 并且通常更易于使用 性能差距应该很小 驱动
CUDA
GPGPU
NVIDIA
CUDA 流销毁和 CudaDeviceReset
我已经使用 CUDA 流实现了以下类 class CudaStreams private int nStreams cudaStream t streams cudaStream t active stream public default
c
class
CUDA
GPGPU
NVIDIA
为什么使用 cudaMallocManaged 时 NVIDIA Pascal GPU 运行 CUDA 内核的速度很慢
我正在测试新的 CUDA 8 以及 Pascal Titan X GPU 并期望我的代码能够加速 但由于某种原因 它最终变得更慢 我使用的是 Ubuntu 16 04 这是可以重现结果的最少代码 CUDASample cuh class C
c
CUDA
GPGPU
NVIDIA
nvcc
如何找到活跃的短信?
有什么方法可以知道免费 活跃短信的数量吗 或者至少读取每个SM的电压 功率或温度值 通过它我可以知道它是否工作 在 GPU 设备上执行某些作业时实时执行 smid 帮助我了解了每个 SM 的 Id 类似的东西会有所帮助 感谢致敬 拉凯什 C
CUDA
GPGPU
NVIDIA
ptx
为什么 CUDA Profiler 指示重放指令:82% != 全局重放 + 本地重放 + 共享重放?
我从 CUDA Profiler 获取信息 我很困惑为什么 重播指令 全局内存重播 本地内存重播 共享存储体冲突重播 请参阅我从探查器获得的以下信息 Replayed Instructions 81 60 Global memory rep
CUDA
GPU
GPGPU
如何测量 NVIDIA CUDA 中的内部内核时间?
我想测量GPU内核的时间 如何在NVIDIA CUDA中测量它 例如 global void kernelSample some code here get start time some code here get stop time s
CUDA
GPU
GPGPU
NVIDIA
为什么 OpenCL 工作组大小对 GPU 性能影响巨大?
我正在 Qualcomm Adreno 630 GPU 上对一个简单的矩阵转置内核进行基准测试 我试图了解不同工作组大小的影响 但令人惊讶的是 我得到了一些我无法解释的有趣结果 这是我的内核代码 kernel void transpose
c
caching
opencl
GPGPU
memoryaccess
CUDA 可以解决许多“小型/中型”线性系统
关于我尝试使用 CUDA 加速的问题的一些背景信息 我有大量小型 中型相同尺寸的线性系统需要独立求解 每个线性系统都是方形的 实数的 稠密的 可逆的和非对称的 这些实际上是矩阵系统 因此每个系统看起来都像 AX B 其中 A X 和 B 是
MATLAB
CUDA
GPU
linearalgebra
GPGPU
改进并行计算的内存布局
我正在尝试使用 C AMP 优化用于并行计算的算法 Lattice Boltzmann 并寻找一些优化内存布局的建议 刚刚发现将一个参数从结构中删除到另一个向量 阻塞向量 中可以增加约 10 有人有任何可以进一步改善这一点的建议 或者我应该
c
parallelprocessing
GPGPU
camp
CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题?
我注意到 CUDA 应用程序在失败并退出之前的最大运行时间往往为 5 15 秒 我意识到最好不要让 CUDA 应用程序运行那么长时间 但假设使用 CUDA 是正确的选择 并且由于每个线程的顺序工作量必须运行那么长时间 有什么方法可以延长这个
CUDA
timeout
GPGPU
GPU
opencl中使用cpu设备访问文件系统
我是 opencl 的新手 当内核在 cpu 设备上运行时 我对 opencl 的功能有疑问 假设我们有一个在 cpu 设备上运行的内核 它可以从磁盘上的文件中读取数据吗 如果是 那怎么办 如果没有 那为什么不呢 您能否建议详细信息的来源
opencl
GPGPU
CUDA cudaMalloc
我已经开始编写一个新的 CUDA 应用程序 然而 我一路上遇到了一个有趣的弯路 对变量 x 调用第一个 cudaMalloc 第一次失败 但是 当我第二次调用它时 它返回 cudaSuccess 最近升级到CUDA 4 0 SDK 这是一个
c
CUDA
GPU
GPGPU
OpenCL 全局内存获取
我正在考虑重新设计我的 GPU OpenCL 内核以加快速度 问题是有大量全局内存没有合并 并且提取确实降低了性能 因此 我计划将尽可能多的全局内存复制到本地 但我必须选择要复制的内容 现在我的问题是 多次提取小块内存是否会比更少提取大块内
opencl
GPGPU
«
1
2
3
4
5
6
»