CUDA

估计 GPU 的 FLOPS 效率（CUDA 示例）

在我看来我并不完全理解 FLOPS 的概念在CUDA SAMPLES中有矩阵乘法示例 0 Simple matrixMul 在此示例中每个矩阵乘法的 FLOP 浮点运算数量通过以下公式计算 double flopsPerMatri

c CUDA FLOPs

GPU 上非原子写入的保证很弱吗？

OpenCL 和 CUDA 包含原子操作已有好几年了尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作但是我的问题是关于由于非原子写入而共存种族的可能性假设网格中的多个线程都写入全局内存中的同一位置我们是否可以保

CUDA opencl atomic memorymodel

如何实现设备端CUDA虚拟功能？

我发现 CUDA 不允许将具有虚拟函数的类传递到内核函数中对于这个限制有什么解决方法吗我真的很希望能够在内核函数中使用多态性 Thanks 罗伯特克罗维拉评论中最重要的部分是只需在设备上创建对象即可所以记住这一点我正在处理我有一

CUDA virtualfunctions

如何隐藏 NVCC 的“函数已声明但从未引用”警告？

当编译使用Google Test的CUDA程序时 nvcc将发出误报警告函数已声明但从未被引用 An MCVE test cu include

CUDA googletest nvcc

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

这个问题在这里已经有答案了 Thrust 库可用于对数据进行排序该调用可能如下所示带有键和值向量 thrust sort by key d keys begin d keys end d values begin 在 CPU 上调用 d

Sorting CUDA Thrust

ImportError：libcublas.so.9.0：无法打开共享对象文件

目前我在 Gpu 支持系统中安装了 cuda 8 0 和 cuda 9 0 我在从 keras 模块导入时遇到了这个错误它说无法加载本机张量流运行时我收到的错误日志是 Traceback most recent call last Fi

python3x tensorflow CUDA Keras

如何使 TensorFlow 在具有 2.x 功能的 GPU 上运行？

我已在 Linux Ubuntu 16 04 上成功安装了tensorflow GPU 并进行了一些小的更改以使其能够与新的 Ubuntu LTS 版本配合使用然而我认为谁知道为什么我的 GPU 满足计算能力大于 3 5 的最低要

CUDA tensorflow NVIDIA cuDNN

如何使用 eclipse Nsight 仅使用一个 GPU 调试 CUDA

我收到错误所有 cuda 设备均用于显示在调试时无法使用使用Ubuntu 有没有什么方法可以使用 Nsight eclipse 仅使用一个 GPU 进行调试我见过类似的解决方案 sudo 服务 lightdm 停止杀死 X 但这也

eclipse CUDA GPU Nsight

如何在arch linux中降级到cuda 10.0？

我想在 arch linux 中将我的 cuda 10 1 降级到 cuda 10 0 因为 TensorFlow 仅需要 cuda 10 0 我在 arch Linux 的 CUDA 10 1 上安装了tensorflow 但我不知道te

tensorflow deeplearning CUDA archlinux

warp 如何与原子操作一起工作？

warp 中的线程在物理上并行运行因此如果其中一个称为线程 X 启动原子操作其他线程会做什么等待这是否意味着当线程 X 被推入原子队列时所有线程都将等待获得访问权限互斥体并对受该互斥体保护的内存执行一些操作然后再释放互

c performance CUDA atomic

在 Java 中运行 CUDA 代码的最简单方法是什么？

我有一些用 C 语言编写的 CUDA 代码它似乎工作正常它是普通的旧 C 而不是 C 我正在运行一个 Hadoop 集群并且想要整合我的代码因此理想情况下我希望在 Java 中运行它长话短说系统太复杂目前 C 程序解析日志文件

Java CUDA jcuda

为什么 nvidia-smi 在 Windows 10 21H2 下的 WSL2 中返回“GPU 访问被操作系统阻止”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在 WSL2 上安装 CUDA 我已按照以下说明在台式机配备 RTX3080 的 AMD 5950X 系统和笔记本电脑配备 i7 7

CUDA GPU wsl2

如何使用 blas 以最佳方式转置矩阵？

我正在做一些计算并对不同 BLAS 实现的优势和弱点进行一些分析但是我遇到了一个问题我正在测试 cuBlas 在 GPU 上执行 linAlg 似乎是一个好主意但有一个问题 cuBlas 实现使用列主格式并且由于这不是我最终需要的

c CUDA blas cublas

使用 nvcc 编译给出“没有这样的文件或目录”

我正在尝试在 Ubuntu 上使用 nvcc 编译 CUDA 代码但是当我这样做时我得到以下输出 gt make usr local cuda bin nvcc m64 ptxas options v gencode arch com

c CUDA nvcc

CUDA 调试 - Windows 工作站上的 VS，Linux 服务器上的 GPU？

有人有过在工作站上编码时在服务器上调试 CUDA 代码的经验吗我的笔记本电脑 Thinkpad T400 不支持 CUDA 但我可以访问带有一对运行 Linux 的 NVIDIA GTX 295 卡的服务器我可以使用 NVidia 的

CUDA remotedebugging

CUDA：同步线程

几乎在我读到的有关 CUDA 编程的任何地方都提到了 warp 中的所有线程都执行相同操作的重要性在我的代码中我遇到了无法避免某种条件的情况它看起来像这样 some math code calculating d1 d2 if d1

Optimization CUDA synchronization

GPU 上的高效全对集交集

I have n集合有限宇宙的子集我想计算n n矩阵其中 I J 条目包含集合交集的基数I并设置J n的顺序是50000 我的想法是将矩阵分割成足够小的块以便每个条目都有一个线程每个线程都应该使用以下方法计算交集bitwise a

Algorithm CUDA set GPU Intersection

CUDA 标量和 SIMD 视频指令的效率

SIMD指令的吞吐量低于32位整数运算如果是 SM2 0 仅标量指令版本则低 2 倍如果是 SM3 0 则低 6 倍什么情况下适合使用它们如果您的数据已经以 SIMD 视频指令本机处理的格式打包则需要多个步骤对其进行解包以便可

CUDA NVIDIA SIMD

错误：“已加载运行时 CuDNN 库：5005 但源是用 5103 编译的”是什么意思？

我尝试将 TensorFlow 与 GPU 结合使用但出现以下错误 I tensorflow core common runtime gpu gpu device cc 838 Creating TensorFlow device gpu

python CUDA tensorflow cuDNN

Valgrind 和 CUDA：报告的泄漏是真的吗？

我的应用程序中有一个非常简单的 CUDA 组件 Valgrind 报告了大量泄漏和仍然可达的情况所有这些都与 cudaMalloc 调用有关这些泄露是真的吗我打电话cudaFree对于每一个cudaMalloc 这是 valgrind

memoryleaks CUDA valgrind