Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
估计 GPU 的 FLOPS 效率(CUDA 示例)
在我看来 我并不完全理解 FLOPS 的概念 在CUDA SAMPLES中 有矩阵乘法示例 0 Simple matrixMul 在此示例中 每个矩阵乘法的 FLOP 浮点运算 数量通过以下公式计算 double flopsPerMatri
c
CUDA
FLOPs
GPU 上非原子写入的保证很弱吗?
OpenCL 和 CUDA 包含原子操作已有好几年了 尽管显然并非每个 CUDA 或 OpenCL 设备都支持这些操作 但是 我的问题是关于由于非原子写入而 共存 种族的可能性 假设网格中的多个线程都写入全局内存中的同一位置 我们是否可以保
CUDA
opencl
atomic
memorymodel
如何实现设备端CUDA虚拟功能?
我发现 CUDA 不允许将具有虚拟函数的类传递到内核函数中 对于这个限制有什么解决方法吗 我真的很希望能够在内核函数中使用多态性 Thanks 罗伯特 克罗维拉评论中最重要的部分是 只需在设备上创建对象即可 所以记住这一点 我正在处理我有一
CUDA
virtualfunctions
如何隐藏 NVCC 的“函数已声明但从未引用”警告?
当编译使用Google Test的CUDA程序时 nvcc将发出误报警告 函数 已声明但从未被引用 An MCVE test cu include
CUDA
googletest
nvcc
CUDA:如何直接在GPU上使用thrust::sort_by_key? [复制]
这个问题在这里已经有答案了 Thrust 库可用于对数据进行排序 该调用可能如下所示 带有键和值向量 thrust sort by key d keys begin d keys end d values begin 在 CPU 上调用 d
Sorting
CUDA
Thrust
ImportError:libcublas.so.9.0:无法打开共享对象文件
目前我在 Gpu 支持系统中安装了 cuda 8 0 和 cuda 9 0 我在从 keras 模块导入时遇到了这个错误 它说无法加载本机张量流运行时 我收到的错误日志是 Traceback most recent call last Fi
python3x
tensorflow
CUDA
Keras
如何使 TensorFlow 在具有 2.x 功能的 GPU 上运行?
我已在 Linux Ubuntu 16 04 上成功安装了tensorflow GPU 并进行了一些小的更改 以使其能够与新的 Ubuntu LTS 版本配合使用 然而 我认为 谁知道为什么 我的 GPU 满足计算能力大于 3 5 的最低要
CUDA
tensorflow
NVIDIA
cuDNN
如何使用 eclipse Nsight 仅使用一个 GPU 调试 CUDA
我收到错误 所有 cuda 设备均用于显示 在调试时无法使用 使用Ubuntu 有没有什么方法可以使用 Nsight eclipse 仅使用一个 GPU 进行调试 我见过类似的解决方案 sudo 服务 lightdm 停止 杀死 X 但这也
eclipse
CUDA
GPU
Nsight
如何在arch linux中降级到cuda 10.0?
我想在 arch linux 中将我的 cuda 10 1 降级到 cuda 10 0 因为 TensorFlow 仅需要 cuda 10 0 我在 arch Linux 的 CUDA 10 1 上安装了tensorflow 但我不知道te
tensorflow
deeplearning
CUDA
archlinux
warp 如何与原子操作一起工作?
warp 中的线程在物理上并行运行 因此如果其中一个 称为线程 X 启动原子操作 其他线程会做什么 等待 这是否意味着 当线程 X 被推入原子队列时 所有线程都将等待 获得访问权限 互斥体 并对受该互斥体保护的内存执行一些操作 然后再释放互
c
performance
CUDA
atomic
在 Java 中运行 CUDA 代码的最简单方法是什么?
我有一些用 C 语言编写的 CUDA 代码 它似乎工作正常 它是普通的旧 C 而不是 C 我正在运行一个 Hadoop 集群 并且想要整合我的代码 因此理想情况下我希望在 Java 中运行它 长话短说 系统太复杂 目前 C 程序解析日志文件
Java
CUDA
jcuda
为什么 nvidia-smi 在 Windows 10 21H2 下的 WSL2 中返回“GPU 访问被操作系统阻止”[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 在 WSL2 上安装 CUDA 我已按照以下说明在台式机 配备 RTX3080 的 AMD 5950X 系统 和笔记本电脑 配备 i7 7
CUDA
GPU
wsl2
如何使用 blas 以最佳方式转置矩阵?
我正在做一些计算 并对不同 BLAS 实现的优势和弱点进行一些分析 但是我遇到了一个问题 我正在测试 cuBlas 在 GPU 上执行 linAlg 似乎是一个好主意 但有一个问题 cuBlas 实现使用列主格式 并且由于这不是我最终需要的
c
CUDA
blas
cublas
使用 nvcc 编译给出“没有这样的文件或目录”
我正在尝试在 Ubuntu 上使用 nvcc 编译 CUDA 代码 但是 当我这样做时 我得到以下输出 gt make usr local cuda bin nvcc m64 ptxas options v gencode arch com
c
CUDA
nvcc
CUDA 调试 - Windows 工作站上的 VS,Linux 服务器上的 GPU?
有人有过在工作站上编码时在服务器上调试 CUDA 代码的经验吗 我的笔记本电脑 Thinkpad T400 不支持 CUDA 但我可以访问带有一对运行 Linux 的 NVIDIA GTX 295 卡的服务器 我可以使用 NVidia 的
CUDA
remotedebugging
CUDA:同步线程
几乎在我读到的有关 CUDA 编程的任何地方都提到了 warp 中的所有线程都执行相同操作的重要性 在我的代码中 我遇到了无法避免某种条件的情况 它看起来像这样 some math code calculating d1 d2 if d1
Optimization
CUDA
synchronization
GPU 上的高效全对集交集
I have n集合 有限宇宙的子集 我想计算n n矩阵 其中 I J 条目包含集合交集的基数I并设置J n的顺序是50000 我的想法是将矩阵分割成足够小的块 以便每个条目都有一个线程 每个线程都应该使用以下方法计算交集bitwise a
Algorithm
CUDA
set
GPU
Intersection
CUDA 标量和 SIMD 视频指令的效率
SIMD指令的吞吐量低于32位整数运算 如果是 SM2 0 仅标量指令版本 则低 2 倍 如果是 SM3 0 则低 6 倍 什么情况下适合使用它们 如果您的数据已经以 SIMD 视频指令本机处理的格式打包 则需要多个步骤对其进行解包 以便可
CUDA
NVIDIA
SIMD
错误:“已加载运行时 CuDNN 库:5005 但源是用 5103 编译的”是什么意思?
我尝试将 TensorFlow 与 GPU 结合使用 但出现以下错误 I tensorflow core common runtime gpu gpu device cc 838 Creating TensorFlow device gpu
python
CUDA
tensorflow
cuDNN
Valgrind 和 CUDA:报告的泄漏是真的吗?
我的应用程序中有一个非常简单的 CUDA 组件 Valgrind 报告了大量泄漏和仍然可达的情况 所有这些都与 cudaMalloc 调用有关 这些泄露是真的吗 我打电话cudaFree对于每一个cudaMalloc 这是 valgrind
memoryleaks
CUDA
valgrind
«
1 ...
3
4
5
6
7
8
9
...53
»