CUDA

CUDA并行算法系列之FFT快速卷积

CUDA并行算法系列之FFT快速卷积卷积定义在维基百科上卷积定义为离散卷积定义为 0 1 2 3 和 0 1 2 的卷积例子如下图所示 Python实现直接卷积根据离散卷积的定义用Python实现 def conv a b N

CUDA并行算法 CUDA 算法 fft

nvprof 性能评估主要指标

nvprof 用于性能评估的三个主要指标 occupancy nvprof metrics achieved occupancy helloCuda out gld throughput nvprof metrics gld through

blas CUDA

关于安装pytorch、cuda对应GPU显卡算力问题（记录贴）

贴几个链接 ngc pytorch容器版本对应关系 CUDA Toolkit版本及可用PyTorch对应关系 NVIDIA英伟达GPU显卡算力表总结安装torch时会安装对应的cuda版本目前来看cuda10对应的是7 5的算力适用

算力 CUDA Pytorch 深度学习

cuda/cudnn/cuda 10.1安装教程

方法1 NVIDIA 显卡驱动安装示例 ubuntu系统刚装好推荐 Ubuntu 18 04 安装 NVIDIA 显卡驱动 ps 1 新系统的签名要重新注册 2 要禁用nouveau 新安装方法其他参考 https zhuanlan z

Linux ML CUDA

CUDA unknown error - this may be due to an incorrectly set up environment

运行mmaction2时报错 builtins RuntimeError CUDA unknown error this may be due to an incorrectly set up environment e g changin

深度学习环境搭建与linux系统操作知识 CUDA

安装cuda 11 ,cudnn，pytorch 1.7

安装cuda cudann pytorch 1 安装cuda 先康康电脑里面有没有 nvcc V 结果当然是没有要安装首选需要康康自己的显卡能支持到多少的cuda 打开这个可以通过搜索直接搜到点击系统信息在组件栏可以发现我的电脑支持

深度学习相关 CUDA cuDNN Pytorch

jittor框架

sudo apt install python dev sudo pip install https github com Jittor jittor git python3 m jittor test test example http

深度学习基础 CUDA

cuda文件操作

1 读取文件 const char usage Usage dwtHaar1D signal

CUDA reference signal file

CUDA优化：最大化内存吞吐量（官方文档翻译）

毕业设计要翻译技术资料 3000 字这里找了英伟达 CUDA TOOLKIT DOCUMENTATION 的 5 3 节最大化内存吞吐量来翻译一下供参考并希望此文对诸位的 CUDA 程序优化有所帮助 5 3 最大化内存吞吐量最大

并行计算 CUDA

Linux 下 cuda 安装教程

1 首先按照NVIDIA document上的规范完成post install http docs nvidia com cuda cuda installation guide linux index html post install

机器学习算法笔记 CUDA NVIDIA

Could not locate zlibwapi.dll. Please make sure it is in your library path!

下载预编译版本 http www winimage com zLibDll 把 lib 和 dll 文件放到 CUDA 安装目录的 lib 和 bin 文件夹

CUDA

错误处理-VS2019+CUDA10.1 新建项目里没有CUDA选项

强推这篇文章 VS2017 CUDA9 2 新建项目里没有CUDA选项佛系随心记 CSDN博客有几点问题在此注释 1 没有Microsoft Visual Studio文件夹解决方法如图所示 2 找不到extension vsixm

CUDA Pytorch

【CUDA】第一个CUDA程序-addVector

本文主要通过对两个浮点数组中的数据进行相加并将其结果放入第三个数组中其算法分别在CPU GPU上分别执行并比较了所需时间强烈感受到GPU的并行计算能力这里每个数组的元素大小为30000000个一实现代码 include

CUDA

cublasSgetriBatched的input matrix A 的值，在計算之後是否被改變或叫做污染，答案是No

基於Nvidia的sample源文件改寫可以發現 Sgetri的輸入矩陣A的元素值并沒有改變編譯的話在cudaSample對應的blas文件夾中置入如下cu文件并且修改對應的makefile裏的變量名字來編譯運行 Copyrigh

blas CUDA Lapack cublas

【CUDA】初步了解PageLocked host memory的mapped memory功能使用

导言大家都知道CUDA 中PageLocked memory 相比portable memory 有着多种优势在有front side bus的系统中 pagelocked memory 所提供的host 与device之间的数据传送速

CUDA 测试

指定CUDA版本失败的解决方案

新电脑安装的WIN11系统因为CUDA只有11和12目前能装到WIN11上所以就装了一个CUDA 11 7 但是编译PBRT失败所以无奈之下又装了CUDA 12 但是因为我有的代码需要CUDA 11里的函数这些函数在CUDA12里被

出错专栏 CUDA c c语言

安装tiny cudann

如果编译报错找不到nvcc 需要安装 conda install c conda forge cudatoolkit dev 我的ubuntu18 04 pip安装的pytroch cu116

CUDA Ubuntu

CUDA编程（七）共享内存与Thread的同步

CUDA编程七共享内存与Thread的同步在之前我们通过block 继续增大了线程的数量结果还是比较令人满意的但是也产生了一个新的问题即我们在CPU端的加和压力变得很大所以我们想到能不能从GPU上直接完成这个工作我们知道每

NVIDIA CUDA 并行编程 程序优化 计算机视觉编程 CUDA GPU加速

cublasSgemm函数

cublasStatus t cublasSgemm cublasHandle t handle cublasOperation t transa cublasOperation t transb int m int n int k con

CUDA

undefined symbol: cublasLtGetStatusString, version libcublasLt.so.11

三段式现象分析总结方法是理解提升能力的最佳思维模式 1 现象在cuda 版本是最新的11 8 运行torch写的模型 import torch报出来的错误 2 分析网上很多是说torch版本和cuda版本不一致去官网按照版本

CUDA 深度学习 人工智能