Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
CUDA并行算法系列之FFT快速卷积
CUDA并行算法系列之FFT快速卷积 卷积定义 在维基百科上 卷积定义为 离散卷积定义为 0 1 2 3 和 0 1 2 的卷积例子如下图所示 Python实现 直接卷积 根据离散卷积的定义 用Python实现 def conv a b N
CUDA并行算法
CUDA
算法
fft
nvprof 性能评估主要指标
nvprof 用于性能评估的三个主要指标 occupancy nvprof metrics achieved occupancy helloCuda out gld throughput nvprof metrics gld through
blas
CUDA
关于安装pytorch、cuda对应GPU显卡算力问题(记录贴)
贴几个链接 ngc pytorch容器版本对应关系 CUDA Toolkit版本及可用PyTorch对应关系 NVIDIA英伟达GPU显卡算力表 总结 安装torch时会安装对应的cuda版本 目前来看cuda10对应的是7 5的算力 适用
算力
CUDA
Pytorch
深度学习
cuda/cudnn/cuda 10.1安装教程
方法1 NVIDIA 显卡驱动安装示例 ubuntu系统刚装好 推荐 Ubuntu 18 04 安装 NVIDIA 显卡驱动 ps 1 新系统的签名要重新注册 2 要禁用nouveau 新安装方法 其他参考 https zhuanlan z
Linux
ML
CUDA
CUDA unknown error - this may be due to an incorrectly set up environment
运行mmaction2时报错 builtins RuntimeError CUDA unknown error this may be due to an incorrectly set up environment e g changin
深度学习环境搭建与linux系统操作知识
CUDA
安装cuda 11 ,cudnn,pytorch 1.7
安装cuda cudann pytorch 1 安装cuda 先康康电脑里面有没有 nvcc V 结果当然是没有 要安装首选需要康康自己的显卡能支持到多少的cuda 打开这个 可以通过搜索直接搜到 点击系统信息 在组件栏可以发现我的电脑支持
深度学习相关
CUDA
cuDNN
Pytorch
jittor框架
sudo apt install python dev sudo pip install https github com Jittor jittor git python3 m jittor test test example http
深度学习基础
CUDA
cuda文件操作
1 读取文件 const char usage Usage dwtHaar1D signal
CUDA
reference
signal
file
CUDA优化:最大化内存吞吐量(官方文档翻译)
毕业设计要翻译技术资料 3000 字 这里找了英伟达 CUDA TOOLKIT DOCUMENTATION 的 5 3 节 最大化内存吞吐量来 翻译一下 供参考 并希望此文对诸位的 CUDA 程序优化有所帮助 5 3 最大化内存吞吐量 最大
并行计算
CUDA
Linux 下 cuda 安装教程
1 首先按照NVIDIA document上的规范 完成post install http docs nvidia com cuda cuda installation guide linux index html post install
机器学习算法笔记
CUDA
NVIDIA
Could not locate zlibwapi.dll. Please make sure it is in your library path!
下载预编译版本 http www winimage com zLibDll 把 lib 和 dll 文件放到 CUDA 安装目录的 lib 和 bin 文件夹
CUDA
错误处理-VS2019+CUDA10.1 新建项目里没有CUDA选项
强推这篇文章 VS2017 CUDA9 2 新建项目里没有CUDA选项 佛系随心记 CSDN博客 有几点问题在此注释 1 没有Microsoft Visual Studio文件夹 解决方法 如图所示 2 找不到extension vsixm
CUDA
Pytorch
【CUDA】第一个CUDA程序-addVector
本文主要通过对两个浮点数组中的数据进行相加 并将其结果放入第三个数组中 其算法分别在CPU GPU上分别执行 并比较了所需时间 强烈感受到GPU的并行计算能力 这里 每个数组的元素大小为30000000个 一 实现代码 include
CUDA
cublasSgetriBatched的input matrix A 的值,在計算之後是否被改變或叫做污染,答案是No
基於Nvidia的sample源文件改寫 可以發現 Sgetri的輸入矩陣A的元素值 并沒有改變 編譯的話 在cudaSample對應的blas文件夾中置入如下cu文件 并且修改對應的makefile裏的變量名字來編譯運行 Copyrigh
blas
CUDA
Lapack
cublas
【CUDA】初步了解PageLocked host memory的mapped memory功能使用
导言 大家都知道CUDA 中PageLocked memory 相比portable memory 有着多种优势 在有front side bus的系统中 pagelocked memory 所提供的host 与device之间的数据传送速
CUDA
测试
指定CUDA版本失败的解决方案
新电脑安装的WIN11系统 因为CUDA只有11和12目前能装到WIN11上 所以就装了一个CUDA 11 7 但是编译PBRT失败 所以无奈之下又装了CUDA 12 但是因为我有的代码需要CUDA 11里的函数 这些函数在CUDA12里被
出错专栏
CUDA
c
c语言
安装tiny cudann
如果编译报错 找不到nvcc 需要安装 conda install c conda forge cudatoolkit dev 我的ubuntu18 04 pip安装的pytroch cu116
CUDA
Ubuntu
CUDA编程(七)共享内存与Thread的同步
CUDA编程 七 共享内存与Thread的同步 在之前我们通过block 继续增大了线程的数量 结果还是比较令人满意的 但是也产生了一个新的问题 即 我们在CPU端的加和压力变得很大 所以我们想到能不能从GPU上直接完成这个工作 我们知道每
NVIDIA CUDA 并行编程
程序优化
计算机视觉编程
CUDA
GPU加速
cublasSgemm函数
cublasStatus t cublasSgemm cublasHandle t handle cublasOperation t transa cublasOperation t transb int m int n int k con
CUDA
undefined symbol: cublasLtGetStatusString, version libcublasLt.so.11
三段式 现象 分析 总结 方法 是理解提升能力的最佳思维模式 1 现象 在cuda 版本是最新的11 8 运行torch写的模型 import torch报出来的错误 2 分析 网上很多是说torch版本和cuda版本不一致 去官网按照版本
CUDA
深度学习
人工智能
«
1 ...
45
46
47
48
49
50
51
...54
»