配深度学习环境要注意的不多，也就

2023-10-31

1. 使用nvcc -V命令查看cuda版本，再在官网选择对应版本的pytorch。(是的不要根据python的版本去选择pytorch指令)

2. 用conda安装pytorch可能一直有cpuonly的玄学问题。(哪怕选择的是CUDA版本的pytorch安装命令)改用pip安装或者去https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/

下载下安装包后自己 conda install --use-local xxx.tar.bz2

3. torchtext不会被顺带安装，要安装完pytorch之后pip安装指定版本的。

4. miniconda下一个的安装包默认是在当前的虚拟环境，可以用conda list查看当前环境已经安装的包。

5. 安装torchtext的时候如果torchtext和pytorch版本不一致，哪怕是第二个小数点后的版本不一致，pytorch也会被重新安装。torchtext 0.9.1 和 pytorch 1.8.1刚好对应。妙哉。

6. 有三种安装方式，优先级如下: mamba > conda > pip

7. pip install一个包，若环境中已存在这个包的其他版本(无论高或低)，那么会在安装完成后卸载掉。

8. 不要过分迷信官网给的安装指令。pytorch官网中给的安装命令中有的包括torchvision，torchaudio，但是如果不做视觉、声音方面的东西，后面两个包根本没用嘛，比如我做序列处理，需要的torchtext反而没被安装。我先安装torchtext，再安装pytorch才把一篇论文中的模型复现的。

9. 打印CUDA_VISIBLE_DEVICES这个环境变量看看(echo $CUDA_VISIBLE_DEVICES)，显示的是你可以用哪几块GPU，如果结果是2,3，那么你在程序中写的gpu_ranks:0实际上是第二块GPU。这也是为什么明明GPU显存看上去很够用，但是报错CUDA out of memory.

比较好的方式是在运行前使用nvidia-smi查看哪几块卡显存充足，再在程序开头加上os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'

10. 不要忽视包的版本号透露的信息，例如

py3.7_cuda11.3 表示当前环境下的python应当是3.7版，cudatoolkit应该是11.3版。

cudatoolkit 的版本应该根据nvcc -V 的结果

11. $CUDA_HOME 一般等于/usr/local/cuda-11.1(对应nvcc -V) 11.1可能是别的

12. ModuleNotFoundError 所提示的模块名有时需要将下划线(_)换成短横线(-)才能安装

例如

ModuleNotFoundError: No module named 'cpm_kernels'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

配深度学习环境要注意的不多，也就的相关文章

Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
使用 QuasirandomGenerator （对于傻瓜来说）

我是 CUDA 的新手我正在努力在内核中生成随机数我知道有不同的实现而且在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例我不知道从哪里开始我有点悲伤感觉自己像个傻瓜有人可以制作一个使用 Nied
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int

随机推荐

js 浮点数与整数比大小

JS在比较数字的时候一定不要直接比较而是要转换因为JS里面的是var 这种是弱的类型默认是string 所有比较的时候会出现错误 JS里面有两种转换的 parseFloat和parseInt 比较的时候想下面这样整数如下 if pa
【Loading动画样式】Vue Scss实现的两种Loading动画样式

动画一
ARM64架构下面安装mysql5.6.44全过程

添加mysql用户组和mysql用户用于隔离mysql进程 groupadd r mysql useradd r g mysql s sbin nologin M mysql 2 安装依赖库 yum install y libaio 下载
python科学计算够用吗_为何选用python进行科学计算

说明本篇为翻译文章原文的题目为 Scientific Computing with Python 从文中可以看出作者对在科研活动中使用Python有着深刻的见解而这一点在国内就差许多了所以翻译过来放到这里为Python摇旗呐喊
【论文速览】图像分割领域的通用大模型SegGPT - Segmenting Everything in Context

文章目录研究背景解决思路 Painter SegGPT 实验效果部分思考参考资料代码地址 https github com baaivision Painter Demo地址 https huggingface co space
MyEclipse10.0工程中引入Testng

1 访问http search maven org search ga 1 a 3A 22testng 22 地址下载testng最新版本的jar包 2 打开Myeclipse10 0 选中需要引入的工程右键properties gt
PTA 建立学生信息链表

建立学生信息链表题目链接需要权限本题要求实现一个将输入的学生成绩组织成单向链表的简单函数函数接口定义 void input 该函数利用scanf从输入中获取学生的信息并将其组织成单向链表链表节点结构定义如下 struct stu
[翻译] OpenVINO mo_onnx.py

input model INPUT MODEL w INPUT MODEL m INPUT MODEL Tensorflow a file with a pre trained model binary or text pb file af
C# Dictionary(字典) 替换Key(键值)的值方法

var dict new Dictionary
python中文乱码 def execute-python executemany的使用及注意事项

使用executemany对数据进行批量插入的话要注意一下事项 coding utf8 conn MySQLdb connect host localhost user root passwd 123456 db myDB cursor
华为存储的多路径说明

华为存储不需要在OS层面安装多路径软件而是通过存储本身聚合后映射至服务器使用如下 root lkrac1 rules d fdisk l Disk dev sda 1099 5 GB 1099511627776 bytes 255 he
利用ArrayList对map进行按key（键）和按value (值) 排序

利用ArrayList对map进行按key 键和按value 值排序使用比较器按key 键排序通过ArrayList将map entrySet 变成list 然后在类外写具体如何比较大小的方法compare 最后调用 Colle
iptables开启日志

ifconfig eth1 promisc iptables A INPUT j LOG log prefix iptables iptables nvL
Ubuntu20.04创建快捷方式（CLion）

打开命令行创建在桌面上xxx desktop文件 touch Desktop Clion desktop 编辑desktop文件 Desktop Entry Encoding UTF 8 Name Clion Comment Clion
关于叉积

学过计算几何以后我发现几乎每一道题都用到了叉积这个东西叉积是什么呢在这个图中以原点为中心叉积就是x1 y2 x2 y1 记得话就记1221 x前y后但是这并不是完全正确比如说这个图在这个图中点1和点2是以点0为中心不是原
C++面试八股文

4 C 11的新特性 1 auto关键字在编译时根据初始值自动推导类型必须初始化通常作为变量或返回值 2 decltype declare type 用于推导数据类型用于声明变量配合auto设置返回值如下相较于auto不会计算
Strategy：策略模式

需要令某个模块上下文执行一个功能但是该模块可以配置不同的算法在不同的算法下执行的结果也不同这里算法就是策略策略模式就是在运行时可以进行策略的更改从而影响到执行的结果 1 定义策略类基类及派生类策略类基类定义了策略类的标准
【华为OD机试真题 python】最长广播效应

某通信网络中有N个网络结点用1到N进行标识网络中的结点互联互通且结点之间的消息传递有时延相连结点的时延均为一个时间单位现给定网络结点的连接关系link i u v 其中u和v表示网络结点当指定一个结点向其他结点进行广播所有被广
TuGraph cypher工具的使用

在shell下输入以下指令 locate lgraph cypher py 找到之后 cd 进入cypher工具所在的文件夹成功运行lgraph cypher py 需要提前安装的Python包添加国内源 pip install i h
配深度学习环境要注意的不多，也就

1 使用nvcc V命令查看cuda版本再在官网选择对应版本的pytorch 是的不要根据python的版本去选择pytorch指令 2 用conda安装pytorch可能一直有cpuonly的玄学问题哪怕选择的是CUDA版本的pyto

配深度学习环境要注意的不多，也就

配深度学习环境要注意的不多，也就 的相关文章

随机推荐

热门标签

配深度学习环境要注意的不多，也就的相关文章