配深度学习环境要注意的不多,也就

2023-10-31

1. 使用nvcc -V命令查看cuda版本,再在官网选择对应版本的pytorch。(是的不要根据python的版本去选择pytorch指令)

2. 用conda安装pytorch可能一直有cpuonly的玄学问题。(哪怕选择的是CUDA版本的pytorch安装命令)改用pip安装或者去https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/

下载下安装包后自己 conda install --use-local xxx.tar.bz2 

3. torchtext不会被顺带安装,要安装完pytorch之后pip安装指定版本的。

4. miniconda下一个的安装包默认是在当前的虚拟环境,可以用conda list查看当前环境已经安装的包。

5. 安装torchtext的时候如果torchtext和pytorch版本不一致,哪怕是第二个小数点后的版本不一致,pytorch也会被重新安装。torchtext 0.9.1 和 pytorch 1.8.1刚好对应。妙哉。

6. 有三种安装方式,优先级如下: mamba > conda > pip

7. pip install一个包,若环境中已存在这个包的其他版本(无论高或低),那么会在安装完成后卸载掉。

8. 不要过分迷信官网给的安装指令。pytorch官网中给的安装命令中有的包括torchvision,torchaudio,但是如果不做视觉、声音方面的东西,后面两个包根本没用嘛,比如我做序列处理,需要的torchtext反而没被安装。我先安装torchtext,再安装pytorch才把一篇论文中的模型复现的。

9. 打印CUDA_VISIBLE_DEVICES这个环境变量看看(echo $CUDA_VISIBLE_DEVICES),显示的是你可以用哪几块GPU,如果结果是2,3,那么你在程序中写的gpu_ranks:0实际上是第二块GPU。这也是为什么明明GPU显存看上去很够用,但是报错CUDA out of memory.

比较好的方式是在运行前使用nvidia-smi查看哪几块卡显存充足,再在程序开头加上os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'

10. 不要忽视包的版本号透露的信息,例如

 py3.7_cuda11.3 表示当前环境下的python应当是3.7版,cudatoolkit应该是11.3版。

cudatoolkit 的版本应该根据nvcc -V 的结果

11. $CUDA_HOME 一般等于/usr/local/cuda-11.1(对应nvcc -V) 11.1可能是别的

12. ModuleNotFoundError 所提示的模块名 有时需要将下划线(_)换成短横线(-)才能安装

例如

ModuleNotFoundError: No module named 'cpm_kernels'

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

配深度学习环境要注意的不多,也就 的相关文章

  • Cuda Bayer/CFA 去马赛克示例

    我编写了一个 CUDA4 Bayer 去马赛克例程 但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢 块大小是 16 16 图像暗淡是 16 的倍数 但更改此值并不会改善它 我做了什么明显愚蠢的事情吗 calling rou
  • 如何将CUDA时钟周期转换为毫秒?

    我想用一些代码来测量时间within我的内核需要 我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
  • 使用 QuasirandomGenerator (对于傻瓜来说)

    我是 CUDA 的新手 我正在努力在内核中生成随机数 我知道有不同的实现 而且 在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例 我不知道从哪里开始 我有点悲伤 感觉自己像个傻瓜 有人可以制作一个使用 Nied
  • 为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小?

    我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中 为此 我需要混合两种语言 C 和 C nvcc 是 c 编译器 问题在于 C 编译器将结构视为特定大小 而 C 编译器将相同的结构视为略有不同的大小 那很糟 我对此感
  • “计算能力”是什么意思? CUDA?

    我是CUDA编程新手 对此了解不多 您能告诉我 CUDA 计算能力 是什么意思吗 当我在大学服务器上使用以下代码时 它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
  • CUDA素数生成

    当数据大小增加超过 260k 时 我的 CUDA 程序停止工作 它不打印任何内容 有人能告诉我为什么会发生这种情况吗 这是我的第一个 CUDA 程序 如果我想要更大的素数 如何在 CUDA 上使用大于 long long int 的数据类型
  • 传递给 CUDA 的结构中的指针

    我已经搞砸了一段时间了 但似乎无法正确处理 我正在尝试将包含数组的对象复制到 CUDA 设备内存中 然后再复制回来 但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
  • 如何优化这个 CUDA 内核

    我已经分析了我的模型 似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议 代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
  • 如何在 Visual Studio 2010 中设置 CUDA 编译器标志?

    经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜 但是如何在 VS 2010 中传递这个编译器标志呢 我已经尝试过如下Project gt P
  • 仅使用 CUDA 进行奇异值计算

    我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程 完整代码如下 include cuda runtime h include device launch parameters h include
  • 如何在 CUDA 中执行多个矩阵乘法?

    我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵 我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出 我看到有不同的可能性 分配不同元素的计算M i 到不同的线程 例如 我
  • iOS 上的 OpenCV - GPU 使用情况?

    我正在尝试开发一个 iOS 应用程序 可以对来自相机的视频执行实时效果 就像 iPad 上的 Photobooth 一样 我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成 我担心 iOS 上的性
  • 尝试构建我的 CUDA 程序时出现错误 MSB4062

    当我尝试构建我的第一个 GPU 程序时 出现以下错误 有什么建议可能会出什么问题吗 错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务 无法从程序集 C Program 加载 文件 M
  • 如何在cmake中添加cuda源代码的定义

    我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译 例如 CMakeLists txt project Test add definitions D WINDOW
  • Tensorflow:docker 镜像和 -gpu 后缀

    在具有 GPU 支持的 Tensorflow 的 Docker 映像中 例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
  • cuda中内核的并行执行

    可以说我有三个全局数组 它们已使用 cudaMemcpy 复制到 GPU 中 但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配 以便分配页面锁定的内存 而不是简单的全局分配 int a 100 b 100 c 100 cu
  • __device__ __constant__ 常量

    有什么区别吗 在 CUDA 程序中定义设备常量的最佳方法是什么 在 C 主机 设备程序中 如果我想将常量定义在设备常量内存中 我可以这样做 device constant float a 5 constant float a 5 问题 1
  • 无法满足显式设备规范“/device:GPU:0”,因为没有匹配的设备

    我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是 当将设备分配给节点时 我收到以下错误 InvalidArgumentError see above for traceback Canno
  • NV_path_rendering替代方案[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
  • CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

    与 CUDA 的任何事情一样 最基本的事情有时也是最难的 所以 我只想将变量从 CPU 复制到 GPUconstant变量 我很难过 这就是我所拥有的 constant int contadorlinhasx d int main int

随机推荐

  • js 浮点数与整数比大小

    JS在比较数字的时候一定不要直接比较 而是要转换 因为JS里面的是var 这种是弱的类型 默认是string 所有比较的时候会出现错误 JS里面有两种转换的 parseFloat和parseInt 比较的时候想下面这样 整数如下 if pa
  • 【Loading动画样式】Vue Scss实现的两种Loading动画样式

    动画一
  • ARM64架构下面安装mysql5.6.44全过程

    添加mysql用户组和mysql用户 用于隔离mysql进程 groupadd r mysql useradd r g mysql s sbin nologin M mysql 2 安装依赖库 yum install y libaio 下载
  • python科学计算够用吗_为何选用python进行科学计算

    说明 本篇为翻译文章 原文的题目为 Scientific Computing with Python 从文中可以看出 作者对在科研活动中使用Python有着深刻的见解 而这一点在国内就差许多了 所以 翻译过来放到这里 为Python摇旗呐喊
  • 【论文速览】图像分割领域的通用大模型SegGPT - Segmenting Everything in Context

    文章目录 研究背景 解决思路 Painter SegGPT 实验效果 部分 思考 参考资料 代码地址 https github com baaivision Painter Demo地址 https huggingface co space
  • MyEclipse10.0工程中引入Testng

    1 访问http search maven org search ga 1 a 3A 22testng 22 地址 下载testng最新版本的jar包 2 打开Myeclipse10 0 选中需要引入的工程 右键properties gt
  • PTA 建立学生信息链表

    建立学生信息链表 题目链接 需要权限 本题要求实现一个将输入的学生成绩组织成单向链表的简单函数 函数接口定义 void input 该函数利用scanf从输入中获取学生的信息 并将其组织成单向链表 链表节点结构定义如下 struct stu
  • [翻译] OpenVINO mo_onnx.py

    input model INPUT MODEL w INPUT MODEL m INPUT MODEL Tensorflow a file with a pre trained model binary or text pb file af
  • C# Dictionary(字典) 替换Key(键值)的值方法

    var dict new Dictionary
  • python中文乱码 def execute-python executemany的使用及注意事项

    使用executemany对数据进行批量插入的话 要注意一下事项 coding utf8 conn MySQLdb connect host localhost user root passwd 123456 db myDB cursor
  • 华为存储的多路径说明

    华为存储不需要在OS层面安装多路径软件 而是通过存储本身聚合后映射至服务器使用 如下 root lkrac1 rules d fdisk l Disk dev sda 1099 5 GB 1099511627776 bytes 255 he
  • 利用ArrayList对map进行按key(键)和按value (值) 排序

    利用ArrayList对map进行按key 键 和按value 值 排序 使用比较器 按key 键 排序 通过ArrayList将map entrySet 变成list 然后在类外写具体如何比较大小的方法compare 最后调用 Colle
  • iptables开启日志

    ifconfig eth1 promisc iptables A INPUT j LOG log prefix iptables iptables nvL
  • Ubuntu20.04创建快捷方式(CLion)

    打开命令行 创建在桌面上xxx desktop文件 touch Desktop Clion desktop 编辑desktop文件 Desktop Entry Encoding UTF 8 Name Clion Comment Clion
  • 关于叉积

    学过计算几何以后 我发现几乎每一道题都用到了叉积这个东西 叉积是什么呢 在这个图中 以原点为中心 叉积就是x1 y2 x2 y1 记得话就记1221 x前y后 但是这并不是完全正确 比如说这个图 在这个图中 点1和点2是以点0为中心 不是原
  • C++面试八股文

    4 C 11的新特性 1 auto关键字 在编译时根据初始值自动推导类型 必须初始化 通常作为变量或返回值 2 decltype declare type 用于推导数据类型 用于声明变量 配合auto设置返回值 如下 相较于auto不会计算
  • Strategy:策略模式

    需要令某个模块 上下文 执行一个功能 但是该模块可以配置不同的算法 在不同的算法下 执行的结果也不同 这里 算法就是策略 策略模式就是在运行时可以进行策略的更改 从而影响到执行的结果 1 定义策略类基类及派生类 策略类基类定义了策略类的标准
  • 【华为OD机试真题 python】最长广播效应

    某通信网络中有N个网络结点 用1到N进行标识 网络中的结点互联互通 且结点之间的消息传递有时延 相连结点的时延均为一个时间单位 现给定网络结点的连接关系link i u v 其中u和v表示网络结点 当指定一个结点向其他结点进行广播 所有被广
  • TuGraph cypher工具的使用

    在shell下输入以下指令 locate lgraph cypher py 找到之后 cd 进入cypher工具所在的文件夹 成功运行lgraph cypher py 需要提前安装的Python包 添加国内源 pip install i h
  • 配深度学习环境要注意的不多,也就

    1 使用nvcc V命令查看cuda版本 再在官网选择对应版本的pytorch 是的不要根据python的版本去选择pytorch指令 2 用conda安装pytorch可能一直有cpuonly的玄学问题 哪怕选择的是CUDA版本的pyto