nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

2023-05-16

由于断电，服务器重启了，当再次跑实验时，发现cuda不可用，于是输入“nvidia-smi”才发现了一个错误，如下：

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

这是由于重启服务器，linux内核升级导致的，由于linux内核升级，之前的Nvidia驱动就不匹配连接了，但是此时Nvidia驱动还在，可以通过命令 nvcc -V 找到答案。

重新安装Nvidia驱动的流程如下：

第一步，安装dkms：

sudo apt-get install dkms

第二步，查看本机连接不上的驱动版本：

ls -l /usr/src/

可以看到有一个nvidia的文件，我这里是 nvidia-470.103.01

如果没有 nvidia-470.103.01 这类文件，那么请打开 unbuntn 的软件与升级或下载安装，安装完成后在 /usr/src/ 目录下就会有 nvidia-470.103.01 文件。

第三步，使用dkms重新安装适合驱动:

sudo dkms install -m nvidia -v 470.103.01

这条命令 -v 后面需要填写本机的nvidia驱动版本，根据第二步得到！

到了这里，如果你安装成功，那么恭喜你，此时输入nvidia-smi就会成功连接了！

============================================================================
如果安装失败了，请跟者本文走>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

此时，如果你的gcc（尽量大于7.3版本）版本过低，那么上述命令sudo dkms install -m nvidia -v 470.103.01失败的原因就找到了，查看现有的gcc版本：

gcc --version

这里我讲解安装gcc7.5版本的过程：

第一步，下载gcc，输入命令：

cd /usr/local/src/
wget http://ftp.gnu.org/gnu/gcc/gcc-7.5.0/gcc-7.5.0.tar.xz tar xvf
gcc-7.3.0.tar.xz

第二步，安装gcc的依赖软件，gcc的软件包内提供了自动下载需要软件的脚本，命令如下：

cd gcc-7.5.0/
./contrib/download_prerequisites

第三步，生成Makefile文件，输入命令：

./configure -enable-checking=release -enable-languages=c,c++ -disable-multilib

第四步，编译gcc，命令如下：

make -j4
ls /usr/local/bin | grep gcc

多核电脑可以添加 “-j4” ，make对多核处理器的优化选项，此步骤非常耗时 !

第五步，安装gcc，命令如下：

make install

安装完成后，再次输入命令sudo dkms install -m nvidia -v 470.103.01，如果成功了，恭喜你！

=============================================================================
如果失败了，别急，接着往下看>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
此时，我们需要把新安装的gcc版本的优先级调到最高，否则系统还是会调用以前版本的gcc，这样还是会导致命令sudo dkms install -m nvidia -v 470.103.01失败。

gcc在 /usr/bin 目录下，输入命令查看所有版本的gcc：

ls /usr/bin/gcc*
ls /usr/bin/g++*

将查到的版本加入gcc候选中，最后的数字是优先级，如下：

> sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-6 100
> sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 100

> sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-6 100
> sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 100
完成上面的操作之后，我们就可以通过下面的指令来选择不同的gcc和g++的版本了

sudo update-alternatives --config gcc

这里我们选择新安装的 gcc-7，也就是输入数字 2 ，到这里，我们在输入命令sudo dkms install -m nvidia -v 470.103.01，成功！

重启电脑，输入nvidia-smi，链接成功！

————————————————
原文链接：https://blog.csdn.net/nizhenshishuai/article/details/123873453

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案的相关文章

VOC数据集颜色表colormap与代码

VOC颜色和分类的对于关系 code如下 xff0c 这里提供两个版本 xff0c 一个是list tuple 版本 xff0c 支持直接在opencv的color参数使用 xff1b 另一个是ndarray版返回 list 版 def v
【译】Python3.8官方Logging文档（完整版）

注 xff1a 文章很长 xff0c 约一万字左右 xff0c 可以先收藏慢慢看哟 01 基础部分日志是用来的记录程序运行事件的工具当程序员可以通过添加日志打印的代码来记录程序运行过程中发生的某些事件时这些事件包含了诸如变量数据在内的
OpenCV Scalar value for argument ‘color‘ is not numeric错误处理

import cv2 cur color 61 np array 128 0 128 astype np uint8 cv2 polylines cvImage ndata isClosed 61 True color 61 cur col
COCO格式数据集可视化为框

使用pycocotools读取和opencv绘制 xff0c 实现COCO格式数据边框显示的可视化 xff0c 可视化前后的示例为 xff1a 代码 xff1a coding utf 8 import os import sys getop
微波遥感（三、SAR图像特征）

SAR 是主动式侧视雷达系统 xff0c 且成像几何属于斜距投影类型因此 SAR 图像与光学图像在成像机理几何特征辐射特征等方面都有较大的区别在进行 SAR 图像处理和应用前 xff0c 需要了解 SAR 图像的基本特征本文主要
基于Slicing Aided Hyper Inference (SAHI)做小目标检测

遥感等领域数据大图像检测时 xff0c 直接对大图检测会严重影响精度 xff0c 而通用工具多不能友好支持大图分块检测 Slicing Aided Hyper Inference SAHI 是一个用于辅助大图切片检测预测的包目前可以良好的
YOLOv5训练参数简介

YOLOv5参数解析 xff0c 这次主要解析源码中train py文件中包含的参数 1 1 39 weights 39 1 2 39 cfg 39 1 3 39 data 39 1 4 39 hyp 39 1 5 39 epochs 39
亚米级土耳其地震影像数据下载

下载地址1 xff0c 提供震前震后影像部分震后影像的百度网盘存档 xff1a https pan baidu com s 1 rLV7cR F3casKRwQH7JTw 提取码 xff1a dou3 灾前灾后影像下载地址2 xff1
nms_rotated编译出错fatal error: THC/THC.h: No such file or directory

问题描述 xff1a 使用 python setup py develop or 34 pip install v e 34 编译nms rotated时出错 xff1a fatal error THC THC h No such file
解决 AttributeError: module ‘numpy‘ has no attribute ‘int‘

原因 xff1a numpy int在NumPy 1 20中已弃用 xff0c 在NumPy 1 24中已删除解决方式 xff1a 将numpy int更改为numpy int xff0c int 方法 xff1a 点击出现错误代码链接会
机载高分辨率SAR数据（~0.1米）

美国桑迪亚 xff08 sandia xff09 国家实验室提供一系列机载SAR数据 xff0c 包括MiniSAR FARAR等数据分辨率4英寸 xff0c 约0 1米原始数据下载地址 xff0c 数据是复数据 xff0c 以不同格式
ubuntu18.04 及以上版本命令模式和GUI切换

网上大多数说的CTRL 43 ALT 43 F1 6进入命令模式 xff0c CTRL 43 ALT 43 F7进入GUI模式 xff0c 在ubuntu18 04 及以上无效正确的方式是 xff1a 进入命令模式可以通过CTRL 43
Python内置库——http.client源码刨析

看过了http client的文档 xff0c 趁热打铁 xff0c 今天继续研究一下http client的源码 xff08 一 xff09 你会怎么实现开始之前先让我们回忆一下一个HTTP调用的完整流程 xff1a 看到这张图 xff
ssh连接ubuntu访问拒绝（access denied）

网上大多针对ssh连接ubuntu访问拒绝的解决办法是安装ssh或防火墙开启端口等等 xff0c 但这些都没问题之后还是访问拒绝 xff0c 则考虑ssh包可能安装的有问题 xff0c 可以尝试重装流程如下 xff1a 1 在ubuntu
【论文-目标检测】RTMDet: An Empirical Study of Designing Real-Time Object Detectors

论文代码官方原理与实现详解发展YOLO系列并方便支持实例分割和斜框检测等任务 xff0c 亮点 xff1a 设计兼容性backbone和neck xff0c 采用大核深度可分离卷积 xff1b 动态标签分配中采用软标签计算匹配损失 x
【OpenCV】图像金字塔 -- 下采样cv2.pyrDown() ，上采样cv2.pyrUp()

参考 xff1a cv2 pyrDown TheAILearner 1 cv2 pyrDown 函数cv2 pyrDown 用于实现高斯金字塔中的下采样函数原型 xff1a dst img 61 cv2 pyrDown src img d
理解depth-wise 卷积

EfficientNet利用depth wise卷积来减少FLOPs但是计算速度却并没有相应的变快反而拥有更多FLOPs的RegNet号称推理速度是EfficientNet的5倍非常好奇 xff0c 这里面发生了什么 xff0c 为什么
GIoU (Generalized Intersection over Union) 详解

论文 xff1a Generalized Intersection over Union A Metric and A Loss for Bounding Box Regression 官方解读 xff1a Generalized Inte
Gitee push错误 Access denied: You do not have permission to push to the protected branch ‘master‘ via

错误 xff1a 首次使用gitee向别人的repo提交代码 xff0c 发现出现权限问题无法push到master xff0c 提交命令如下 xff1a git push u origin master master 错误信息如下 xff
GDAL重采样与裁剪图像示例

GDAL重采样 xff0c 可以通过写文件时改变图像尺寸和geo transformes的分辨率信息实现核心代码示例如下 xff1a in ds 61 gdal Open fi gdal GA ReadOnly geotrans 61 i

随机推荐

pycharm专业版连接远程docker容器

一配置远程docker容器 1 启动带有端口的docker容器 6006端口是用来运行tensorboard的 xff0c 这里重要的是22端口如果希望通过ssh远程连接docker xff0c 需要对容器的22端口做端口映射 dock
VScode 远程开发配置

一配置免密远程登录因为是要远程登录 xff0c 那么需要通过使用ssh进行密钥对登录 xff0c 这样每次登录服务器就可以不用输入密码了先来一句官方介绍 xff1a ssh 公钥认证是一种方便高安全性的身份验证方法 xff0c 它将
np.meshgrid()与torch.meshgrid()的区别

比如要生成一张图像 h 61 6 w 61 10 的xy坐标点 xff0c 看下两者的实现方式 xff1a 两种方式的差异在于 xff1a xs ys 61 np meshgrid np arange w np arange h xs ys
JSON是什么

提起 JSON xff0c 作为如今最受欢迎的数据交换格式 xff0c 可以说是无人不知无人不晓了 JSON 全称 JavaScript Object Notation xff08 JS 对象简谱 xff09 xff0c 自诞生之初的小目
【C++】数组定义引发Stack overflow错误（运行时是报段错误）

C 43 43 xff08 实际是C的语法 xff09 定义数组时出错 xff0c 代码如下 xff1a float t1 9830400 调试时触发Stack overflow错误 xff08 可执行文件运行时 xff0c 是报段错误 x
【C/C++】数组初始化

数组定义不初始化会被随机赋值因此如果数组的所有元素在下面没有逐一赋值 xff0c 但是又会使用到的话 xff0c 最后不要只定义而不初始化会带来问题数组初始化的几种形式可以直接用 xff1a a 10 61 xff0c 就可以让a
【C++】指针数组与数组指针

指针数组指针数组可以说成是指针的数组 xff0c 首先这个变量是一个数组 xff0c 其次 xff0c 指针修饰这个数组 xff0c 意思是说这个数组的所有元素都是指针类型 xff0c 在32位系统中 xff0c 指针占四个字节定义
【旋转框目标检测】2201_The KFIoU Loss For Rotated Object Detection

paper with code paper code Jittor Code https github com Jittor JDet PyTorch Code https github com open mmlab mmrotate Te
CUDA编译报错unsupported GNU version! gcc versions later than 10 are not supported!

问题 xff1a python编译用于cuda的so文件中 xff0c 使用编译 cu文件出错 xff1a error unsupported GNU version gcc versions later than 10 are not s
RuntimeError: CUDA error: no kernel image is available for execution on the device

问题 xff1a 代码换机器执行时 xff0c 使用包含自行编译的cuda算子库so时出错 xff1a RuntimeError CUDA error no kernel image is available for execution o
Ubuntu非LTS版本安装nvidia-docker出错：Unsupported distribution!

问题 xff1a 按照Nvidia官方流程 xff0c 在Ubuntu22 10安装nvidia docker在执行以下命令时 distribution 61 etc os release echo ID VERSION ID amp am
测试torch方法是否支持半精度

并不是所有的torch方法都支持半精度计算测试半精度计算需要在cuda上 xff0c cpu不支持半精度因此首先需要创建半精度变量 xff0c 并放到cuda设备上部分方法在低版本不支持 xff0c 在高版本支持半精度计算 xff0c
yolov5关闭wandb

yolov5训练过程中wandb总是提示登入账号 xff0c 不登入还不能继续训练 xff0c 想要关闭wandb xff0c 直接不使用即可在 yolov5 utils loggers wandb wandb utils py中 imp
目标检测 YOLOv5的loss权重，以及与图像大小的关系

1 目标检测 YOLOv5的loss权重 YOLOv5中有三个损失分别是 box obj cls 在超参数配置文件hyp yaml中可以设置基础值 xff0c 例如 box 0 05 cls 0 5 obj 1 训练使用时 xff0c 在t
手写一个JSON反序列化程序

上一篇文章 JSON是什么给大家介绍了JSON的标准规范 xff0c 今天就自己动手写一个JSON的反序列化程序 xff0c 并命名它为 zjson 0 开始之前本篇文章的目的是学习实践 xff0c 所以我们选择相对简单的Python实
yolov5源码解析--输出

本文章基于yolov5 6 2版本主要讲解的是yolov5是怎么在最终的特征图上得出物体边框置信度物体分类的一总体框架首先贴出总体框架 xff0c 直接就拿官方文档的图了 xff0c 本文就是接着右侧的那三层输出开始讨论 Bac
yolov5源码解析--损失计算与anchor

本文章基于yolov5 6 2版本主要讲解的是yolov5在训练过程中是怎么由推理结果和标签来进行损失计算的损失函数往往可以作为调优的一个切入点 xff0c 所以我们首先要了解它一代码入口损失函数的调用点如下 xff0c 在tra
多任务学习中各loss权重应该如何设计呢？

来源 xff1a 22 封私信 80 条消息多任务学习中各loss权重应该如何设计呢 xff1f 知乎 zhihu com 多损失在深度学习中很常见 xff0c 例如 xff1a 目标检测 xff1a 以 YOLO 为例 xff0c 它的
YOLOv5之autoanchor看这一篇就够了

简单粗暴 xff0c 废话也不罗嗦了 xff0c 学习目的就是解决下面三个问题 xff0c 1 默认anchor t设置为4 xff0c 这个参数如何调整 xff1f 有没有必要调整 xff1f xff08 首先网上很多说这个参数是长宽比是
nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

由于断电 xff0c 服务器重启了 xff0c 当再次跑实验时 xff0c 发现cuda不可用 xff0c 于是输入 nvidia smi 才发现了一个错误 xff0c 如下 xff1a NVIDIA SMI has failed beca

nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案 的相关文章

随机推荐

热门标签

nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案的相关文章