Ubuntu:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 解决方法总结

2023-05-16

在Ubuntu上运行Cuda并行计算的渲染项目(《Massively Parallel Rendering of Complex Closed-Form Implicit Surfaces》论文代码GUI部分源码),Cuda版本是10.0.130,显卡为NVIDIA GEFORCE GTX 960m,GUI项目运行成功。

昨天准备再次运行该项目,测试一些数据,突然报错显示CUDA运行失败,调用nvidia-smi查看驱动运行情况,出现如下错误:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

在经验不足的情况下,随便参考了一篇文章,卸载并重新安装了nvidia显卡驱动,途中漏掉了开启x-window这一步,所以死活进不了GUI界面,现象是进入系统后黑屏,左上角显示一个不断闪烁的光标_,在这种情况下,发现只要不安装nvidia显卡驱动,通过这篇博文的方法可以直接进入到图形界面中,但是由于不安装nvidia驱动,cuda项目无法运行,所以陷入了死循环。

今天冷静下来,开始分析出现这个错误的原因。

最终发现,出现这种错误的原因是使用sudo apt-get update、sudo apt-get upgrade命令更新软件列表信息及软件时,造成了内核版本的升级,导致以前下载的nvidia显卡驱动不再适配,解决方法是重新安装nvidia显卡驱动或者是降低linux内核版本

  • 方法一降低linux内核版本:在进入系统前的选择系统启动项界面,进入高级选项模块,可以选择进入历史低版本内核(不含recovery后缀),本机(HP-Laptop-960m)的历史低版本内核均存在问题,无法正常进入,所以选择了重新安装显卡驱动。
  • 方法二重新安装nvidia显卡驱动:本机安装了CUDA10.0.130,最低支持410.48版本的nvidia驱动,实际在安装418.88版本的nvidia驱动时出现内核不匹配的现象,所以最好是安装最新版本的驱动,这里重新安装了450.66版本的驱动。

信息来源:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

采用了.run文件安装的方法,首先去官网上下载和本机硬件匹配的最新驱动,然后开始安装:

 1. 卸载掉旧版本的驱动

sudo apt-get autoremove --purge nvidia-*
sudo /usr/bin/nvidia-uninstall

执行第二行命令时会出现

【If you plan to no longer use NVIDIA driver, you should make sure that no X screens are configured to use the NVIDIA X driver in your X configuration file. If you used nvidia-xconfig to configure X, it may have created a backup of you original configuration. Would you like to run 'nvidia-xconfig --restore-original-backup' to attempt restoration of the original X configuration file?】

 选择‘No’,然后点击’OK’

2. 禁用nouveau驱动(nouveau是一个开源驱动,用于支持nvidia显卡,linux默认安装)

新建禁用名单文件:

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

在文件中添加如下内容:

blacklist nouveau
options nouveau modeset=0

更新上述内容,将其编译进内核:

sudo update-initramfs -u

重新启动一下系统,并检测一下nouveau是否被成功禁用:

lsmod | grep nouveau

如果是已经禁用过一次了,就不必再次重复禁用。

3. 关闭x-window,也就是图形界面

Ctrl+Alt+F1(1~6都可以,7是图形界面)切换ttf界面,登录账户后,输入:

sudo service lightdm stop

4. 安装nvidia驱动

sudo ./NVIDIAXXX.run

关于选项的选择,依次为:Continue installation、No、No、Yes、OK

安装完毕后输入nvidia-smi测试是否安装成功,若是成功会打印出一张显卡详细信息的表,按下Ctrl+Alt+F7切换回图形界面。

安装结束,再次测试GUI项目,运行成功。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ubuntu:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 解决方法总结 的相关文章

随机推荐

  • ubuntu16.04搭建spice-html5用于配合KVM

    文章目录 0 配置需求1 启动spice客户端2 配置websockify3 配置spice html54 浏览器访问 0 配置需求 Firefox或Chrome浏览器 xff0c IE浏览器也可以 xff0c 但是效果不是太好 WebSo
  • python 数据挖掘中的数值计算

    一 环境安装 环境配置 xff1a OS xff1a Red Hat 4 4 7 11 查看命令 xff1a uname a xff1a 电脑以及操作系统的相关信息 cat proc version xff1a 正在运行的内核版本 cat
  • 银河麒麟下libguestfs-tools中virt工具无法使用情况

    银河麒麟下libguestfs tools中virt工具无法使用情况 问题描述 xff1a 在银河麒麟高级服务器版本V10下安装libguestfs tools工具包后 xff0c 使用virt xx等一系列命令都会出现以下错误 xff1a
  • ubuntu16.04搭建containerd

    本博客具体介绍在ubuntu16 04下安装containerd的过程 xff0c 有关ctr的命令都要有root权限才能运行 搭建过程 下载containerd安装包解压containerd安装包到根目录下启动containerd并设置开
  • KVM安装Windows11系列(一)

    本教程系列为KVM安装Windows11 xff0c 会分成两部分 xff0c 第一部分会跳过Windows11的硬件要求TPM和安全启动 xff0c 第二部分会安装TPM模拟器进行模拟 文章目录 软件环境下载Windows11镜像和驱动创
  • 容器技术对比(Docker/LXC/LXD/Multipass)

    DockerLXCLXDMultipass基本介绍为了打破 程序即应用 的观念 xff0c 通过镜像imges将作业系统核心除外 xff0c 运作应用程序所需的系统环境 xff0c 由下而上打包 xff0c 达到应用程序跨平台间的无缝接轨运
  • KVM虚拟机配置静态IP(一):Ubuntu16.04

    该系列文章为制作KVM虚拟机镜像的同时配置静态IP xff0c 为用户直接提供好固定IP xff0c 无需手动配置 系列文章目录 Ubuntu16 04Ubuntu18 04Centos6Centos7 文章目录 系列文章目录软件环境一 安
  • KVM虚拟机配置静态IP(二):Ubuntu18.04

    该系列文章为制作KVM虚拟机镜像的同时配置静态IP xff0c 为用户直接提供好固定IP xff0c 无需手动配置 系列文章目录 Ubuntu16 04Ubuntu18 04Centos6Centos7 文章目录 系列文章目录软件环境一 安
  • KVM虚拟机配置静态IP(三):Centos6

    该系列文章为制作KVM虚拟机镜像的同时配置静态IP xff0c 为用户直接提供好固定IP xff0c 无需手动配置 系列文章目录 Ubuntu16 04Ubuntu18 04Centos6Centos7 文章目录 系列文章目录软件环境一 安
  • KVM虚拟机配置静态IP(四):Centos7

    该系列文章为制作KVM虚拟机镜像的同时配置静态IP xff0c 为用户直接提供好固定IP xff0c 无需手动配置 系列文章目录 Ubuntu16 04Ubuntu18 04Centos6Centos7 文章目录 系列文章目录软件环境一 安
  • KVM下Ubuntu18.04打开设置注销问题

    问题描述 xff1a 在KVM中创建Ubuntu18 04 xff0c 打开系统设置 xff0c 发现直接注销 xff08 不是锁屏 xff0c 因为所有程序都退出 xff09 解决思路 在google上搜索发现大多数都是指向显卡问题 xf
  • cloud-init中NoCloud配置

    本文章主要记录cloud init工具中NoCloud数据源的使用方法 xff0c 可以搭配KVM镜像制作系列文章 xff0c 为用户定制操作系统 文章目录 NoCloud使用方法1 安装并初始化文件2 修改cloud init配置文件3
  • winform界面设计

    来自于以下两个地址 xff0c 为便于查阅 xff0c 所以全复制到了自己的BLOG xff1a http dotnet chinaitlab com VCNET 436373 html http www aspxboy com priva
  • cloud-init离线安装编程环境

    本博客主要介绍通过cloud init工具实现在Ubuntu16 04操作系统和KVM虚拟化技术下实现创建虚拟机同时离线安装编程环境 文章目录 1 准备离线安装包1 xff09 下载软件包2 xff09 创建放置软件包的磁盘3 xff09
  • openEuler22.03安装zabbix4.0

    以下教程为openEuler22 03安装zabbix4 0 xff0c 主要原因是openEuler官方和zabbix官方提供的提供的软件源中没有相关软件 xff0c 因此需要使用zabbix源码进行编译 xff0c 并且安装过程中会出现
  • 1.2 SingleThreadExecutor

    线程池工具类给我们提供了一些常见的线程池 xff0c 这篇来谈一谈SingleThreadExecutor线程池 使用方式 创建方式比较简单 xff0c 直接使用工具创建就ok xff0c Executors newSingleThread
  • pycharm终止代码运行时报错:进程已结束,退出代码137 (interrupted by signal 9: SIGKILL)

    在pycharm中调试代码 xff0c 终止时报错 xff1a 进程已结束 退出代码137 interrupted by signal 9 SIGKILL 网上查找时 xff0c 遇到这个问题的一般是训练网络时的内存不足 xff0c 进程被
  • 【多机多卡】mmsegmentation训练报错“RuntimeError: NCCL error in: /opt/pytorch/pytorch/torch/csrc/distributed/”

    多机多卡训练代码 xff1a 报错信息 xff1a RuntimeError NCCL error in opt pytorch pytorch torch csrc distributed c10d ProcessGroupNCCL cp
  • STM32F4工程--串口--配置一个发送函数(详细版)

    STM32F4工程 串口 配置一个发送函数 xff08 库函数 xff09 芯片 xff1a STM32F429IGT6 目录 一 初始化串口相关的参数 二 初始化串口IO口时钟等参数 三 函数声明 四 主函数 xff08 执行函数 xff
  • Ubuntu:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 解决方法总结

    在Ubuntu上运行Cuda并行计算的渲染项目 xff08 Massively Parallel Rendering of Complex Closed Form Implicit Surfaces 论文代码GUI部分源码 xff09 xf