【已解决】nvidia-smi报错：NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

2023-05-16

问题描述

如题，起因是在阿里云GPU服务器上，使用原先正常运行的镜像生成了容器，但容器的显卡驱动出问题了，使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.

尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia.ko’. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

按照报错信息，怀疑是内核版本或者gcc版本有误，更换了多个内核版本和gcc版本，使用了网上很多这两种保存相关的解决思路，都没能解决，一筹莫展。

放弃了原先的镜像，新建了空的容器，但是空的容器也会报NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver的错，并且空的容器居然也装不上显卡驱动，遂怀疑是容器本身的问题。

解决方案

发现可能是容器本身的设置有问题，设置为GPU计算时容器可正常安装驱动，但是设置为GPU计算可视化时就会报以上错误。
咨询阿里云，发现GPU计算可视化型需要提交工单获取特定的兼容驱动，GPU计算型才可以从官网下载驱动安装。通过提交工单获取特定的兼容驱动后，驱动可正常安装，问题解决。

反思

如果云服务器中空的容器连驱动都安装不好的话，就不要自己折腾了，大概率是容器本身哪里出问题了，咨询云服务商吧。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【已解决】nvidia-smi报错：NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器的相关文章

keil里面while循环条件已经为假了，可是跳不出去的问题

1 背景笔者把公司里面很古老的一套程序从IAR的编译环境移植到KEIL环境下 xff0c 启动文件等问题全部都解决了 xff0c 能正常编译了但是卡在了一个while xff08 send flag xff09 的一个循环里面 send
STM32的HAL库串口编程

1 需求 1 收到数据 xff0c 放入缓存 2 取出数据进行协议解析 2 问题 HAL库的接收函数 xff0c 指定接收固定数长的数据中断方式接收 HAL StatusTypeDef HAL UART Receive IT UART H
二级倒立摆的建模、线性化S函数的PID控制以及非线性化S函数的PID控制

1 二级倒立摆的非线性建模首先对于下面这种二级倒立摆 xff0c 对其进行建模 xff1a 进行以下参数假设 xff1a 可以通过参考论文 xff0c 使用牛顿运动定律和拉格朗日方程 xff0c 结合 1和 2无外力作用 xff0c 列出
解决Vmware下虚拟机下打开gazebo报错：VMware: vmw_ioctl_command error Invalid argument

引言在使用虚拟机Vmware打开gazebo仿真环境的时候 xff0c 刚打开就闪退 xff0c 并报错以下错误 xff1a VMware vmw ioctl command error Invalid argument 大概意思是虚拟机
Python装饰器传参(外部传参)

def get temp temp out temp out外部传参 61 61 61 gt 34 李想 34 def get test test def get current test temp in temp in 61 61 61
Windows线程信号量 CreateSemaphore创建信号量、RelaseSemaphore设置信号量

信号量相关问题类似于事件 xff08 作用类似 xff09 xff0c 解决通知的相关问题但提供一个计数器 xff0c 可以设置次数信号量的使用 1 创建信号量 HANDLE CreateSemaphore LPSECURITY A
华三交换机基本配置命令

华三路由器交换机基本配置 span class token operator lt span H3C span class token operator gt span 用户直行模式提示符用户视图 span class token op
centos7 tigervnc 的删除

CentOS Linux release 7 3 1611 Core 转载 43 修改后发布一删除安装的tigervnc yum span class hljs attribute y span remove tigervnc span
centos7 删除自带openJDK，安装所需JDK和JDK环境变量配置

CentOS Linux release 7 3 1611 Core 转载 43 修改后发布一删除自带的openJDK 自带的openJDK很多时候并不是我们所需要的查看自带的openJDK rpm qa span class hlj
centos7 集群的配置和添加步骤

CentOS Linux release 7 3 1611 Core 转载 43 原创序集群的添加和配置需要做一下前期准备 xff0c 前期准备 xff1a 集群配置的前期准备需要完成前期准备才能顺利添加和配置集群 xff1a 集群配
systemctl stop firewalld和systemctl status firewalld【防火墙关闭和状态查看】

root 64 node1601232218 ui systemctl status firewalld firewalld service firewalld dynamic firewall daemon Loaded loaded u
centos7 安装并配置apache-apollo

CentOS Linux release 7 3 1611 Core 转载 43 原创一下载并安装apache apollo apache apollo下载地址 http activemq apache org apollo downl
centos7 opentsdb 安装与配置

CentOS Linux release 7 3 1611 Core 转载 43 原创一安装opentsdb前期准备需要安装JDK xff0c JDK安装教程集群部署 xff0c 集群配置和添加注意 xff1a 集群中的服务器 x
centos 7 Nginx安装配置

CentOS Linux release 7 3 1611 Core 转载 43 原创注 xff1a 集群中的服务器包括主节点 xff0c 字节点都需要都要按照下列步骤安装nginx 一安装Nginx的前置条件安装centos平台的编
Mysql-5.7.26安装小记

Mysql 5 7 26安装小记从官网下载指定的rpm捆绑包 xff0c 包含了mysql community server所需的依赖按照依赖完成安装后 xff0c 需要查看 var log mysql log 文件 xff0c 找到临时
centos7.1 inter 82599 万兆光网卡驱动安装心得

centos7 1 inter 82599 万兆光网卡驱动安装心得解压驱动tar包 tar zxf ixgbe lt xxx gt tar gz 进入到src目录下 cd ixgbe lt xxx gt src 编译 make insta
PWM介绍（STM32库函数）

简介 PWM是 Pulse Width Modulation的缩写它是利用微处理器的数字输出来对模拟电路进行控制的一种技术可应用与电机控制 xff0c 测量 xff0c 通信 xff0c 开关电源等使用STM32库函数输出PWM详解
keil 突然跳转不了

如题 keil 突然跳转不了 1 搞了好久 xff0c 最终发现我是把工程放在了中文目录下面把它移出来然后重新编译就能正常跳转 2 也有可能是工程过大 xff0c 稍等一会或者重新打开工程也可以解决问题
Ubuntu20修改主机名

编辑 etc hostname 文件
Linux运维|使用aptitude代替apt-get解决安装包依赖问题

文章目录问题描述aptitude安装过程问题描述在使用apt get安装libffi dev时出现如下报错 xff1a The following packages have unmet dependencies libffi spa

随机推荐

全志T113-S3 RT-Thread SMP适配笔记

T113 S3 SMP适配笔记目标给T113 S3适配RT Thread xff0c 并支持SMP 资料没有太详细的资料和示例 xff0c 只有一些零星的信息 F133封装基本兼容Cortex A7双核一些参考资料 https wh
《Java核心技术精讲》读书笔记

Java核心技术精讲李兴华著目录 xff1a 一 Java基础知识二面向对象三 Java SE基础知识四设计开发 Java核心技术精讲这本书以实战应用就业实践为目的 xff0c 拒绝纸上谈兵书中很多内容都是非常有针对性
【STM32】HAL库自学记录-旋转编码器的使用

STM32 HAL库自学记录旋转编码器的使用前言使用工具旋转编码器原理介绍方法一定时器中断方式 xff08 实质就是外部中断 xff09 方法二定时器方式前言通过本文可学会两种实现判断旋转编码器正转反转的方法 xff0c 可根据
Ubuntu20.04 loam_velodyne编译运行

当你拿到了loam velodynede 的代码 xff0c 你想立刻catkin make起来 xff0c 看一下实际效果结果你发现编译不通过 xff01 xff01 xff01 你发现报错是opencv的问题然后 xff0c 你就可
【运动控制】线性二次型最优控制（LQR）

1 算法思想对一个受控系统 xff0c 从一类允许的控制方案中找出一个最优的方案 xff0c 使系统由初始状态转移到目标状态的同时某个特定的性能指标为最优在运动方程和允许控制范围的约束下 xff0c 对以控制函数和运动状态为变量的性能指
IMU与GPS的数据融合

1 IMU简介惯性测量单元 xff08 Inertial Measurement Unit xff09 通常由3个加速度计和3个陀螺仪组合而成 xff0c 加速度计和陀螺仪安装在互相垂直的测量轴上 xff0c 这里可以将其输出看作为三个方
卡尔曼滤波算法

了解过导航雷达数据处理的必然听过卡尔曼滤波 xff0c 因为最近有项目需求 xff0c 要验证一下卡尔曼滤波对结果的优化程度 xff0c 所以入门学习一下卡尔曼滤波器毕竟是经典的滤波器 xff0c 网上关于卡尔曼滤波的代码和文章有很多
C++STL在算法题中的应用-持续更新

写洛谷的题有时候不会总是会去看题解有的思路很巧妙需要学习有的用了很厉害的STL 之前一直在看现在想想也是要记下来好一点这个帖子持续更新吧再见到好用的STL就在这里记下来 1 vector 是个容器很好用但是我基本没怎么用过
卡尔曼滤波（联邦、一致性卡尔曼滤波）

在信息融合中经常使用卡尔曼滤波 xff0c 现在我们对其进行讲解 xff1a 百度百科上写到 xff1a 卡尔曼滤波公式如上这是另一种表述 xff0c 涉及的符号见下表 xff1a 对于联邦卡尔曼滤波 xff1a 对于一致性卡尔曼滤波 x
BP神经网络公式推导（西瓜书）自我理解

公式推导描述BP神经网络 xff1a 网络包含三层 xff1a 输入层 xff1a 神经元数量为 d d d 个 xff0c 输入为 x i
C++ 友元类

1 在C 43 43 中 xff0c 我们使用类对数据进行了隐藏和封装 xff0c 类的数据成员一般都定义为私有成员 xff0c 成员函数一般都定义为公有的 xff0c 以此提供类与外界的通讯接口但是 xff0c 有时需要定义一些函数 x
浪潮服务器通过BMC安装银河麒麟OS记录

浪潮服务器 xff08 X86 xff09 远程安装银河kylin操作系统记录 1 下载麒麟镜像OS 官网下载 xff1a 银河麒麟官网 xff0c 按需申请即可这个是首页 xff0c 不要走错哦 2 通过网络登录BMC 浪潮服务器的默BM
K8S 性能优化 - 大型集群 CIDR 配置

前言 K8S 性能优化系列文章 xff0c 本文为第三篇 xff1a Kubernetes 大型集群 CIDR 配置最佳实践系列文章 xff1a K8S 性能优化 OS sysctl 调优 K8S 性能优化 K8S APIServer 调
完美实现Ubuntu系统迁移到另一台电脑/服务器

一以A电脑的系统向B电脑迁移为例第一 xff0c 首先进入A电脑根目录并获取权限命令 xff1a cd sudo su 第二 xff0c 将根目录所需文件打包为backup tar gz放在当前目录下 xff0c 也可以修改路径直接保
catkin 创建工作区

先确定自己的环境变量是否设置正确 export grep ROS 若出现如下的 xff0c 说明是正确的 declare x ROSLISP PACKAGE DIRECTORIES 61 declare x ROS DISTRO 61 in
semtcl-信号量的操作

头文件 include lt sys types h gt include lt sys ipc h gt include lt sys sem h gt 函数 int semctl xff08 int semid xff0c int se
计算机专业保研面试复习笔记——操作系统

计算机专业保研面试复习笔记 xff1a 计算机专业保研面试复习笔记数据结构中的重要算法计算机专业保研面试复习笔记数据库计算机专业保研面试复习笔记操作系统计算机专业保研面试复习笔记计算机网络文章目录死锁定义原因条件处理方法死
计算机专业保研面试复习笔记——计算机网络

计算机专业保研面试复习笔记 xff1a 计算机专业保研面试复习笔记数据结构中的重要算法计算机专业保研面试复习笔记数据库计算机专业保研面试复习笔记操作系统计算机专业保研面试复习笔记计算机网络文章目录三种协议五层协议应用层 x
北航计算机学院往年夏令营+考研面试数理题目汇总

北航计算机学院硕士复试机经 43 面经 xff1a 北航计算机学院往年夏令营 43 预推免机试题目汇总北航计算机学院往年夏令营 43 考研面试题目汇总北航计算机学院往年夏令营 43 考研面试数理题目汇总以下是笔者汇总的北航计算机学院往
【已解决】nvidia-smi报错：NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

问题描述如题 xff0c 起因是在阿里云GPU服务器上 xff0c 使用原先正常运行的镜像生成了容器 xff0c 但容器的显卡驱动出问题了 xff0c 使用nvidia smi命令会报错 NVIDIA SMI has failed bec

热门标签