【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

2023-05-16

问题描述

如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.

尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia.ko’. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

按照报错信息,怀疑是内核版本或者gcc版本有误,更换了多个内核版本和gcc版本,使用了网上很多这两种保存相关的解决思路,都没能解决,一筹莫展。

放弃了原先的镜像,新建了空的容器,但是空的容器也会报NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver的错,并且空的容器居然也装不上显卡驱动,遂怀疑是容器本身的问题。

解决方案

发现可能是容器本身的设置有问题,设置为GPU计算时容器可正常安装驱动,但是设置为GPU计算可视化时就会报以上错误。
咨询阿里云,发现GPU计算可视化型需要提交工单获取特定的兼容驱动,GPU计算型才可以从官网下载驱动安装。通过提交工单获取特定的兼容驱动后,驱动可正常安装,问题解决。

反思

如果云服务器中空的容器连驱动都安装不好的话,就不要自己折腾了,大概率是容器本身哪里出问题了,咨询云服务商吧。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器 的相关文章

随机推荐

  • 全志T113-S3 RT-Thread SMP适配笔记

    T113 S3 SMP适配笔记 目标 给T113 S3适配RT Thread xff0c 并支持SMP 资料 没有太详细的资料和示例 xff0c 只有一些零星的信息 F133封装基本兼容Cortex A7双核 一些参考资料 https wh
  • 《Java核心技术精讲》读书笔记

    Java核心技术精讲 李兴华著 目录 xff1a 一 Java基础知识 二 面向对象 三 Java SE基础知识 四 设计开发 Java核心技术精讲 这本书以实战应用 就业实践为目的 xff0c 拒绝纸上谈兵 书中很多内容都是非常有针对性
  • 【STM32】HAL库自学记录-旋转编码器的使用

    STM32 HAL库自学记录 旋转编码器的使用 前言使用工具旋转编码器原理介绍方法一 定时器中断方式 xff08 实质就是外部中断 xff09 方法二 定时器方式 前言 通过本文可学会两种实现判断旋转编码器正转反转的方法 xff0c 可根据
  • Ubuntu20.04 loam_velodyne编译运行

    当你拿到了loam velodynede 的代码 xff0c 你想立刻catkin make起来 xff0c 看一下实际效果 结果你发现编译不通过 xff01 xff01 xff01 你发现报错是opencv的问题 然后 xff0c 你就可
  • 【运动控制】线性二次型最优控制(LQR)

    1 算法思想 对一个受控系统 xff0c 从一类允许的控制方案中找出一个最优的方案 xff0c 使系统由初始状态转移到目标状态的同时某个特定的性能指标为最优 在运动方程和允许控制范围的约束下 xff0c 对以控制函数和运动状态为变量的性能指
  • IMU与GPS的数据融合

    1 IMU简介 惯性测量单元 xff08 Inertial Measurement Unit xff09 通常由3个加速度计和3个陀螺仪组合而成 xff0c 加速度计和陀螺仪安装在互相垂直的测量轴上 xff0c 这里可以将其输出看作为三个方
  • 卡尔曼滤波算法

    了解过导航 雷达数据处理的必然听过卡尔曼滤波 xff0c 因为最近有项目需求 xff0c 要验证一下卡尔曼滤波对结果的优化程度 xff0c 所以入门学习一下卡尔曼滤波器 毕竟是经典的滤波器 xff0c 网上关于卡尔曼滤波的代码和文章有很多
  • C++STL在算法题中的应用-持续更新

    写洛谷的题 有时候不会总是会去看题解 有的思路很巧妙 需要学习 有的用了很厉害的STL 之前一直在看 现在想想也是要记下来好一点 这个帖子持续更新吧 再见到好用的STL就在这里记下来 1 vector 是个容器很好用 但是我基本没怎么用过
  • 卡尔曼滤波(联邦、一致性卡尔曼滤波)

    在信息融合中经常使用卡尔曼滤波 xff0c 现在我们对其进行讲解 xff1a 百度百科上写到 xff1a 卡尔曼滤波公式如上 这是另一种表述 xff0c 涉及的符号见下表 xff1a 对于联邦卡尔曼滤波 xff1a 对于一致性卡尔曼滤波 x
  • BP神经网络公式推导(西瓜书)自我理解

    公式推导 描述BP神经网络 xff1a 网络包含三层 xff1a 输入层 xff1a 神经元数量为 d d d 个 xff0c 输入为 x i
  • C++ 友元类

    1 在C 43 43 中 xff0c 我们使用类对数据进行了隐藏和封装 xff0c 类的数据成员一般都定义为私有成员 xff0c 成员函数一般都定义为公有的 xff0c 以此提供类与外界的通讯接口 但是 xff0c 有时需要定义一些函数 x
  • 浪潮服务器通过BMC安装银河麒麟OS记录

    浪潮服务器 xff08 X86 xff09 远程安装银河kylin操作系统记录 1 下载麒麟镜像OS 官网下载 xff1a 银河麒麟官网 xff0c 按需申请即可这个是首页 xff0c 不要走错哦 2 通过网络登录BMC 浪潮服务器的默BM
  • K8S 性能优化 - 大型集群 CIDR 配置

    前言 K8S 性能优化系列文章 xff0c 本文为第三篇 xff1a Kubernetes 大型集群 CIDR 配置最佳实践 系列文章 xff1a K8S 性能优化 OS sysctl 调优 K8S 性能优化 K8S APIServer 调
  • 完美实现Ubuntu系统迁移到另一台电脑/服务器

    一 以A电脑的系统向B电脑迁移为例 第一 xff0c 首先进入A电脑根目录并获取权限 命令 xff1a cd sudo su 第二 xff0c 将根目录所需文件打包为backup tar gz放在当前目录下 xff0c 也可以修改路径直接保
  • catkin 创建工作区

    先确定自己的环境变量是否设置正确 export grep ROS 若出现如下的 xff0c 说明是正确的 declare x ROSLISP PACKAGE DIRECTORIES 61 declare x ROS DISTRO 61 in
  • semtcl-信号量的操作

    头文件 include lt sys types h gt include lt sys ipc h gt include lt sys sem h gt 函数 int semctl xff08 int semid xff0c int se
  • 计算机专业保研面试复习笔记——操作系统

    计算机专业保研面试复习笔记 xff1a 计算机专业保研面试复习笔记 数据结构中的重要算法 计算机专业保研面试复习笔记 数据库 计算机专业保研面试复习笔记 操作系统 计算机专业保研面试复习笔记 计算机网络 文章目录 死锁定义原因条件处理方法死
  • 计算机专业保研面试复习笔记——计算机网络

    计算机专业保研面试复习笔记 xff1a 计算机专业保研面试复习笔记 数据结构中的重要算法 计算机专业保研面试复习笔记 数据库 计算机专业保研面试复习笔记 操作系统 计算机专业保研面试复习笔记 计算机网络 文章目录 三种协议五层协议应用层 x
  • 北航计算机学院往年夏令营+考研面试数理题目汇总

    北航计算机学院硕士复试机经 43 面经 xff1a 北航计算机学院往年夏令营 43 预推免机试题目汇总 北航计算机学院往年夏令营 43 考研面试题目汇总 北航计算机学院往年夏令营 43 考研面试数理题目汇总 以下是笔者汇总的北航计算机学院往
  • 【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

    问题描述 如题 xff0c 起因是在阿里云GPU服务器上 xff0c 使用原先正常运行的镜像生成了容器 xff0c 但容器的显卡驱动出问题了 xff0c 使用nvidia smi命令会报错 NVIDIA SMI has failed bec