nvidia-smi命令输出结果缓慢问题

2023-05-16

        nvidia-smi命令输出结果缓慢问题,可能的原因和解决办法:

1、当前已经打开了节能模式(需要关闭节能模式,切换到持久模式)。

如何关闭节能模式:

方法1:

sudo nvidia-persistenced --persistence-mode

方法2:

# 修改或创建配置文件
# persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务
$ sudo  vim /etc/rc.local

# 加入:

#!/bin/bash
sudo nvidia-smi -pm 1

# 使配置生效
$ source /etc/rc.local

Enabled persistence mode for GPU 00000000:02:00.0.
Enabled persistence mode for GPU 00000000:03:00.0.
Enabled persistence mode for GPU 00000000:82:00.0.
Enabled persistence mode for GPU 00000000:83:00.0.
All done.


2、显卡可能要坏了

故障的现象是:运行命令$ nvidia-smi之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示

定位:

1、查看显卡情况:$ nvidia-smi,可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢

        可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢?
2、通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系

        可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽?

3、通过$ sudo dmidecode -t slot 查看BUS-ID (BUS Address)和卡槽的对应关系:

         可以看到BUS-ID 02对应的卡槽为SLOT-2,SLOT标号一般在主板上,白色字体,在每个PCIE插槽(很长的那个插槽,插显卡的)的上方。
        还可以通过 $ sudo dmidecode -t slot | egrep -i "slot|add" 查看 (输出更简洁),输出类似于:

 

4、去机房,找到这台服务器上SLOT-2卡槽插的序列号(显卡上一般会贴有白色的序列号标签)尾号为4953的那张卡!拔下来维修

注意事项:实际中,BUS-ID可能会发生动态变化。比如你服务器插着4张卡的时候,有个BUS-ID 02的卡坏了,你把它拔了,再运行$ nvidia-smi,发现还会有BUS-ID 02的显卡出现在结果中。所以定位故障显卡,主要靠BUS-ID对应的显卡序列号和卡槽。这些信息相对固定。
————————————————
参考:

https://blog.csdn.net/qxqxqzzz/article/details/116970546
https://blog.csdn.net/qxqxqzzz/article/details/119031178

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

nvidia-smi命令输出结果缓慢问题 的相关文章

  • QT创建Qlabel控件后没有显示

    在主窗口创建qlabel控件后 xff0c 控件没有显示 问题原因 xff1a 没有指定控件的父对象 指定父对象后 xff0c 就能显示了
  • QT 制作图片旋转、反转

    参考链接 xff1a QGraphicsPixmapItem QPropertyAnimation QTransform 自定义图片控件旋转 缩放 图形视图框架 三 xff09 码农家园 codenong com 代码 xff1a 工程文件
  • QT资源文件(.qrc)的编写与应用

    qrc文件 xff0c 这个是Qt的资源文件 xff0c 如果在pro文件中不包含的话 xff0c 在编译的时候会提示找不到相应资源的错误 xff1b 下面说一下手动修改pro和编写qrc文件的方法 我们直接在命令行下执行qmake pro
  • linux 查看硬盘内存使用情况

    sudo rm rf home wukai local share Trash 清空回收站
  • 耗时统计、日志

    linux struct timeval t1 t2 double timeuse gettimeofday amp t1 NULL foo gettimeofday amp t2 NULL timeuse 61 t2 tv sec t1
  • Ubuntu磁盘分区

    磁盘格式化 xff1a 低级格式化 xff1a 空白磁盘划分柱面 分区以及磁道 高级格式化 xff1a 低级格式化后的逻辑上的结构化 即建立文件系统 磁盘设备命名 xff1a IDE设备由内部设备连接来区分 xff0c 最多连接4个设备 x
  • 流量变现的10种方式

    在互联网飞速发展的今天 xff0c 流量就等于金钱 xff0c 流量越大意味着赚的钱越多 流量如何变现呢 xff1f 以下10种方式可供参考 xff1a 打造个人品牌变现 xff1a 通过写文章或发布短视频 xff0c 提高自己的知名度 x
  • ubuntu 下 .7z 文件解压时,子文件夹内的内容被解压到根文件夹问题

    7z e log4cplus 2 0 8 7z o home wukai Documents log4cplus 参数使用 e 时 xff0c 会导致子文件夹内的内容被解压到根文件夹 xff0c 导致子文件夹没东西 xff0c 且覆盖了根文
  • configure: error: cannot find sources (src/logger.cxx) in . or ..

    配置的时候 xff0c 找不到文件 查看下src文件夹下是不是没有这个文件 xff0c 如果没有 xff0c 可能性有一下两个 1 解压的时候出错 xff0c 导致此文件被解压到其他文件夹 xff1b xff08 参考https mp cs
  • windows下python下载及安装

    下载python安装包 进入python官网 xff1a https www python org 鼠标移动到 Downloads gt 34 Windows 34 上 xff0c 可以看到最新版本是3 11 3版本 点击 Windows
  • 修改环境变量

    点击 windows 按钮 xff0c 输入 环境 xff0c 点击右侧的 编辑系统环境变量 点击 环境变量 按钮 按如下顺序将python添加到环境变量中 然后再把所有弹框的确定按钮都点下
  • windows下创建python文件

    1 打开python IDLE 按下 windows 按钮 xff0c 输入python xff0c 单击 IDLE Python 3 9 64 bit 点击File gt New File 新文件未命令 xff0c 内容空 随意编辑代码
  • python代码注释

    在python中 xff0c 存在三种类型的注释 xff1a 单行注释 多行注释和中文声明注释 1 单行注释 xff08 在需要注释的内容前面加 xff09 注释内容 2 多行注释 xff08 将要注释的内容包含在 或者 内 xff09 3
  • python3.9.13 IDLE设置缩进值

    Options gt 34 Configure IDLE 34 gt 34 Windows 34 Indent spaces 即是缩进值
  • unindent does not match any outer indentation level

    python运行时 xff0c 报错 unindent does not match any outer indentation level 有某行的缩进和其他行不匹配
  • python分行

    方式一 xff1a print 34 123 34 34 456 34 方式二 xff1a print 34 wer asd 34 输出 123456 werasd
  • python命名规范

    1 模块名 xff1a 尽量短小 xff0c 全部小写 xff0c 可以使用下划线分隔多个字母 如 xff1a func 1 func 2 2 类名 xff1a 采用单词首字母大写的方式 如 xff1a Student Teacher 3
  • YOLOv5之autoanchor看这一篇就够了

    简单粗暴 xff0c 废话也不罗嗦了 xff0c 学习目的就是解决下面三个问题 xff0c 1 默认anchor t设置为4 xff0c 这个参数如何调整 xff1f 有没有必要调整 xff1f xff08 首先网上很多说这个参数是长宽比是
  • 反转一个长字符串中的子字符串

    第一次练习写博客 xff0c 记录下自己感觉满意的成果吧 include lt stdio h gt include lt string h gt bool findPosition char sur char dst int amp st
  • c中全局变量,全局结构体使用

    1 在A 中定义的函数 xff0c 如何在 B 中调用 xff1f 如果有头文件 xff0c 在头文件中声明 xff0c 在B 文件中 include 头文件就可以了 如果是在 c 文件中声明的 xff0c 在 B 中加 extent 声明

随机推荐

  • Vue3展示Markdown内容

    起因 想要搭建一个个人网站 xff0c 然后在网站上展示个人信息以及平时学习或者使用框架的一些内容 所以需要一个能够将markdown内容转化到页面上展示 xff08 就类似于github或者各大博客网站 xff09 个人网站是vue3 x
  • debian linux 添加永久环境变量

    写在前面的话 搜索linux添加环境变量 xff0c 网上已经有很多的教程 xff0c 本来就几个命令还是把我搞的好惨 xff0c 几个坑大牛们不指出来 xff0c 我这小白就卡在里面了 xff0c 写下血泪史供参考 关于环境变量 expo
  • CLion、IDEA、Pycharm等用WSL访问不了环境变量的解决方案——更新于2021.12

    目录 相关文献PowerShell解决方案 博主全网搜索过很多教程 xff0c 各种碰壁不成功 xff0c 最终使用了PowerShell成功的 本文将介绍PowerShell的成功方法和几个替代方案 博主使用WSL是Ubuntu 20 0
  • Linux下安装xrdp实现远程桌面

    使用rdp协议访问远程Linux桌面 一般情况下 xff0c 如果需要登陆远程Linux系统 xff0c 我们会使用ssh telnet来完成 xff0c 如果需要登陆到远程Linux系统的桌面环境 xff0c 我们可能会使用VNC VNC
  • 树莓派——xrdp win10远程登录以及蓝屏问题

    1 安装xrdp 使用Putty命令行输入以下命令 sudo apt get install xrdp sudo apt get install tightvncserver xrdp 安装完成后 xff0c 重启xrdp服务器 sudo
  • 使用lnmp安装Nextcloud出现404问题解决方法

    最新消息 特大消息特大消息 xff0c 由于答主解决不了后续出现的WEBDAV接口错误问题 xff0c 因此更改了安装方式 61 61 61 61 61 DOCKER xff01 装完之后感慨一下 xff0c docker大法真好 参考教程
  • 笔记:1. Centos 安装 mpicc

    心情 xff1a 历时一年 xff0c 考上了研究生 xff0c 从此踏上第一性原理计算的道路 是有点小开心 xff0c 因为以后可以做自己喜欢的事情 xff0c 剩下的就是怎么通过做自己喜欢的事挣点钱 xff0c 养活自己 正文 目的 x
  • 【Java】对两个Set取交集,差集,并集

    1 取交集 xff08 取两个集合中都存在的元素 xff09 HashSet lt String gt setA 61 new HashSet lt gt HashSet lt String gt setB 61 new HashSet l
  • nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

    由于断电 xff0c 服务器重启了 xff0c 当再次跑实验时 xff0c 发现cuda不可用 xff0c 于是输入 nvidia smi 才发现了一个错误 xff0c 如下 xff1a NVIDIA SMI has failed beca
  • 【Linux】Debian的下载、安装、图形化界面,多图杀猫

    Linux的版本众多 xff0c 同时相对于非专业用户少见 不像Windows系统那样大众 xff0c 稍微有些知识都知道 xff0c 配置低一点的机器就选择Windows XP Professional SP3 xff0c 搞Asp的用W
  • 【iOS】表视图

    iOS的表视图并不简单 xff0c 它是需要修改 h中加两个委托进去 xff0c 同时在 m文件实现一系列固定的函数 xff0c 才能完成表视图的创建 一切犹如当初点击空白处关闭键盘需要一段代码才能实现一样 xff0c 表视图的创建也不像安
  • win10+anconda+tensorflow安装

    最近由于需要用到深度学习 xff0c 经过一番调研发现tensorflow依旧是工业界模型实现的主流框架 xff0c 于是自己尝试安装tensorflow 原以为直接采用pip就可以直接搞定 xff0c 只能怪自己太天真 xff0c 刚开始
  • Ubuntu 19.04编译Android源码缺少libtinfo.so.5问题

    Ubuntu 19 04 Manjro编译Android Pie源码缺少libtinfo so 5问题 背景 使用ubuntu19 04编译Android源码的时候 xff0c 报缺少libtinfo so 5 解决方法 通过find命令查
  • shell编程的控制结构及其if语句

    控制结构 shell具有般高级程序设计语言所具有的控制结构和其他复杂功能 xff0c 如if语句 case语句 循环结构 函数等 其实在shell 中 xff0c 这些控制结构也被称为命令为了符合程序设计的习惯 xff0c 才把它们称为语句
  • 快速给图片加水印的方法

    快速给图片加水印的方法 xff01 图片添加水印后可以杜绝图不被别人随意使用 xff0c 能保护自己的知识产权不被侵犯 xff0c 所以我们在工作中经常先给图片添加水印 xff0c 然后再将图片对外发布 xff0c 这是一个比较常见的事情
  • OpenCvSharp 棋盘格标定助手

    使用的是VS调用OpenCvSharp资源库进行一个Winform操作界面编写 xff0c 网上找了很多开源的程序 xff0c 发现根本用不了的 xff0c 用的时候还需要你配置各种电脑系统变量 xff0c 显得好麻烦 现在弄了个简单的标定
  • 最长回文子串(Manacher算法)

    又是刷OJ的一天 上题 题目描述 xff1a JiangYu有一个长度为n的仅包含小写字母的字符串 他想找出其中最长的回文子串 输入 xff1a 一个字符串s xff0c s 1e6 输出 xff1a 一个整数 xff0c 最长回文子串长度
  • ubuntu下安装memcached时解决缺少sasl.h的问题,同时说明下ubuntu的包搜索

    只需要用 xff1a sudo apt get install libsasl2 dev 即可 xff0c 这和centos有一些区别 xff0c 貌似并不是它 xff1a cyrus sasl dev 在安装某个软件的时候 xff0c 我
  • Ubuntu在安装NVIDIA驱动后黑屏无法启动进入图形桌面

    问题描述 安装完nvidia驱动 xff0c 重启后后会卡在一个左上角只有一个横杠的黑屏界面 xff0c 无法进入GNOME的图形化界面 问题分析 反复回忆当时的安装过程 xff0c 想起来在tty下完整运行时它问过我这么一个问题 xff1
  • nvidia-smi命令输出结果缓慢问题

    nvidia smi命令输出结果缓慢问题 xff0c 可能的原因和解决办法 xff1a 1 当前已经打开了节能模式 xff08 需要关闭节能模式 xff0c 切换到持久模式 xff09 如何关闭节能模式 xff1a 方法1 xff1a su