nvidia-smi命令输出结果缓慢问题

2023-05-16

nvidia-smi命令输出结果缓慢问题，可能的原因和解决办法：

1、当前已经打开了节能模式（需要关闭节能模式，切换到持久模式）。

如何关闭节能模式：

方法1：

sudo nvidia-persistenced --persistence-mode

方法2：

# 修改或创建配置文件
# persistence mode 能够让 GPU 更快响应任务，待机功耗增加。关闭 persistence mode 同样能够启动任务
$ sudo vim /etc/rc.local

# 加入：

#!/bin/bash
sudo nvidia-smi -pm 1

# 使配置生效
$ source /etc/rc.local

Enabled persistence mode for GPU 00000000:02:00.0.
Enabled persistence mode for GPU 00000000:03:00.0.
Enabled persistence mode for GPU 00000000:82:00.0.
Enabled persistence mode for GPU 00000000:83:00.0.
All done.

2、显卡可能要坏了

故障的现象是：运行命令$ nvidia-smi之后要么不显示显卡的情况，要么显示很缓慢。并且结果中有ERR! 提示

定位：

1、查看显卡情况：$ nvidia-smi，可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上，这个命令的输出都会非常缓慢

可以看到，循坏的显卡BUS-ID是02；如何找到这张显卡呢？
2、通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系

可以看到，损坏的显卡（BUS-ID 02）的序列号（Serial Number）尾号为4953。那这张显卡插在哪个PCIE卡槽？

3、通过$ sudo dmidecode -t slot 查看BUS-ID （BUS Address）和卡槽的对应关系：

可以看到BUS-ID 02对应的卡槽为SLOT-2，SLOT标号一般在主板上，白色字体，在每个PCIE插槽（很长的那个插槽，插显卡的）的上方。
还可以通过 $ sudo dmidecode -t slot | egrep -i "slot|add" 查看（输出更简洁），输出类似于：

4、去机房，找到这台服务器上SLOT-2卡槽插的序列号（显卡上一般会贴有白色的序列号标签）尾号为4953的那张卡！拔下来维修

注意事项：实际中，BUS-ID可能会发生动态变化。比如你服务器插着4张卡的时候，有个BUS-ID 02的卡坏了，你把它拔了，再运行$ nvidia-smi，发现还会有BUS-ID 02的显卡出现在结果中。所以定位故障显卡，主要靠BUS-ID对应的显卡序列号和卡槽。这些信息相对固定。
————————————————
参考：

https://blog.csdn.net/qxqxqzzz/article/details/116970546
https://blog.csdn.net/qxqxqzzz/article/details/119031178

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nvidia-smi命令输出结果缓慢问题的相关文章

【译】Python3.8官方Logging文档（完整版）

注 xff1a 文章很长 xff0c 约一万字左右 xff0c 可以先收藏慢慢看哟 01 基础部分日志是用来的记录程序运行事件的工具当程序员可以通过添加日志打印的代码来记录程序运行过程中发生的某些事件时这些事件包含了诸如变量数据在内的
OpenCV Scalar value for argument ‘color‘ is not numeric错误处理

import cv2 cur color 61 np array 128 0 128 astype np uint8 cv2 polylines cvImage ndata isClosed 61 True color 61 cur col
COCO格式数据集可视化为框

使用pycocotools读取和opencv绘制 xff0c 实现COCO格式数据边框显示的可视化 xff0c 可视化前后的示例为 xff1a 代码 xff1a coding utf 8 import os import sys getop
微波遥感（三、SAR图像特征）

SAR 是主动式侧视雷达系统 xff0c 且成像几何属于斜距投影类型因此 SAR 图像与光学图像在成像机理几何特征辐射特征等方面都有较大的区别在进行 SAR 图像处理和应用前 xff0c 需要了解 SAR 图像的基本特征本文主要
基于Slicing Aided Hyper Inference (SAHI)做小目标检测

遥感等领域数据大图像检测时 xff0c 直接对大图检测会严重影响精度 xff0c 而通用工具多不能友好支持大图分块检测 Slicing Aided Hyper Inference SAHI 是一个用于辅助大图切片检测预测的包目前可以良好的
YOLOv5训练参数简介

YOLOv5参数解析 xff0c 这次主要解析源码中train py文件中包含的参数 1 1 39 weights 39 1 2 39 cfg 39 1 3 39 data 39 1 4 39 hyp 39 1 5 39 epochs 39
亚米级土耳其地震影像数据下载

下载地址1 xff0c 提供震前震后影像部分震后影像的百度网盘存档 xff1a https pan baidu com s 1 rLV7cR F3casKRwQH7JTw 提取码 xff1a dou3 灾前灾后影像下载地址2 xff1
nms_rotated编译出错fatal error: THC/THC.h: No such file or directory

问题描述 xff1a 使用 python setup py develop or 34 pip install v e 34 编译nms rotated时出错 xff1a fatal error THC THC h No such file
解决 AttributeError: module ‘numpy‘ has no attribute ‘int‘

原因 xff1a numpy int在NumPy 1 20中已弃用 xff0c 在NumPy 1 24中已删除解决方式 xff1a 将numpy int更改为numpy int xff0c int 方法 xff1a 点击出现错误代码链接会
机载高分辨率SAR数据（~0.1米）

美国桑迪亚 xff08 sandia xff09 国家实验室提供一系列机载SAR数据 xff0c 包括MiniSAR FARAR等数据分辨率4英寸 xff0c 约0 1米原始数据下载地址 xff0c 数据是复数据 xff0c 以不同格式
ubuntu18.04 及以上版本命令模式和GUI切换

网上大多数说的CTRL 43 ALT 43 F1 6进入命令模式 xff0c CTRL 43 ALT 43 F7进入GUI模式 xff0c 在ubuntu18 04 及以上无效正确的方式是 xff1a 进入命令模式可以通过CTRL 43
Python内置库——http.client源码刨析

看过了http client的文档 xff0c 趁热打铁 xff0c 今天继续研究一下http client的源码 xff08 一 xff09 你会怎么实现开始之前先让我们回忆一下一个HTTP调用的完整流程 xff1a 看到这张图 xff
ssh连接ubuntu访问拒绝（access denied）

网上大多针对ssh连接ubuntu访问拒绝的解决办法是安装ssh或防火墙开启端口等等 xff0c 但这些都没问题之后还是访问拒绝 xff0c 则考虑ssh包可能安装的有问题 xff0c 可以尝试重装流程如下 xff1a 1 在ubuntu
【论文-目标检测】RTMDet: An Empirical Study of Designing Real-Time Object Detectors

论文代码官方原理与实现详解发展YOLO系列并方便支持实例分割和斜框检测等任务 xff0c 亮点 xff1a 设计兼容性backbone和neck xff0c 采用大核深度可分离卷积 xff1b 动态标签分配中采用软标签计算匹配损失 x
【OpenCV】图像金字塔 -- 下采样cv2.pyrDown() ，上采样cv2.pyrUp()

参考 xff1a cv2 pyrDown TheAILearner 1 cv2 pyrDown 函数cv2 pyrDown 用于实现高斯金字塔中的下采样函数原型 xff1a dst img 61 cv2 pyrDown src img d
理解depth-wise 卷积

EfficientNet利用depth wise卷积来减少FLOPs但是计算速度却并没有相应的变快反而拥有更多FLOPs的RegNet号称推理速度是EfficientNet的5倍非常好奇 xff0c 这里面发生了什么 xff0c 为什么
GIoU (Generalized Intersection over Union) 详解

论文 xff1a Generalized Intersection over Union A Metric and A Loss for Bounding Box Regression 官方解读 xff1a Generalized Inte
Gitee push错误 Access denied: You do not have permission to push to the protected branch ‘master‘ via

错误 xff1a 首次使用gitee向别人的repo提交代码 xff0c 发现出现权限问题无法push到master xff0c 提交命令如下 xff1a git push u origin master master 错误信息如下 xff
GDAL重采样与裁剪图像示例

GDAL重采样 xff0c 可以通过写文件时改变图像尺寸和geo transformes的分辨率信息实现核心代码示例如下 xff1a in ds 61 gdal Open fi gdal GA ReadOnly geotrans 61 i
pycharm专业版连接远程docker容器

一配置远程docker容器 1 启动带有端口的docker容器 6006端口是用来运行tensorboard的 xff0c 这里重要的是22端口如果希望通过ssh远程连接docker xff0c 需要对容器的22端口做端口映射 dock

随机推荐

VScode 远程开发配置

一配置免密远程登录因为是要远程登录 xff0c 那么需要通过使用ssh进行密钥对登录 xff0c 这样每次登录服务器就可以不用输入密码了先来一句官方介绍 xff1a ssh 公钥认证是一种方便高安全性的身份验证方法 xff0c 它将
np.meshgrid()与torch.meshgrid()的区别

比如要生成一张图像 h 61 6 w 61 10 的xy坐标点 xff0c 看下两者的实现方式 xff1a 两种方式的差异在于 xff1a xs ys 61 np meshgrid np arange w np arange h xs ys
JSON是什么

提起 JSON xff0c 作为如今最受欢迎的数据交换格式 xff0c 可以说是无人不知无人不晓了 JSON 全称 JavaScript Object Notation xff08 JS 对象简谱 xff09 xff0c 自诞生之初的小目
【C++】数组定义引发Stack overflow错误（运行时是报段错误）

C 43 43 xff08 实际是C的语法 xff09 定义数组时出错 xff0c 代码如下 xff1a float t1 9830400 调试时触发Stack overflow错误 xff08 可执行文件运行时 xff0c 是报段错误 x
【C/C++】数组初始化

数组定义不初始化会被随机赋值因此如果数组的所有元素在下面没有逐一赋值 xff0c 但是又会使用到的话 xff0c 最后不要只定义而不初始化会带来问题数组初始化的几种形式可以直接用 xff1a a 10 61 xff0c 就可以让a
【C++】指针数组与数组指针

指针数组指针数组可以说成是指针的数组 xff0c 首先这个变量是一个数组 xff0c 其次 xff0c 指针修饰这个数组 xff0c 意思是说这个数组的所有元素都是指针类型 xff0c 在32位系统中 xff0c 指针占四个字节定义
【旋转框目标检测】2201_The KFIoU Loss For Rotated Object Detection

paper with code paper code Jittor Code https github com Jittor JDet PyTorch Code https github com open mmlab mmrotate Te
CUDA编译报错unsupported GNU version! gcc versions later than 10 are not supported!

问题 xff1a python编译用于cuda的so文件中 xff0c 使用编译 cu文件出错 xff1a error unsupported GNU version gcc versions later than 10 are not s
RuntimeError: CUDA error: no kernel image is available for execution on the device

问题 xff1a 代码换机器执行时 xff0c 使用包含自行编译的cuda算子库so时出错 xff1a RuntimeError CUDA error no kernel image is available for execution o
Ubuntu非LTS版本安装nvidia-docker出错：Unsupported distribution!

问题 xff1a 按照Nvidia官方流程 xff0c 在Ubuntu22 10安装nvidia docker在执行以下命令时 distribution 61 etc os release echo ID VERSION ID amp am
测试torch方法是否支持半精度

并不是所有的torch方法都支持半精度计算测试半精度计算需要在cuda上 xff0c cpu不支持半精度因此首先需要创建半精度变量 xff0c 并放到cuda设备上部分方法在低版本不支持 xff0c 在高版本支持半精度计算 xff0c
yolov5关闭wandb

yolov5训练过程中wandb总是提示登入账号 xff0c 不登入还不能继续训练 xff0c 想要关闭wandb xff0c 直接不使用即可在 yolov5 utils loggers wandb wandb utils py中 imp
目标检测 YOLOv5的loss权重，以及与图像大小的关系

1 目标检测 YOLOv5的loss权重 YOLOv5中有三个损失分别是 box obj cls 在超参数配置文件hyp yaml中可以设置基础值 xff0c 例如 box 0 05 cls 0 5 obj 1 训练使用时 xff0c 在t
手写一个JSON反序列化程序

上一篇文章 JSON是什么给大家介绍了JSON的标准规范 xff0c 今天就自己动手写一个JSON的反序列化程序 xff0c 并命名它为 zjson 0 开始之前本篇文章的目的是学习实践 xff0c 所以我们选择相对简单的Python实
yolov5源码解析--输出

本文章基于yolov5 6 2版本主要讲解的是yolov5是怎么在最终的特征图上得出物体边框置信度物体分类的一总体框架首先贴出总体框架 xff0c 直接就拿官方文档的图了 xff0c 本文就是接着右侧的那三层输出开始讨论 Bac
yolov5源码解析--损失计算与anchor

本文章基于yolov5 6 2版本主要讲解的是yolov5在训练过程中是怎么由推理结果和标签来进行损失计算的损失函数往往可以作为调优的一个切入点 xff0c 所以我们首先要了解它一代码入口损失函数的调用点如下 xff0c 在tra
多任务学习中各loss权重应该如何设计呢？

来源 xff1a 22 封私信 80 条消息多任务学习中各loss权重应该如何设计呢 xff1f 知乎 zhihu com 多损失在深度学习中很常见 xff0c 例如 xff1a 目标检测 xff1a 以 YOLO 为例 xff0c 它的
YOLOv5之autoanchor看这一篇就够了

简单粗暴 xff0c 废话也不罗嗦了 xff0c 学习目的就是解决下面三个问题 xff0c 1 默认anchor t设置为4 xff0c 这个参数如何调整 xff1f 有没有必要调整 xff1f xff08 首先网上很多说这个参数是长宽比是
nvidia-smi报错：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

由于断电 xff0c 服务器重启了 xff0c 当再次跑实验时 xff0c 发现cuda不可用 xff0c 于是输入 nvidia smi 才发现了一个错误 xff0c 如下 xff1a NVIDIA SMI has failed beca
nvidia-smi命令输出结果缓慢问题

nvidia smi命令输出结果缓慢问题 xff0c 可能的原因和解决办法 xff1a 1 当前已经打开了节能模式 xff08 需要关闭节能模式 xff0c 切换到持久模式 xff09 如何关闭节能模式 xff1a 方法1 xff1a su

热门标签