NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

2023-05-16

报错

实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。
然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉

刚刚开机一切都很正常
但是没过几分钟显卡就会突然用不了了:

nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

然后查看是不是有显卡

lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)

很奇怪啊,显卡是在的,但是rev ff就是显卡关闭了。
重启多次过后一直都是这样。

可能的原因

在网上疯狂找,觉得可能存在以下问题

  • 电源问题
  • 也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia-smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。
  • 驱动问题
  • GPU过热,风扇,机箱散热问题
  • 还有一个,如链接。但是我看不懂是怎么回事。

我的问题

我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。
最后换了一根电源线就解决问题了。

如何排查问题的

电源问题

这个太麻烦,而且一般不好解决也不好发现,所以先不管

非持久模式导致的频繁初始化

这个方案执行最简单,所以第一个试一下。
然后,使用了sudo nvidia-smi -pm 1没有用,写到/etc/rc.local里面,也没有用。

驱动问题

退diver版本,更新版本,都没有用
更新cuda也没有用。
个人感觉这个报错一般不会是驱动的问题

GPU过热,风扇,机箱散热问题

开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。

最后解决

最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。
然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。
然后随便换了个根电源线,现在一两天了,都没有出问题。。。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error 的相关文章

  • CUDA 流销毁和 CudaDeviceReset

    我已经使用 CUDA 流实现了以下类 class CudaStreams private int nStreams cudaStream t streams cudaStream t active stream public default
  • 为什么应该使用 CUDA 驱动程序 API 而不是 CUDA 运行时 API?

    为什么我应该使用 CUDA Driver API 在哪些情况下我不能使用 CUDA Runtime API 这比 Driver API 更方便 运行时 API 是比驱动程序 API 更高级别的抽象 并且通常更易于使用 性能差距应该很小 驱动
  • 如何让TensorFlow 100%使用GPU?

    我有一台配备 RTX 2060 GPU 的笔记本电脑 我使用 Keras 和 TF 2 在其上训练 LSTM 我还通过以下方式监控 GPU 使用情况nvidia smi我注意到 jupyter 笔记本和 TF 的使用率最多为 35 而 GP
  • 让同事高血压的8个Bug操作集锦

    来源 juejin cn post 7222676935147651132 前言 案例一 案例二 案例三 案例四 案例五 案例六 案例七 案例八 前言 本文的选题来源于一周前我的一次崩溃 当时各种压
  • Cuda 内核返回向量

    我有一个单词列表 我的目标是匹配一个非常非常长的短语中的每个单词 我在匹配每个单词时没有问题 我唯一的问题是返回包含每个匹配信息的结构向量 In code typedef struct int A B C Match global void
  • Cuda char* 变量赋值

    这是本文所选答案的后续问题 cuda程序的输出不是预期的 https stackoverflow com questions 6561005 output of cuda program is not what was expected 6
  • glReadPixels() 会消耗单个核心的所有CPU周期

    我有一个带有 OpenGL 窗口的 SDL2 应用程序 它表现良好 当它运行时 该应用程序与我的 60Hz 显示器同步 并且我看到该应用程序的 CPU 使用率为 12 到目前为止 一切都很好 但是 当我通过从深度缓冲区 绘制后 读取单个 深
  • 在 Python 中访问 GPU 硬件规格?

    我想使用 Numba 或类似的 Python CUDA 包访问各种 NVidia GPU 规范 可用设备内存 二级缓存大小 内存时钟频率等信息 来自阅读这个问题 https stackoverflow com questions 48654
  • 网页bug怎么都测不出来?赶紧进来看看吧

    2024软件测试面试刷题 这个小程序 永久刷题 靠它快速找到工作了 刷题APP的天花板 CSDN博客 文章浏览阅读2 2k次 点赞85次 收藏11次 你知不知道有这么一个软件测试面试的刷题小程序 里面包含了面试常问的软件测试基础题 web自
  • 微信私密朋友圈被吐槽有BUG

    日前 大量网友在各社交媒体上讨论微信私密朋友圈出现 Bug 的话题 起因是跨年期间一个网友发布了一条 私密朋友圈 但不一会就收到朋友发来的信息 又偷偷发朋友圈了 估计此时网友可能已经 寒毛四起 汗流浃背了 经过和好友沟通得知 好友在刷朋友圈
  • CUDA和cuDNN在Windows上的安装问题

    我正在检查系统上的 CUDA 和 cuDNN 安装 并有几个观察结果 CUDA有两个版本 9 0和11 2 只在CUDA 9 0的安装目录下找到cuDNN CUDA 9 0目录下有cudafe exe 而CUDA 11 2目录下没有 按照目
  • 使用 CUDA 和 cudaMallocPitch 的 2D 数组

    我一直在 stackoverflow 上阅读一些关于 2D 数组和 cudaMallocPitch 的线程 并且尝试将 cudaMallocPitch 与我找到的小文档一起使用 但是我现在面临一个问题 我需要遍历一个数组并执行类似的操作 f
  • #pragma unroll 到底有什么作用?对线程数有影响吗?

    我是 CUDA 新手 我无法理解循环展开 我写了一段代码来理解该技术 global void kernel float b int size int tid blockDim x blockIdx x threadIdx x pragma
  • CUDA 标量和 SIMD 视频指令的效率

    SIMD指令的吞吐量低于32位整数运算 如果是 SM2 0 仅标量指令版本 则低 2 倍 如果是 SM3 0 则低 6 倍 什么情况下适合使用它们 如果您的数据已经以 SIMD 视频指令本机处理的格式打包 则需要多个步骤对其进行解包 以便可
  • 如何消除 opencl 代码中的 CL_INVALID_PLATFORM 错误?

    使用 OpenCL 进行简单的矩阵乘法 Multiply two matrices A B C include
  • 在 python docker 镜像上使用 GPU

    我正在使用一个python 3 7 4 slim busterdocker 镜像 我无法更改它 我想知道如何使用我的英伟达 GPU on it 我通常用一个tensorflow tensorflow 1 14 0 gpu py3并用一个简单
  • Nvidia Theano docker 镜像不可用

    尝试运行 docker 命令 nvidia docker run d p 8888 8888 e PASSWORD 123abcChangeThis theano secure start notebook sh Then open you
  • 使 CUDA 内存不足

    我正在尝试训练网络 但我明白了 我将批量大小设置为 300 并收到此错误 但即使我将其减少到 100 我仍然收到此错误 更令人沮丧的是 在 1200 个图像上运行 10 epoch 大约需要 40 分钟 有什么建议吗 错了 我怎样才能加快这
  • NvCplGetThermalSettings 返回 false

    问题 您好 我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度 我看过C 问题 他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案 因为 nivida 有完整的文档说明如何处理 API 见下
  • Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

    我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets

随机推荐