重新启动 AMI 后,NVidia 驱动程序未在 AWS 上运行

2023-12-24

大家好,我有以下问题:

我用这个启动了一个 P2 实例AMI https://aws.amazon.com/marketplace/pp/B00FYCDDTE。我安装了一些工具,如 screen、torch 等。然后我成功地使用 GPU 运行了一些实验,并创建了实例的映像,以便我可以终止它并稍后再次运行它。

后来我从之前创建的 AMI 启动了一个新实例。一切看起来都很好 - 屏幕、手电筒,我的实验都出现在系统上,但我无法像以前一样运行相同的实验:

NVIDIA-SMI 失败,因为无法与 NVIDIA 通信 司机。确保安装了最新的 NVIDIA 驱动程序并且 跑步。

对我来说,驱动程序似乎已安装(因为所有其他工具都是以前安装的),但它们没有运行。这是一个正确的假设吗?我怎样才能启动它们?


我们最近遇到了这个问题。在我们的例子中,AWS实例上的默认内核似乎已升级(从4.4.0-1049-aws到4.4.0-1061-aws),但新内核没有安装nvidia模块:

ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1061-aws | grep -i nvidia
ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1049-aws | grep -i nvidia
-rw-r--r--  1 root root    87368 Jun 27 10:21 nvidia-drm.ko
-rw-r--r--  1 root root  1155304 Jun 27 10:21 nvidia-modeset.ko
-rw-r--r--  1 root root  1163016 Jun 27 10:21 nvidia-uvm.ko
-rw-r--r--  1 root root 18014088 Jun 27 10:21 nvidia.ko

检查您的内核版本(uname -a),看看您是否属于这种情况。 GRUB 配置允许引导旧内核映像 (1049),但默认情况下它会加载新内核映像 (1061)。 /boot/grub/cfg 的相关部分:

ubuntu@ip-XXX-XXX-XXX-XXX:~$ grep -i -e "ubuntu, with linux" /boot/grub/grub.cfg
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-recovery-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-recovery-XXXX' {

您可以使用 grub-reboot 强制在下次重新启动时加载旧内核:

sudo /usr/sbin/grub-reboot "Advanced options for Ubuntu>Ubuntu, with Linux 4.4.0-1049-aws"
sudo reboot

这将使用旧内核启动实例,您有 nvidia 模块。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

重新启动 AMI 后,NVidia 驱动程序未在 AWS 上运行 的相关文章

随机推荐

  • 通过 GUID 保护 AJAX 请求

    我正在编写一个网络应用程序 它将通过 AJAX 发出请求 并希望锁定这些调用 经过一番研究后 我正在考虑使用某种形式的随机令牌 字符串 与请求 GUID 一起传回 这是我的算法的重要部分 将令牌分配给 JavaScript 变量 在服务器端
  • angerlySetInnerHTML 内的 React 组件

    在我的应用程序中 我需要获取 HTML 字符串 从服务器或从用户输入 也许是从 markdown 处理的东西 无论如何 看来我真的需要使用setDangerousHtml 但我还需要该部分内的一些反应组件 例如 我会将一些链接转换为Link
  • 从流中播放 MP3

    有没有办法使用 VB NET 或 C 直接从内存流 没有任何临时文件 播放 MP3 或者从 SQLITe 数据库播放 Thanks 我建议你尝试一下Mp3Sharp http www robburke net mle mp3sharp 它是
  • 如何使 Xvfb 显示可见?

    我通过 Xvfb 在显示编号 99 上运行 selenium 如下所示 usr bin Xvfb 99 ac screen 0 1024x768x8 导出 DISPLAY 99 java jar usr lib selenium selen
  • LoginButton 请求好友列表权限,为什么?

    我正在使用 facebook sdk 中内置的 LoginButton 小部件 我没有对其进行任何更改 我只是将其包含在我的 xml 布局文件中并调用setSessionStatusCallback没有其他的 然而 当我点击登录按钮时 Fa
  • XP 上的 IE 不支持 SNI 允许单个服务器使用多个证书

    我一直在寻找几个小时来找到我的问题的解决方案 虽然我相信我已经能够澄清我遇到问题的原因 但我一直无法找到解决方案 我有一台服务器托管多个网站 其中几个网站正在使用 SSL 证书 我有一些由所有站点访问的共享图像 阻止 SSL 站点上的非安全
  • 如何使用高斯分布对列表进行洗牌

    我想模拟消息上的错误 例如 1000010011 gt 1010000011 有没有办法在Python中实现这个 我尝试了以下方法 有效 import random a 1011101101 b el for el in a b 1 0 1
  • 使用 CSS 以完全流畅的布局使一个 div 显示在另一个 div 下

    我已经更新了我的代码并制作了一个小提琴来解释我正在尝试做的事情 我之前也有过类似的问题 但并没有体现出模板的流动性 我有一个完全流畅的布局我需要让一个div显示在另一个div下面 我想用 CSS 来实现 但我不想使用 javascript
  • Windows 2008 Server r2 上的 mysqltuner.pl

    我通常使用 linux 作为 mysql 并且有一个叫做 mysqltuner pl 的东西 这很棒 但是我们在 Windows 2008 r2 服务器上有一个 mysql 服务器 我想知道你们中是否有人知道我可以使用的类似于 mysqlt
  • 使用 React Router 将类 active 添加到其他父 html 标签

    我已经被困了几个小时来弄清楚如何在提供的 Reactrouter 标签的父 html 标签上添加 classActive 这是代码 使用React Router 版本 3 2 6 li div span Track Page span di
  • 即使使用调用方法也出现“跨线程操作无效”

    我在这里得到 跨线程操作无效 if vlc State VlcPlayerControlState PLAYING if vlc InvokeRequired vlc Invoke new MediaPlayerNoParameterDel
  • 自定义授权属性

    我正在构建自己的会员系统 我不想与 MS 会员提供商有任何关系 我浏览过互联网和 StackOverflow 但我所能找到的只是建立在 MS 会员资格提供商之上的会员资格提供商 不管怎样 我现在几乎已经把所有东西都连接好了 但我想使用一个利
  • 如何将图像从 expo-image-picker 保存到 expo-file-system 然后渲染?

    我试图将选定的图像存储在应用程序中 而不是存储在图像卷中 这是我尝试过的 await FileSystem downloadAsync imageUri the image uri from expo image picker FileSy
  • 角度范围和 ng-click / ng-show 设置多个 div

    我正在为迄今为止的代码寻求一些帮助 主要目标是能够单击任何加号图标并将其覆盖在所有其他 div 块上 当单击加号图标时 它还会在右侧显示一个 div 块 正如您将在阻止时看到的2单击它会完成所有预期的操作 我正在寻找一种有效的方法来做到这一
  • 为什么选择范围变量后会发生变化? [复制]

    这个问题在这里已经有答案了 最初选择的单元格存储在rngStart最后重新选择 这样用户就不会被宏带走 但是 存储在的范围rngStart变化 看来是单独的 它最终成为粘贴操作发生的范围 Sub Macro2 Application Scr
  • repo 覆盖 element 项目的远程 URL,无需更改

    是否有任何回购同步选项可以覆盖远程网址按指定项目例如 我有本地内核 git 存储库和一些修补程序 驱动程序移植等所以我想运行这样的假命令而不进行修改 repo manifest xml 仓库同步 project remote url git
  • 检测是否支持 HTML5 历史记录

    如何检查您使用的浏览器是否支持 HTML5 历史记录 api 正如你在这里看到的http caniuse com search history http caniuse com search history只有 chrome ff4 和其他
  • 如何将 Ninject 与 ActionResults 结合使用,同时使控制器与 IoC 框架无关?

    我见过的几乎所有 Ninject 示例都解释了如何将其与 ASP NET MVC 一起使用 它将自动将依赖项注入到控制器中 我该如何手动使用 Ninject 呢 假设我有一个自定义 ActionResult public class Jso
  • HTML 表格呈现为 PDF。 PDF 内容而非表格格式

    在这里 我尝试使用一个 HTML 页表内容制作 PDF 对我来说 它在创建 PDF 和下载方面工作正常 但问题是我没有获得我在 HTML 页面中使用的正确表格格式 它在网页中的外观就像我在 PDF 中需要的那样 下面给出我的代码和表结构 我
  • 重新启动 AMI 后,NVidia 驱动程序未在 AWS 上运行

    大家好 我有以下问题 我用这个启动了一个 P2 实例AMI https aws amazon com marketplace pp B00FYCDDTE 我安装了一些工具 如 screen torch 等 然后我成功地使用 GPU 运行了一