如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？

2023-12-27

我有一些使用张量流训练神经网络的 python 代码。

我已经基于运行 python 脚本的 tensorflow/tensorflow:latest-gpu-py3 图像创建了一个 docker 图像。当我启动 EC2 p2.xlarge 实例时，我可以使用以下命令运行我的 docker 容器

docker run --runtime=nvidia cnn-userpattern train

包含我的代码的容器运行时没有错误并使用主机 GPU。

问题是，当我尝试在 AWS Sagemaker 训练作业中使用实例 ml.p2.xlarge 运行相同的容器（我也尝试使用 ml.p3.2xlarge）时，算法失败并显示错误代码：

导入错误：libcuda.so.1：无法打开共享对象文件：没有这样的文件或目录

现在我知道该错误代码的含义了。说明docker主机的运行环境没有设置为“nvidia”。 AWS文档说用于运行docker镜像的命令始终是

docker run image train

如果 docker/daemon.json 中的默认运行时设置为“nvidia”，则该方法可以工作。有没有办法编辑主机 daemon.json 或告诉 Dockerfile 中的 docker 使用“--runtime=nvidia”？

在 AWS 支持服务的帮助下，我们找到了问题。正如我所说，我用来运行代码的 docker 镜像是tensorflow/tensorflow:latest-gpu-py3（可在https://github.com/aws/sagemaker-tensorflow-container https://github.com/aws/sagemaker-tensorflow-container)

“最新”标签此时指的是版本 1.12.0。问题不是我自己的，而是这个版本的 docker 镜像的问题。

如果我将 docker 镜像基于tensorflow/tensorflow:1.10.1-gpu-py3，它会按预期运行并完全使用 GPU。

显然，AWS sagemaker的所有GPU实例上的docker/daemon.json中的默认运行时设置为“nvidia”。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？的相关文章

连接到在 Docker 中运行的 HBase

我无法连接到 Windows 上 Docker 中运行的 HBase banno hbase 独立 https registry hub docker com u banno hbase standalone 图像但是我可以连接到本地安
迭代 dynamodb 表时出现 ProvisionedThroughputExceededException 错误

我正在尝试将 DynamoDB 表备份到 S3 因为出于某种原因通过 AWS 控制台上的 Export 进行此操作不起作用 https stackoverflow com questions 28906981 automatic aws d
使用 Docker-Compose 运行 Google Firestore 模拟器

我正在尝试运行我的 Node 项目以及 Firestore 模拟器docker compose在本地开发环境中我的 Node 项目有一个 Dockerfile 如下所示 WORKDIR app ADD package json RUN n
requestParameters 返回“指定的映射表达式无效：true”

我正在配置 lambda 函数的 API 网关与无服务器框架 https github com serverless serverless版本0 4 2 我的问题是定义端点的请求参数这API 网关的 AWS 文档 http docs aw
如何简化 Step Functions 的复杂并行分支相互依赖关系

我的任务是将依赖节点列表转换为 AWS Step Functions AWS Step Function 定义允许并行分支甚至嵌套到多个深度的分支不幸的是它不支持分支中任务之间的依赖关系因此强制您在两个结果可用于步骤函数中的后续任务之
Tensorflow推荐的系统规格？

我开始在我的 RHEL 6 5 机器上安装 Tensorflow 但事实证明 Tensorflow 需要 glibc gt 2 17 而 rhel 6 5 上默认的 glibc 是 2 12 我想知道是否有人可以帮助我了解张量流的最低推荐
NodeJS 与 DynamoDB 抛出错误“AttributeValue 可能不包含空字符串”

我遇到了一个问题因为 DynamoDB 无法接受空字符串作为属性中的值我总是必须在前端检查是否存在空字符串值否则 API 调用将由于 Dynamo DB 抛出的错误 An AttributeValue 可能不包含空字符串而失败我想
更新到版本 2.1.1.0 Edge（或稳定版）后，Windows 版 Docker 停留在“Kubernetes 正在启动”状态

我最近在 Windows 10 计算机上将 Docker for Desktop 更新到最新的 Edge 通道版本 2 1 1 0 不幸的是更新后 Kubernetes 不再工作因为它始终停留在 Kubernetes 正在启动到目前为
无法从 EMR 中运行的 Spark 应用程序删除 AWS SQS 消息

我正在 AWS EMR 集群中运行 Apache Spark 应用程序该应用程序从 AWS SQS 检索消息根据消息数据进行一些计算然后删除每条消息我正在具有 NAT 实例的私有子网上的 VPC 中运行 EMR 集群我面临的问题是
导入错误：libGL.so.1：无法打开共享对象文件：没有这样的文件或目录

我正在尝试运行 cv2 但是当我尝试导入它时出现以下错误 ImportError libGL so 1 cannot open shared object file No such file or directory 网上建议的解决方案是
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
如何在启动时添加 EC2 实例属性？

我们使用 Amazon ECS 提供服务我们有一个名为application在该集群中我们有多项服务 dev app dev kafka dev zookeeper qa app qa kafka qa zookeeper etc 服务
导入tensorflow时，出现以下错误：没有名为“numpy.core._multiarray_umath”的模块

我已经安装了 Ancaconda3 和 Tensorflow 当我尝试在 python shell 中导入 Tensorflow 时收到以下错误 ModuleNotFoundError 没有名为 numpy core multiarray
Lambda 是否有必要在处理后从 SQS 队列中删除消息？

我正在此处查看 AWS SQS 文档 https docs aws amazon com sdk for net v3 developer guide ReceiveMessage html receive sqs message http
使用 Docker compose 连接到另一个容器

我需要一起使用两个容器一个用于 Tomcat 另一个用于数据库我创建了以下描述服务的 yaml 文件 postgredb image postgres expose 5432 ports 5432 5432 environment PO
tf.gfile 在 TensorFlow 中起什么作用？

我见过人们使用以下几个函数tf gfile例如tf gfile GFile or tf gfile Exists 我有一个想法tf gfile处理文件但是我无法找到官方文档来了解它还提供了什么如果你能帮我的话那就太好了对于登陆这里的
如何使提供程序假设_角色块有条件

我有一个provider我想给的块assume role属性但前提是它没有在我的本地计算机上运行我定义了一个变量islocal在所有环境中 tfvars文件只有本地文件具有该值true 这是provider block provide
网络更改时无法从主机连接 Docker 适用于 Windows 的 Docker

当网络 IP 从办公室更改为家庭时我无法连接到 docker 容器但同样适用于 localhost 或 127 0 0 1 我正在连接 VPN 以连接数据库 root 1c970ed5cd64 etc curl http localho
在官方 Postgres docker 镜像中记录所有查询

我有一个基于 Postgres 官方 docker 镜像的 docker 容器当我使用查看 docker 容器的日志时我想看到传入的查询docker logs f 这是我的 Dockerfile FROM postgres 11 1 a
在 Traefik 1.5.0-rc5 中使用新的 httpChallenge 时出现问题

在尝试升级到最新的 traefik 版本以便能够从 LetsEncrypt 生成 TLS 证书时我遇到了证书生成时间的问题这之前工作过traefik 1 4使用acme ondemand标志和其他设置减去httpChallenge当然

随机推荐

如何使用 gcc/g++ 11.1 导入模块

不知道import
SQLAlchemy：声明性 Mixin 类中的 getter/setter

我正在尝试为我打算在数据库模式中使用的 mixin 类定义简单的 getter setter 方法 from sqlalchemy import Column Integer create engine from sqlalchemy or
根据 R 中的交叉验证（训练）数据绘制 ROC 曲线

我想知道是否有一种方法可以从使用 SVM RFE 模型生成的交叉验证数据中绘制平均 ROC 曲线caret包裹我的结果是 Recursive feature selection Outer resampling method Cross
SEO 友好的网址

我喜欢这样给出问题链接的方式像这个问题有链接http stackoverflow com questions 6002203 seo friendly url问题标题在哪里seo friendly url 我正在创建一个博客我想以同样的
Java 有没有办法找出安装了多少个 CPU（或核心）？

我想对多线程程序进行一些调整如果我知道有多少线程可以真正并行工作我可以使程序更加有效 Java 有没有办法获取这些信息您可以使用 Runtime getRuntime availableProcessors 但它更多的是一个最佳猜测
Android操作系统中有哪些可用的IPC机制？

谁能告诉我 Android 中存在的所有 IPC 机制是什么据我所知有 Intents Binders IPC是进程间通信它描述了不同类型的 Android 组件用于相互通信的机制 1 Intents http developer an
使输入的外观和行为类似于引导下拉列表中的链接

下面的示例是一个引导下拉菜单其中包含一个链接和一个文件类型的输入按钮如何调整 CSS 以使上传选项的外观和行为类似于创建文件夹和删除文件夹选项 btn file position relative overflow hidd
使用纯 JAX-WS 添加 SOAP 标头对象

我正在尝试实现简单的网络服务客户端PayPal 快速结账 API using JAX WS PayPal 快速结账 API提供WSDL文件我可以使用该文件生成 Java 类CXF的wsdl2java公用事业从认证原因来看需要添加SOA
未知提供商：$uploadProvider <- $upload

有人知道为什么我在这个 Angular 代码上得到未知的提供者吗我正在使用 Angular 文件上传指令并使用以下示例 http www mono software com blog post Mono 233 Async upload
如何使用 CHARACTER*50 类型的参数将参数从 C# 传递到 FORTRAN？

我有以下 FORTRAN SUBROUTINE MYSUB MYPARAM DEC ATTRIBUTES DLLEXPORT SetPaths CHARACTER 50 MYPARAM WRITE 6 MYPARAM END SUBROUT
Mono/Flux.fromCallable 和 Mono.defer 之间的区别

我通常需要生成一个 Mono Flux 其值将在订阅时生成计算对于这一点 fromCallable 和 defer 运算符似乎都很好我无法在 javadoc 中清楚地看到差异来自可调用 public static Mono from
非常大的 SOAP 响应 - Android - 内存不足错误

我有一个应用程序在首次运行时我需要通过对 Web 服务的 SOAP 调用将大量数据下载到应用程序中然后响应被发送到一个函数该函数转换 XML 并将数据存储在 db 文件中数据大小超过 16MB 每次都会出现 java lang
如何在 Swift 命令行应用程序中从文件系统读取文件？

我刚刚开始学习 Swift 为了自学我正在制作一个简单的命令行应用程序它最终将连接到在线数据源但最初我想从文件加载数据我看过各种关于在 Swift 中读取文件内容的指南但似乎没有一个适合我到目前为止这是我的应用程序 impor
是否可以将 dash 数据表导出到磁盘上的特定位置或直接导出到 SQL Server？

我在 Dash 中创建了一个工具用户可以从 SQL Server 中提取数据筛选出所需的行并编辑其中一列中的值现在我必须在 SQL Server 中的新表中获取经过筛选和编辑的表我是 dash 新手找不到直接导出到 SQL Ser
如何从代码中关闭视图的自动布局？

我没有使用自动布局因为我需要支持 iOS 5 现在当我推送控制器时我收到 NSInternalInconsistencyException Terminating app due to uncaught exception NSInt
设置pyqt qtablewidget水平标题标签可编辑

如何通过双击 qtablewidget 中的水平标题标签来编辑它到目前为止我所拥有的但不起作用因此当有人双击顶部标题时会弹出一个允许输入文本的线条编辑器然后重置标签 import sys from PyQt4 import QtG
如何列出其他外部存储文件夹（挂载点）？

默认情况下 Android 上的外部存储显示为 sdcard 文件夹在某些设备上它不是 SD 卡而是内部存储器某些设备允许附加额外的 SD 卡或者对于 Asus Transformer 还允许附加 2 个 USB 闪存盘这样
使用 for 循环还是 while 循环进行迭代？

我经常看到这样的代码 Iterator i list iterator while i hasNext 但我这样写当 Java 1 5 不可用或每个都不能使用时 for Iterator i list iterator i hasNext
go 获取 golang 包时如何修复错误消息“不允许使用内部包”？

我正在使用 go 1 5 3 我跑了这个 go get x github com goji goji 我收到此错误消息 git checkout master package github com goji goji imports goj
如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？

我有一些使用张量流训练神经网络的 python 代码我已经基于运行 python 脚本的 tensorflow tensorflow latest gpu py3 图像创建了一个 docker 图像当我启动 EC2 p2 xlarge

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？ 的相关文章

随机推荐

热门标签

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？的相关文章