使用对象检测算法进行 SageMaker 托管 Spot 训练

2024-02-17

我正在尝试使用新的托管点训练功能从现有模型开始训练对象检测模型，创建估计器时使用的参数如下：

od_model = sagemaker.estimator.Estimator(get_image_uri(sagemaker.Session().boto_region_name, 'object-detection', repo_version="latest"),
                                         Config['role'],
                                         train_instance_count = 1,
                                         train_instance_type = 'ml.p3.16xlarge',
                                         train_volume_size = 50,
                                         train_max_run = (48 * 60 * 60),
                                         train_use_spot_instances = True,
                                         train_max_wait = (72 * 60 * 60),
                                         input_mode = 'File',
                                         checkpoint_s3_uri = Config['train_checkpoint_uri'],
                                         output_path = Config['s3_output_location'],
                                         sagemaker_session = sagemaker.Session()
                                         )

（参考文献Config上面是我用来提取/集中一些参数的配置数据结构）

当我运行上面的代码时，出现以下异常：

botocore.exceptions.ClientError：调用 CreateTrainingJob 操作时发生错误 (ValidationException)：给定算法不支持大于 3600 的 MaxWaitTimeInSeconds。

如果我改变train_max_wait到 3600 我得到这个异常：

botocore.exceptions.ClientError：调用 CreateTrainingJob 操作时发生错误 (ValidationException)：MaxWaitTimeInSeconds 无效。它必须存在并且大于或等于 MaxRuntimeInSeconds

然而变化max_run_time到 3600 或更少对我来说不起作用，因为我预计这个模型需要几天的时间来训练（大数据集），事实上一个 epoch 需要一个多小时。

The 有关 Managed Spot Training 的 AWS 博客文章 https://aws.amazon.com/blogs/aws/managed-spot-training-save-up-to-90-on-your-amazon-sagemaker-training-jobs/比如说MaxWaitTimeInSeconds仅限 60 分钟：

对于不使用检查点的内置算法和 AWS Marketplace 算法，我们强制规定最大训练时间为 60 分钟（MaxWaitTimeInSeconds 参数）。

早些时候，同一篇博客文章说：

内置算法：计算机视觉算法支持检查点（对象检测、语义分割以及很快的图像分类）。

所以我不认为我的算法不支持检查点。事实上，该博文使用了对象检测，最长运行时间为 48 小时。所以我不认为这是算法限制。

正如您在上面看到的，我已经为检查点设置了一个 S3 URL。 S3 存储桶确实存在，并且训练容器可以访问它（它与放置训练数据和模型输出的存储桶相同，并且在打开现场训练之前访问这些存储桶没有任何问题。

我的 boto 和 sagemaker 库是当前版本：

boto3 (1.9.239)
botocore (1.12.239)
sagemaker (1.42.3)

从阅读各种文档中我可以看出，我已经正确设置了所有内容。我的用例几乎与上面链接的博客文章中描述的完全一样，但我使用的是 SageMaker Python SDK，而不是控制台。

我真的很想尝试托管现场培训以节省一些钱，因为我即将进行很长的培训。但将超时限制为一小时并不适合我的用例。有什么建议么？

Update:如果我注释掉train_use_spot_instances and train_max_wait在常规按需实例上进行培训的选项我的培训作业已成功创建。如果我随后尝试使用控制台克隆作业并在克隆上打开 Spot 实例，我会得到相同的 ValidationException。

我今天再次运行我的脚本，效果很好，不botocore.exceptions.ClientError例外情况。鉴于此问题同时影响了 Sagemaker 的 Python SDK 和控制台，我怀疑这可能是后端 API 的问题，而不是我的客户端代码的问题。

不管怎样，它现在正在发挥作用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用对象检测算法进行 SageMaker 托管 Spot 训练的相关文章

opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
通过索引访问Python字典的元素

考虑一个像这样的字典 mydict Apple American 16 Mexican 10 Chinese 5 Grapes Arabian 25 Indian 20 例如我如何访问该字典的特定元素例如我想在对 Apple 的第一个
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
推送到 ECR 存储库的图像达到最大数量后会发生什么

根据Amazon ECR 服务限制 http docs aws amazon com AmazonECR latest userguide service limits html 每个存储库的最大图像数量为 1 000 超过此限制后最旧的
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
如何为不同操作系统/Python 版本编译 Python C/C++ 扩展？

我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本针对不同环境交叉编译扩展的标准方法是什么葡萄酒虚拟机众包我们使用虚拟机和Hudson http hud

随机推荐

ruby：“p *1..10”中的星号是什么意思

the line p 1 10 做完全相同的事情 1 10 each x puts x 这将为您提供以下输出 ruby e p 1 10 1 2 3 4 5 6 7 8 9 10 例如在使用 textmate 时这是一个很好的快捷方式
如何在ListView中正确使用TextSwitcher？

My TextSwitcher对于每条记录ListView应显示第一个值 text1 然后是另一个值 text2 然后再次首先值依此类推仅当以下情况时才会发生text2不是空的否则text1应始终显示没有任何更改和动画我已经创建了
log4j2.xml中每个包的Log4J不同日志级别

我有一个 Java Web 应用程序log4j2 xml我需要为每个包设置不同的级别例如 com myexample firstmodule 这应该是INFO level com myexample secondmodule 这应该是TR
如何在 Python 中停止打印 OpenCV 错误消息

Same as 这个问题在这里 https stackoverflow com questions 17567808 how to suppress opencv error message 17575610 17575610 除了 Pyt
使用 DOM 解析 HTML 时保留文件偏移量？

我要修改 img src 格式不太畸形的 HTML 中的属性 WordPress 帖子我知道我可以采取简单的方法并使用正则表达式但我担心穿着蓝色毛茸茸的衣服的人会在我睡梦中困扰我 https meta stackexchange com
如何将字符串数据框列转换为日期时间作为年和周的格式？

样本数据 Week Price 2011 31 1 58 2011 32 1 9 2011 33 1 9 2011 34 1 9 我有一个像上面这样的数据框我想将周列类型从字符串转换为日期时间 My Code data Date Ti
动态郎。运行时与反射

我计划在我的新项目中使用动态关键字但在介入之前我想了解使用动态关键字而不是反射的优点和缺点在专业人士的帮助下我可以找到关于动态关键字的信息可读可维护的代码更少的代码行虽然与使用动态关键字相关的负面影响我听到的是影响应用程
将 django 查询集转换为数组

我想将 django 查询集转换为数组例如 firstnames Users objects values firstnames 得到看起来像的结果 firstnames Nancy Andrew Janet Margaret Steve
以下哪个 SQL 查询会更快？两个表或连续查询的联接？

我这里有两张桌子 ITEMS ID DETAILS OWNER USERS ID NAME Where ITEMS OWNER USERS ID 我列出了这些物品及其各自所有者的姓名为此我可以在两个表上使用联接或者我可以选择所有 IT
Conda 报告 PackagesNotFoundError: python=3.1 for reticulate 环境

我正在尝试在 R 中使用 python 包但我不断收到相同的错误 ImportError cannot import name read csv from pandas unknown location 我也不能使用 py install
尝试改进 haskell 中当前处理列表的丑陋代码

我正在尝试在 Haskell 中实现一个函数该函数将采用任意整数列表xs和一个整数k 并返回一组列表k在所有可能的位置例如对于一个xs 0 1 and k 2 我们会有 myFunction 0 1 2 2 0 1 0 2 1 0 1
作为配置属性的不可变类型

是否可以使用不可变类型作为 NET 配置 API 的配置属性假设我有一个名为 MyClass 的不可变类型 public class ImmutableClass private readonly int value public Imm
弹性盒| Flex 项目被推出包含 div （屏幕外）

我正在使用弹性盒布局 https css tricks com snippets css a guide to flexbox 设置过去任务列表的样式任务描述和时间的长度总是变化很大一切看起来都很棒直到输入足够长的任务描述以换行到第二
查找嵌套映射中特定键的值

在 Clojure 中如何找到可能位于嵌套映射结构深处的键的值例如 def m a b b c c d e e f f find nested m f gt f Clojure 提供tree seq http conj io store
Firebase 中一个应用程序的多个项目：如何指定 Android 包名称

我已经在生产环境中设置了 Firebase 项目我想为我的 firebase 应用程序创建一个开发环境我看到有很多关于此的文档我需要根据文档获取 google services json 要获取 google services jso
客户端 (iOS) 上的 Core Data 缓存来自服务器的数据策略

我编写了许多与后端通信的 iOS 应用程序几乎每次我都使用 HTTP 缓存来缓存查询并将响应数据 JSON 解析为 Objective C 对象对于这个新项目我想知道核心数据方法是否有意义这是我的想法 iOS 客户端向服务器发出请
如何在不创建新用户的情况下使用电话验证

嗨我现在正在使用本机反应我一直面临这个问题我想使用电话验证而不创建新用户但我找不到我想要的东西我尝试使用 npm react native firebase auth 和 firebase auth 我找不到它我非常感谢你的帮助
连体网络显示 ValueError

我正在使用 Siamese 网络来实现具有不同域的 2000 个功能我想训练相似的特征对并测试不同的特征对当我尝试拟合模型时遇到值错误 def get siamese conv unit input encoder models Seq
如何使用 jQuery / Javascript 运行浏览器命令？

我有一页 HTML 格式有两个按钮保存和打印当用户单击打印时它应该打印页面并当用户单击保存页面时应打开该页面的另存为框首选 Javascript jQuery 解决方案对于打印您可以使用window print
使用对象检测算法进行 SageMaker 托管 Spot 训练

我正在尝试使用新的托管点训练功能从现有模型开始训练对象检测模型创建估计器时使用的参数如下 od model sagemaker estimator Estimator get image uri sagemaker Session bot

使用对象检测算法进行 SageMaker 托管 Spot 训练

使用对象检测算法进行 SageMaker 托管 Spot 训练 的相关文章

随机推荐

热门标签

使用对象检测算法进行 SageMaker 托管 Spot 训练的相关文章