AWS Sagemaker 自定义用户算法：如何利用额外实例

2024-01-27

这是一个基本的 AWS Sagemaker 问题。当我使用 Sagemaker 的内置算法之一进行训练时，通过增加训练算法的 instance_count 参数，我能够利用将作业分配到许多实例所带来的巨大加速。然而，当我打包自己的自定义算法时，增加实例计数似乎只是在每个实例上重复训练，导致没有加速。

我怀疑当我打包自己的算法时，我需要做一些特殊的事情来控制它如何以不同的方式处理我的自定义 train() 函数内的特定实例的训练（否则，它如何知道工作应该如何进行）被分发？），但我还没有找到任何关于如何在网上执行此操作的讨论。

有谁知道如何处理这个问题？预先非常感谢您。

具体例子： => 它在标准算法中运行良好：我验证了在第一个记录的 sagemaker 示例中增加 train_instance_count 可以加快速度：https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-train-model-create-training-job.html https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-train-model-create-training-job.html

=> 它在我的自定义算法中不起作用。我尝试采用标准 sklearn 构建您自己的模型示例，并在训练中添加一些额外的 sklearn 变体，然后打印结果进行比较。当我增加传递给 Estimator 对象的 train_instance_count 时，它会在每个实例上运行相同的训练，因此每个实例的输出都会重复（结果的打印输出会重复）并且没有加速。这是 sklearn 示例库：https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionity/scikit_bring_your_own/scikit_bring_your_own.ipynb https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.ipynb。本笔记本中 Estimator 对象的第三个参数可让您控制训练实例的数量。

分布式培训需要有一种方法在培训工作者之间同步培训结果。大多数传统库（例如 scikit-learn）都被设计为与单个工作程序一起使用，而不能仅在分布式环境中使用。 Amazon SageMaker 在各个工作线程之间分配数据，但您需要确保算法能够从多个工作线程中受益。一些算法（例如随机森林）更容易利用分布，因为每个工作人员都可以构建森林的不同部分，但其他算法需要更多帮助。

Spark MLLib 具有 k-means、逻辑回归或 PCA 等流行算法的分布式实现，但这些实现对于某些情况来说还不够好。他们中的大多数都太慢了，有些甚至在使用大量数据进行训练时被压垮。 Amazon SageMaker 团队从头开始重新实现了其中许多算法，以受益于云的规模和经济性（一个实例 20 小时的成本与 20 个实例 1 小时的成本相同，只是快了 20 倍）。其中许多算法现在比线性可扩展性更稳定、更快。请在此处查看更多详细信息：https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html

对于深度学习框架（TensorFlow 和 MXNet），SageMaker 使用每个框架都使用的内置参数服务器，但它承担了构建集群和配置实例以与其通信的繁重工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonsagemaker

AWS Sagemaker 自定义用户算法：如何利用额外实例的相关文章

如何使用邮递员将请求传递给 sagemaker

我已经在 sagemaker 上训练了一个模型并创建了端点我正在尝试使用邮递员调用端点但是在训练模型时甚至之后我没有为训练数据指定任何标题我不知道如何在向 sagemaker 发送发布请求时创建有效负载以下是调用快速入门指南中创建
如何在 Sagemaker 2 中使用序列化器和反序列化器

我使用 Sagemaker 笔记本启动conda python3内核并遵循example笔记本用于随机砍伐森林截至撰写本文时 Sagemaker SDK附带conda python3版本是1 72 0 但是我想使用新功能所以我更新我的
将 S3 数据加载到 AWS SageMaker Notebook 中

我刚刚开始尝试使用 AWS SageMaker 并希望将 S3 存储桶中的数据加载到我的 SageMaker python jupyter 笔记本中的 pandas 数据框中进行分析我可以使用 boto 从 S3 获取数据但我想知道是否
Sagemaker 的 IAM 角色？

我正在尝试让 AWS SageMaker 调用 AWS Comprehend 我在 SageMaker 中收到此消息 ClientError 调用时发生错误 AccessDeniedException StartTopicsDetectio
如何使用 Estimator 在 sagemaker 中保存 model.tar.gz 文件

我无法使用以下代码将模型工件保存在 S3 存储桶中我成功地将结果保存在输出数据路径中并且训练作业已成功完成我正在使用下面的代码任何人都可以确认我们如何使用以下代码将 model artifacts 保存在 model dir 中 t
AWS：FileNotFoundError：[Errno 2]没有这样的文件或目录

我正在尝试从我的 S3 存储桶将文件下载到 sagemaker 文件的路径是s3 vemyone input dicom images train 1 2 276 0 7230010 3 1 2 8323329 1000 151787516
是否可以在不使用 s3 的情况下在 sagemaker 中进行预测

我有一个 pkl 我想将其投入生产我想对我的 SQL 服务器进行日常查询并对大约 1000 行进行预测这文档 https docs aws amazon com sagemaker latest dg how it works batc
如何将重新训练的 Sagemaker 模型部署到端点？

With an sagemaker estimator Estimator 我想重新deploy https sagemaker readthedocs io en stable api training estimators html s
AWS Sagemaker 自定义用户算法：如何利用额外实例

这是一个基本的 AWS Sagemaker 问题当我使用 Sagemaker 的内置算法之一进行训练时通过增加训练算法的 instance count 参数我能够利用将作业分配到许多实例所带来的巨大加速然而当我打包自己的自定义算法
使用对象检测算法进行 SageMaker 托管 Spot 训练

我正在尝试使用新的托管点训练功能从现有模型开始训练对象检测模型创建估计器时使用的参数如下 od model sagemaker estimator Estimator get image uri sagemaker Session bot
AWS SageMaker - 如何加载经过训练的 sklearn 模型以用于推理？

我正在尝试将使用 sklearn 训练的模型部署到端点并将其作为预测的 API 我只想使用 sagemaker 来部署和使用我序列化的服务器模型joblib 仅此而已我读过的每篇博客和 sagemaker python 文档都表明 sk
Sagemaker：如何在 Predictor 中设置 content_type（Sagemake > 2.0）？

请求帮助解决以下错误调用 InvokeEndpoint 时发生错误 ModelError 操作从模型收到客户端错误 415 和消息不支持内容类型应用程序八位字节流支持内容类型是文本 csv 文本 libsvm 这是相关代码 fr
我们可以在 CloudWatch 中为 Sagemaker 笔记本实例生成自定义日志吗？

CloudWatch 默认记录 Sagemaker 实例的日志例如内核启动内核关闭笔记本保存等不过我想列出一些自定义日志以及这些默认日志请看一下所附图片 Sagemaker 笔记本实例的默认日志在 CloudWatch 中的外观
AWS Sagemaker 使用镶木地板文件进行批量转换作业？

我正在尝试使用镶木地板数据文件运行批量转换推理作业但找不到任何内容到处都说批量转换仅接受文本 csv 或 json 格式类型出于测试目的我确实尝试在 AWS 帐户内使用 lambda 函数来调用 parque 数据但批量转换作业从
如何使用 API 网关调用 sagemaker 推理端点

我正在尝试使用 AWS Integration 从 api 网关调用 sagemaker 推理端点我不想在 API 网关和 sagemaker 运行时之间使用 lamdba 我跟着这个doc https docs aws amazon c
将 xgboost.Booster 类转换为 XGBRegressor 或从 xgboost.Booster 加载 XGBRegressor

我从 Sagemaker 获得了一个模型其类型为
借助 AWS SageMaker，是否可以使用 sagemaker SDK 部署预先训练的模型？

我试图避免将现有模型训练过程迁移到 SageMaker 并避免创建自定义 Docker 容器来托管我们训练过的模型我的希望是将我们现有的经过训练的模型注入到 AWS 通过以下方式提供的预构建的 scikit learn 容器中 sage
不活动后自动“停止”Sagemaker 笔记本实例？

我有一个 Sagemaker Jupyter 笔记本实例我一直错误地将它留在网上过夜不必要地花费了金钱当没有活动例如 1 小时时是否有任何方法可以自动停止 Sagemaker 笔记本实例或者我必须制作一个自定义脚本您可以使用
张量流服务错误：参数无效：JSON 对象：没有命名输入

我正在尝试使用 Amazon Sagemaker 训练模型并且希望使用 Tensorflow 服务来为其提供服务为了实现这一目标我将模型下载到 Tensorflow 服务 docker 并尝试从那里提供服务 Sagemaker 的训练
Sagemaker LDA 主题模型 - 如何访问训练模型的参数？还有一种简单的方法来捕捉连贯性吗

我是 Sagemaker 的新手正在运行一些测试来衡量 AWS 上的 NTM 和 LDA 与 LDA mallet 和本机 Gensim LDA 模型相比的性能我想检查 Sagemaker 上经过训练的模型并查看诸如哪些单词对每个主题

随机推荐

JavaScript 中重复元素的独特排列

假设我们有元素 0 和 1 它们可以出现多次就像00 00 11 00 00 11 11 or 01 11 为了更好的可读性分成 2 组我已经有一个函数来生成所有独特的排列 class UniqueElement constructor
如何在同一行上同时打印多个内容（固定文本和/或变量值）？

我有一些代码例如 score 100 name Alice print Total score for s is s name score 我想要打印出来Total score for Alice is 100 但我得到的是Total s
Android 从 Activity 传递和检索额外内容到 Fragment

我有一个活动用户按下按钮然后发送到片段但我希望传递一个额外的片段以供使用活动A 按钮在哪里 public OnClickListener publish new OnClickListener Override public voi
如何从 MySql 服务器到 Android 应用程序？

我有一个 MySql 数据库里面有一些体育比赛结果我想写一个Android应用程序来在手机上显示这些数据我在网上搜索过这个问题我认为MySql数据库和Android应用程序之间不可能有直接连接这是正确的吗所以我的问题如下我怎样
redux-observable Promise 在单元测试中没有得到解决

我正在尝试测试这部史诗https github com zarcode unsplashapp blob master src epics photos js https github com zarcode unsplashapp blo
Apache Spark - Spark 中的内部作业调度程序如何定义什么是用户，什么是池

我很抱歉在这里说得有点笼统但我对 Spark 内部的作业调度如何工作有点困惑从文档中here https spark apache org docs latest job scheduling html scheduling withi
在 os.walk() for 循环中使用 os.remove() 返回 FileNotFoundError

我在 Anaconda 命令提示符中使用 Python 3 6 4 我有一个使用的函数os walk 循环遍历根目录中的所有可用文件我的代码是 def apply to files pattern base regex re compil
防止 pydub 打开控制台窗口

有没有办法阻止 pydub 在使用 ffmpeg 在 Windows 上时打开控制台窗口每次启动 ffmpeg 将 mp3 文件转换为 wav 时它都会短暂打开一个控制台窗口该窗口会在处理完成后自动关闭但可能会造成干扰我使用的解
模板参数内的括号，例如std::function

我正在读关于std function在第 3 部分中关于 C 回调的长答案https stackoverflow com a 28689902 3832877 https stackoverflow com a 28689902 38
任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

简短的问题有没有人有任何 C 代码来解析 robots txt 然后根据它评估 URL 看看它们是否会被排除长问题我一直在为尚未发布到谷歌的新网站创建站点地图站点地图有两种模式用户模式如传统站点地图和管理模式管理模式将显
如何使用QueryParser进行Lucene范围查询（IntPoint/LongPoint）

我真正喜欢 Lucene 的一件事是查询语言我应用程序用户可以在其中编写动态查询我通过解析这些查询 QueryParser parser new QueryParser indexWriter getAnalyzer Query qu
如何分别变换形状的每一面？

如何创建一个 CSS 形状其中每一面都单独变换类似于下图中的形状只使用 CSS 而不使用图像可以吗我认为 CSS 中没有任何方法可以单独选择和变换每一面但您可以通过使用透视变换纯 CSS 来实现有问题的形状沿 X 轴和 Y 轴
预加载 HTML 中的图像

我想预加载这 4 张图像我试过这个 img src img 1 jpg style display none img src img 1a jpg style display none img src img 1b jpg style d
Flutter - 根据登录状态使用不同的路由启动应用程序

我正在寻找一种根据登录状态在应用程序启动时显示不同屏幕的方法例如我定义了以下路由 home login 设置当然我会检查用户是否已经在main 方法然后设置initialRoute我的 MaterialApp 到 login 或
使用 switch 语句可以解决的最大情况数

这是出于好奇单个开关盒最多可以有多少个switch包括default 案件我的意思是这样的 switch ch case 1 some statement break case 2 some statement break case n
ubuntu 中的单声道和非托管代码

我使用的是单声道 2 10 在 Ubuntu 12 x64 上运行现在我需要知道如何使用非托管代码 DllImport libc so public static extern int getpid 并且在下一步中我有 getpid 我
部署qt mysql应用程序

我开发了一个使用 Qt MySQL 的应用程序 connection QSqlDatabase addDatabase QMYSQL 我已经成功编译了 mysql 驱动程序我的应用程序可以运行一切都很好现在我正在尝试部署我的应用程序
Eclipse+Pydev 中转到定义的[快捷方式/其他方式]是什么

我以前用过WingIde 其中我经常使用的快捷方式 f4 默认是 Goto 定义它将打开定义文件并将我带到它 eclipse pydev 有类似的快捷方式吗 For Aptana Pydev you have Go To Defini
R / RStudio：高 dpi 屏幕上的图形缩放问题和模糊性

在高 DPI 4K 显示器上 Windows 下的 RStudio 绘图窗口似乎使用像素加倍来使绘图清晰我使用的是 RStudio 0 99 483 和 R 3 2 2 以及 Windows 8 1 但在 Windows 10 下结果相同
AWS Sagemaker 自定义用户算法：如何利用额外实例

这是一个基本的 AWS Sagemaker 问题当我使用 Sagemaker 的内置算法之一进行训练时通过增加训练算法的 instance count 参数我能够利用将作业分配到许多实例所带来的巨大加速然而当我打包自己的自定义算法

AWS Sagemaker 自定义用户算法：如何利用额外实例

AWS Sagemaker 自定义用户算法：如何利用额外实例 的相关文章

随机推荐

热门标签

AWS Sagemaker 自定义用户算法：如何利用额外实例的相关文章