如何在 Vertex AI 中安排重复运行自定义训练作业

2024-03-16

我已将训练代码打包为 python 包，然后能够将其作为 Vertex AI 上的自定义训练作业运行。现在，我希望能够安排这项工作运行一次，比如每两周运行一次，并重新训练模型。 CustomJobSpec 中的调度设置仅允许 2 个字段：“timeout”和“restartJobOnWorkerRestart”，因此无法使用 CustomJobSpec 中的调度设置。我能想到的实现此目标的一种方法是使用“CustomPythonPackageTrainingJobRunOp”Google Cloud Pipeline 组件一步创建 Vertex AI 管道，然后安排管道按照我认为合适的方式运行。有更好的选择来实现这一目标吗？

Edit:

我能够使用 Cloud Scheduler 安排自定义训练作业，但我发现在 AIPlatformClient 中使用 create_schedule_from_job_spec 方法在 Vertex AI 管道中非常容易使用。我在 gcp 中使用 Cloud Scheduler 安排自定义作业所采取的步骤如下，link https://cloud.google.com/scheduler/docs/http-target-auth#setting_up_the_service_account到谷歌文档：

将目标类型设置为 HTTP
对于指定自定义作业的 url，我遵循this https://cloud.google.com/vertex-ai/docs/training/create-custom-job#curl链接获取url
对于身份验证，在 Auth 标题下，我选择了“添加 OAauth 令牌”

您还需要在项目中拥有一个“Cloud Scheduler 服务帐户”，并具有“授予它的 Cloud Scheduler 服务代理角色”。尽管文档表示，如果您在 2019 年 3 月 19 日之后启用了 Cloud Scheduler API，则应该自动设置此设置，但对我来说情况并非如此，必须手动添加具有该角色的服务帐户。

Answer recommended by Google Cloud /collectives/google-cloud Collective

根据您的要求，有多种可能的调度方式：

1.云作曲家

云作曲家 https://cloud.google.com/composer/docs/concepts/overview是一个托管的 Apache Airflow，可帮助您创建、安排、监控和管理工作流程。

您可以按照以下步骤使用 Composer 每两周安排一次工作：

创建作曲家环境。
Write a DAG https://cloud.google.com/composer/docs/how-to/using/writing-dags#structure文件并将自定义训练 python 代码添加到 DAG 文件中。
由于自定义训练作业是Python代码，因此Python运算符 https://airflow.apache.org/docs/apache-airflow/1.10.4/_api/airflow/operators/python_operator/index.html可以用来安排任务。
在 DAG 文件中，您需要提供开始时间，即计划从哪个时间开始，并且您需要将计划间隔定义为两周，如下所示：

with models.DAG(
        'composer_sample_bq_notify',
        schedule_interval=datetime.timedelta(weeks=2),
        default_args=default_dag_args) as dag:

或者，您也可以使用Unix cron https://man7.org/linux/man-pages/man5/crontab.5.html字符串格式（* * * * *）进行调度。

IE。在您每两周安排一次的情况下，cron 格式将类似于：* * 1,15 * *

您可以使用 PythonOperator 传递自定义作业所需的参数op_args 和 op_kwargs 参数 https://airflow.apache.org/docs/apache-airflow/1.10.4/_api/airflow/operators/python_operator/index.html.

DAG文件写入后，需要将其push到dags/Composer 环境桶内的文件夹。

您可以在 Airflow UI 中检查计划 DAG 的状态。

预定的 DAG 文件如下所示：

样本_dag.py：

from __future__ import print_function

import datetime

from google.cloud import aiplatform

from airflow import models
from airflow.operators import bash_operator
from airflow.operators import python_operator
YESTERDAY = datetime.datetime.now() - datetime.timedelta(days=1)


default_dag_args = {
    # The start_date describes when a DAG is valid / can be run. Set this to a
    # fixed point in time rather than dynamically, since it is evaluated every
    # time a DAG is parsed. See:
    # https://airflow.apache.org/faq.html#what-s-the-deal-with-start-date
    'start_date': YESTERDAY,
}

with models.DAG(
        'composer_sample_simple_greeting',
        schedule_interval=datetime.timedelta(weeks=2),
        default_args=default_dag_args) as dag:
    
    def create_custom_job_sample(
    project: str,
    display_name: str,
    container_image_uri: str,
    location: str,
    api_endpoint: str,
):
    # The AI Platform services require regional API endpoints.
    client_options = {"api_endpoint": api_endpoint}
    # Initialize client that will be used to create and send requests.
    # This client only needs to be created once, and can be reused for multiple requests.
    client = aiplatform.gapic.JobServiceClient(client_options=client_options)
    custom_job = {
        "display_name": display_name,
        "job_spec": {
            "worker_pool_specs": [
                {
                    "machine_spec": {
                        "machine_type": "n1-standard-4",
                        "accelerator_type": aiplatform.gapic.AcceleratorType.NVIDIA_TESLA_K80,
                        "accelerator_count": 1,
                    },
                    "replica_count": 1,
                    "container_spec": {
                        "image_uri": container_image_uri,
                        "command": [],
                        "args": [],
                    },
                }
            ]
        },
    }
    parent = f"projects/{project}/locations/{location}"
    response = client.create_custom_job(parent=parent, custom_job=custom_job)
    print("response:", response)
    
    hello_python = python_operator.PythonOperator(
        task_id='hello',
        python_callable=create_custom_job_sample,
        op_kwargs={"project" : "your_project","display_name" : "name","container_image_uri":"uri path","location": "us-central1","api_endpoint":"us-central1-aiplatform.googleapis.com"}
        )

    # Likewise, the goodbye_bash task calls a Bash script.
    goodbye_bash = bash_operator.BashOperator(
        task_id='bye',
        bash_command='job scheduled')

    # Define the order in which the tasks complete by using the >> and <<
    # operators. In this example, hello_python executes before goodbye_bash.
    hello_python >> goodbye_bash

2. 云调度器：要使用以下方式安排作业云调度器 https://cloud.google.com/scheduler/docs/http-target-auth#creating_a_scheduler_job_with_authentication您将需要进行以下配置：

Target : HTTP
URL: 作业的端点 URL (示例：“us-central1-aiplatform.googleapis.com”)
验证标头：用于 *.googleapis.com 上托管的 Google API 的 OAuth 令牌

3. 安排循环管道 https://cloud.google.com/vertex-ai/docs/pipelines/run-pipeline使用 Kubeflow Pipelines SDK 运行:

您可以使用 Python 和 Kubeflow Pipelines SDK 安排定期管道运行。

from kfp.v2.google.client import AIPlatformClient

api_client = AIPlatformClient(project_id=PROJECT_ID,
                           region=REGION)

api_client.create_schedule_from_job_spec(
    job_spec_path=COMPILED_PIPELINE_PATH,
    schedule=* * 1,15 * *,
    time_zone=TIME_ZONE,
    parameter_values=PIPELINE_PARAMETERS
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Vertex AI 中安排重复运行自定义训练作业的相关文章

由于 play-services-base-17.1.0.aar 转换错误，无法构建项目

所以基本上我已经快一年没有打开我的 Android Studio 项目了这次是打开和构建它的时候了更新 Android Studio 和项目的所有插件后我终于遇到了这个错误 Execution failed for task app
ListItem 附加自定义值

我在asp net中使用dropdownlist 它有代表下拉列表项目的ListItem集合每个ListItem只有两个字段来保存数据 Value和Text字段但这些还不够我想保存更多数据对于每个项目假设附加字段中有 Text1 和
Excel 2013 数据透视表不会更改当前页面，除非手动导航到

我们有一小段 VBA 代码多年来一直完美运行本质上是 Me PivotTables APivot PivotFields AField CurrentPage Some text 这种方法一直有效直到 Excel 2013 该行将失败
如何在 iOS 中注册自定义文件类型

我目前正在创建一个应用程序我想让用户在其中备份他们的文件 plist m4a 我压缩文件并将扩展名更改为自定义扩展名专门针对我的应用程序例如 MyBackup 然后用户可以通过电子邮件或 iTunes 文件共享进行导出我已经阅读过
如何将变量插入 PHP 数组？

我在网上查了一些答案但都不是很准确我希望能够做到这一点 id result id info array id Example echo info 0 这有可能吗您需要的是不推荐 info array id Example varia
如何更改 aptana studio 的背景颜色？

如何将 Aptana IDE 或整个主题的黑色背景更改为其他背景例如蓝色正如 gyozo 在评论中提到的对于蓝色主题请使用窗口 gt 首选项 gt Aptana Studio gt 主题并选择 Eclipse 主题
如何获得 JavaScript 阶乘程序的循环来显示所使用的工作？

你好我面临着用 JavaScript 编写一个程序的挑战尽管我对它不太了解但它要求用户输入一个数字然后计算该数字的阶乘我使用了已经提出的问题并设法使计算正常工作但无法获得所需的输出我必须在以下输出中获取它而不使用任何花哨的库
如何将十六进制字符串转换为无符号长整型？

我有以下十六进制值 CString str str T FFF000 如何将其转换为unsigned long 您可以使用strtol作用于常规 C 字符串的函数它使用指定的基数将字符串转换为 long long l strtol str
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import
Jackson 将单个项目反序列化到列表中

我正在尝试使用一项服务该服务为我提供了一个带有数组字段的实体 id 23233 items name item 1 name item 2 但是当数组包含单个项目时将返回该项目本身而不是包含一个元素的数组 id 43567 item
不区分大小写的字符串比较 C++ [重复]

这个问题在这里已经有答案了我知道有一些方法可以进行忽略大小写的比较其中涉及遍历字符串或一个good one https stackoverflow com questions 11635 case insensitive string
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA
我可以让 swagger-php 在查询字符串上使用数组吗？

我使用 Swagger php 当我定义查询字符串上的参数时它可以是一个数组但据我所知它不支持这种查询字符串 https api domain tld v1 objects q 1 q 5 q 12 我相信这会被设定in the co
如何将容器管理事务 (CMT) 与 JBoss AS 6、Hibernate 3.6、JPA、JTA 和 EJB3 结合使用

我正在尝试使用 CMT 设置网络应用程序我已经让它在 Eclipse 中独立运行了现在我尝试使用 Struts 1 0 让它在 Jboss AS 6 中工作我选择 CMT 是因为我读过的 doco 暗示它是最好的并且使用起来最简单
使用适用于 Android 和 ios 的 Angular NativeScript 的透明选项卡栏和操作栏

我想让标签栏透明操作栏在滑动布局或页面上透明操作栏或选项卡栏必须位于页面顶部就像两层一样我尝试过使用 css 使其透明但它在页面上并没有变得透明
ubuntu：升级软件（cmake）-版本消歧（本地编译）[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的机器上安装了 cmake 2 8 0 来自 ubuntu 软件包二进制文件放置在 usr bin cmake 中我需要将 cmake 版本至少
使用 IIS 发布：找不到服务器 DNS

我正在尝试使用 IIS 发布我的项目我能够通过 Visual Studio 发布它 La aplicaci n web se public correctamente file D www plataformafantasy com Co
在 Google 地图上绘制线条/路径

我很长一段时间都在忙于寻找如何在 HelloMapView 中的地图上的两个 GPS 点之间画一条线但没有运气谁能告诉我该怎么做假设我使用扩展 MapView 的 HelloMapView 我需要使用叠加层吗如果是这样我是否必须重
OpenCV SIFT 描述符关键点半径

我正在深入研究OpenCV的SIFT描述符提取的实现 https github com Itseez opencv blob master modules nonfree src sift cpp 我发现了一些令人费解的代码来获取兴趣点邻域
谓词对于列表中的所有元素都必须为 true

我有一组事实 likes john mary likes mary robert likes robert kate likes alan george likes alan mary likes george mary likes har

随机推荐

为什么在执行 record.inspect 时没有输出 attr_accessor 虚拟属性

在我的 ListItem Rails 模型中我有 attr accessor catalyst action actor user id actor full name 我可以在控制器中设置这些变量并且我确认当记录到达观察者时它们仍然存
在 javascript 中运行 fabcar 示例时出错 [重复]

这个问题在这里已经有答案了我正在尝试使用 javascript 链代码运行 fabcar 示例在实例化链代码时失败并出现以下错误 error could not assemble transaction err proposal res
具有改进的 CI/CD 的 Azure 数据工厂部署

我正在关注此处发布的为 ADF 设置的新推荐 ci cd https learn microsoft com en us azure data factory continuous integration deployment improv
select2 下拉自动宽度无法正常工作

我正在使用 select2 来设置dropdownautowidth在我的 SharePoint 搜索页面上设置为 true 并且第一次在页面加载时完美运行在我搜索某个关键字后页面会加载搜索结果然后 dropdownautowidth
使用 __dirname 时如何转到父目录？ [复制]

这个问题在这里已经有答案了目录结构 WebApiRole GulpFile js test Karma conf js 咕噜代码来自GulpFile js gulp task test function done karma start
python @properties 如何以及何时进行评估

这是一段代码 class TestClass def init self self a a print calling init property def b self b b print in property return b test
容器形式的控件优于子形式？

In a container form I have menu and buttons to open ther forms Here I am facing a problem when I open any form these but
&& 逻辑运算符 jsx 和 typescript 错误

我对打字稿还很陌生我想知道为什么会失败 import CircularProgress from components shared material import React from react import loadingStyle
将字符串数据附加（添加）到 Android 应用程序中的 SD 卡文本文件

这里只是简单说一下虽然我的代码似乎可以使用写入内部或外部 SD 卡存储中的 mytext txt 文件的标准技术将字符串数据等存储在新文件中但对我来说我的应用程序更有用通过重复允许用户重复该过程例如用户输入和按钮保存或关闭应用程
使用箭头键和回车键浏览文本输入字段

我正在尝试使用 jQuery 在多个输入字段之间构建一个简单的导航机制代码的第一部分使用向下箭头或返回键向下跳转工作正常但是当我添加第二个块通过查找向上箭头然后反转顺序向后跳转时在第一个文本字段中输入会向右跳转远离第二个有什么想法
使用 ACR122U 作为读取器/写入器在 Windows 窗体应用程序 C# 中将 Ndef 写入 NFC 标签

我正在尝试使用 ACR122U NFC 读取器创建 NDEF 消息并将其写入 Windows 窗体应用程序用 C 编写中的 NFC 标签我使用 Andreas Jakl 创建了 NDEF 消息的原始字节NDEF库 https gith
从数据框列表中将选定的数据框添加在一起

当我尝试将微观解决方案应用于宏观尺度时我遇到了大问题我想编写一个函数使我能够自动将特定数据帧的所有值添加在一起首先我创建了所有数据框的列表 gt lst data001 A B C D E X 10 30 50 70 Y 20 4
如何在 Javascript 中设计自定义控件（可能使用 jQuery）

我想用 JavaScript 创建一个自定义控件目标是创建一个具有方法属性和事件的构建块并呈现到 div 中日历就是此类控件的一个示例它将呈现为 div 它具有定义其显示方式以及选择或突出显示日期的属性它具有更改当前月份或选择某个
使用 tee 命令将输出重定向到不存在的目录中的文件

我正在尝试使用 tee 命令将输出重定向到文件并且我希望在尚未创建的目录中创建该文件 date tee new dir new file 当 new dir 不存在时 tee 命令失败并显示 tee new dir new file 没有
同时对两个数组进行排序

我现在正在学习和理解Java 在练习数组时我有一个疑问我编写了以下代码作为示例 class example public static void main String args String a new String Sam Claud
保存不带标记的数据集 ds.WriteXml(...)？

我可以毫无问题地读取 XML 文件并将其写入数据集中但是如果我使用以下命令保存数据集ds WriteXml Testdata xml 附加标签
AFNetworking 缓存图像是自动加载还是我们必须手动加载？

我正在使用 AFNetworking 从 JSON feed 加载图像在这里当用户第一次打开应用程序时图像从互联网加载没关系但是当用户返回并从另一个视图再次访问该应用程序时图像应该从缓存加载而不是从互联网加载我怎样才能做到
终止多线程Python程序

如何让多线程python程序响应Ctrl C按键事件 Edit 代码是这样的 import threading current 0 class MyThread threading Thread def init self total th
查找文件并导航到该文件的快捷方式不再有效

在 VS2015 中查找文件并导航的快捷方式不再起作用用于设置查找和导航到文件的快捷方式的键绑定位于哪里 Specifically I want to remap the Ctrl shortcut to Find a file an
如何在 Vertex AI 中安排重复运行自定义训练作业

我已将训练代码打包为 python 包然后能够将其作为 Vertex AI 上的自定义训练作业运行现在我希望能够安排这项工作运行一次比如每两周运行一次并重新训练模型 CustomJobSpec 中的调度设置仅允许 2 个字段 ti

如何在 Vertex AI 中安排重复运行自定义训练作业

如何在 Vertex AI 中安排重复运行自定义训练作业 的相关文章

随机推荐

热门标签

如何在 Vertex AI 中安排重复运行自定义训练作业的相关文章