读取 Vertex AI Pipelines 中的数据

2024-01-18

这是我第一次使用 Google 的 Vertex AI Pipelines。我检查了这个代码实验室 https://codelabs.developers.google.com/vertex-pipelines-intro?hl=en#0也这个帖子 https://towardsdatascience.com/how-to-set-up-custom-vertex-ai-pipelines-step-by-step-467487f81cad and 这个帖子 https://medium.com/google-cloud/google-vertex-ai-the-easiest-way-to-run-ml-pipelines-3a41c5ed153，在一些源自的链接之上官方文档 https://cloud.google.com/vertex-ai/docs/pipelines/introduction?hl=es-419。我决定将所有这些知识运用到工作中，在一些玩具示例中：我计划构建一个由 2 个组件组成的管道：“get-data”（读取存储在 Cloud Storage 中的一些 .csv 文件）和“report-data” （它基本上返回前一个组件中读取的 .csv 数据的形状）。此外，我谨慎地包括一些建议 https://stackoverflow.com/questions/71351821/reading-file-from-vertex-ai-and-google-cloud-storage本论坛提供。我目前拥有的代码如下：


from kfp.v2 import compiler
from kfp.v2.dsl import pipeline, component, Dataset, Input, Output
from google.cloud import aiplatform

# Components section   

@component(
    packages_to_install=[
        "google-cloud-storage",
        "pandas",
    ],
    base_image="python:3.9",
    output_component_file="get_data.yaml"
)
def get_data(
    bucket: str,
    url: str,
    dataset: Output[Dataset],
):
    import pandas as pd
    from google.cloud import storage
    
    storage_client = storage.Client("my-project")
    bucket = storage_client.get_bucket(bucket)
    blob = bucket.blob(url)
    blob.download_to_filename('localdf.csv')
    
    # path = "gs://my-bucket/program_grouping_data.zip"
    df = pd.read_csv('localdf.csv', compression='zip')
    df['new_skills'] = df['new_skills'].apply(ast.literal_eval)
    df.to_csv(dataset.path + ".csv" , index=False, encoding='utf-8-sig')


@component(
    packages_to_install=["pandas"],
    base_image="python:3.9",
    output_component_file="report_data.yaml"
)
def report_data(
    inputd: Input[Dataset],
):
    import pandas as pd
    df = pd.read_csv(inputd.path)
    return df.shape


# Pipeline section

@pipeline(
    # Default pipeline root. You can override it when submitting the pipeline.
    pipeline_root=PIPELINE_ROOT,
    # A name for the pipeline.
    name="my-pipeline",
)
def my_pipeline(
    url: str = "test_vertex/pipeline_root/program_grouping_data.zip",
    bucket: str = "my-bucket"
):
    dataset_task = get_data(bucket, url)

    dimensions = report_data(
        dataset_task.output
    )

# Compilation section

compiler.Compiler().compile(
    pipeline_func=my_pipeline, package_path="pipeline_job.json"
)

# Running and submitting job

from datetime import datetime

TIMESTAMP = datetime.now().strftime("%Y%m%d%H%M%S")

run1 = aiplatform.PipelineJob(
    display_name="my-pipeline",
    template_path="pipeline_job.json",
    job_id="mlmd-pipeline-small-{0}".format(TIMESTAMP),
    parameter_values={"url": "test_vertex/pipeline_root/program_grouping_data.zip", "bucket": "my-bucket"},
    enable_caching=True,
)

run1.submit()

我很高兴看到管道编译没有错误，并成功提交了作业。然而“我的幸福持续得很短”，当我去 Vertex AI Pipelines 时，我偶然发现了一些“错误”，如下所示：

DAG 失败，因为某些任务失败。失败的任务是：[获取数据]。；由于上述错误，作业（project_id = my-project，job_id = 4290278978419163136）失败。处理作业失败：{project_number = xxxxxxxx, job_id = 4290278978419163136}

我在网络上没有找到任何相关信息，也找不到任何日志或类似的内容，而且我感到有点不知所措，因为这个（看似）简单示例的解决方案仍然困扰着我。

很明显，我不知道我错了什么或哪里错了。有什么建议吗？

根据评论中提供的一些建议，我认为我成功地使我的演示管道正常工作。我将首先包含更新的代码：

from kfp.v2 import compiler
from kfp.v2.dsl import pipeline, component, Dataset, Input, Output
from datetime import datetime
from google.cloud import aiplatform
from typing import NamedTuple


# Importing 'COMPONENTS' of the 'PIPELINE'

@component(
    packages_to_install=[
        "google-cloud-storage",
        "pandas",
    ],
    base_image="python:3.9",
    output_component_file="get_data.yaml"
)
def get_data(
    bucket: str,
    url: str,
    dataset: Output[Dataset],
):
    """Reads a csv file, from some location in Cloud Storage"""
    import ast
    import pandas as pd
    from google.cloud import storage
    
    # 'Pulling' demo .csv data from a know location in GCS
    storage_client = storage.Client("my-project")
    bucket = storage_client.get_bucket(bucket)
    blob = bucket.blob(url)
    blob.download_to_filename('localdf.csv')
    
    # Reading the pulled demo .csv data
    df = pd.read_csv('localdf.csv', compression='zip')
    df['new_skills'] = df['new_skills'].apply(ast.literal_eval)
    df.to_csv(dataset.path + ".csv" , index=False, encoding='utf-8-sig')


@component(
    packages_to_install=["pandas"],
    base_image="python:3.9",
    output_component_file="report_data.yaml"
)
def report_data(
    inputd: Input[Dataset],
) -> NamedTuple("output", [("rows", int), ("columns", int)]):
    """From a passed csv file existing in Cloud Storage, returns its dimensions"""
    import pandas as pd
    
    df = pd.read_csv(inputd.path+".csv")
    
    return df.shape


# Building the 'PIPELINE'

@pipeline(
    # i.e. in my case: PIPELINE_ROOT = 'gs://my-bucket/test_vertex/pipeline_root/'
    # Can be overriden when submitting the pipeline
    pipeline_root=PIPELINE_ROOT,
    name="readcsv-pipeline",  # Your own naming for the pipeline.
)
def my_pipeline(
    url: str = "test_vertex/pipeline_root/program_grouping_data.zip",
    bucket: str = "my-bucket"
):
    dataset_task = get_data(bucket, url)

    dimensions = report_data(
        dataset_task.output
    )
    

# Compiling the 'PIPELINE'    

compiler.Compiler().compile(
    pipeline_func=my_pipeline, package_path="pipeline_job.json"
)


# Running the 'PIPELINE'

TIMESTAMP = datetime.now().strftime("%Y%m%d%H%M%S")

run1 = aiplatform.PipelineJob(
    display_name="my-pipeline",
    template_path="pipeline_job.json",
    job_id="mlmd-pipeline-small-{0}".format(TIMESTAMP),
    parameter_values={
        "url": "test_vertex/pipeline_root/program_grouping_data.zip",
        "bucket": "my-bucket"
    },
    enable_caching=True,
)

# Submitting the 'PIPELINE'

run1.submit()

现在，我将添加一些补充评论，总之，这些评论设法解决了我的问题：

首先，为您的用户启用“日志查看器”(roles/logging.viewer)，将极大地帮助解决管道中的任何现有错误（注意：该角色对我有用，但是您可能想要寻找更好的匹配）为了你自己的目的而扮演的角色）。这些错误将显示为“日志”，可以通过单击相应的按钮来访问：

注意：在上图中，当显示“日志”时，仔细检查每个日志（接近创建管道的时间）可能会有所帮助，因为通常每个日志都对应一个警告或错误行：

其次，我的管道的输出是一个元组。在我原来的方法中，我只是返回普通元组，但建议返回命名元组 https://docs.python.org/3/library/typing.html#typing.NamedTuple反而。一般来说，如果需要输入/输出一个或多个“小值“（int 或 str，出于任何原因），选择一个 NamedTuple 来执行此操作。
第三，当管道之间的连接是Input[Dataset] or Ouput[Dataset]，需要添加文件扩展名（并且很容易忘记）。以输出为例get_data组件，并注意如何通过专门添加文件扩展名来记录数据，即dataset.path + ".csv".

当然，这是一个非常小的示例，项目可以轻松扩展到大型项目，但是作为某种“Hello Vertex AI Pipelines”，它会很好地工作。

谢谢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读取 Vertex AI Pipelines 中的数据的相关文章

如何在通过 Laravel Eloquent 方法连接的元素上使用 orderby

问题是查询无法找到应该与 Laravel Eloquent 中的方法WITH 连接的特定方法特定方法特定模型特定模型特定方法等有什么想法如何解决吗我的代码 SpecificModel
Android 中自定义对话框内的日期选择器

我想在自定义对话框中使用日期选择器单击按钮上的日历将打开以供用户选择日期我的 customDilaog 类中有 Button 在该按钮上单击我想打开日历视图如果单击此按钮我的应用程序将崩溃我已经完成了这个 CustomDialo
在 Interface Builder 中添加背景图像

我正在尝试使用 Xcode 4 2 添加自定义图像作为我的应用程序的背景但我不太确定该怎么做我可以在 Interface Builder 中添加纯色作为背景但我没有看到添加自定义图像的选项我在谷歌上搜索了这个问题并研究了几个小时但
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
在 Jenkins 中执行批处理文件

我有一个简单的批处理文件我想要从 Jenkins 调用运行执行该文件 Jenkins 中有同样的插件吗如何从 Jenkins 执行批处理文件如果有相同的教程或文档无需为此添加新插件在Jenkins 选择您的工作名称并转到配置部
JsonNode findValue 不搜索子节点

我有一个结构如下的资源 activity activity type Like activity id 123456 object id product id reference activity activity type Rating
如何在@FacesConverter中注入@EJB、@PersistenceContext、@Inject、@Autowired等？

我怎样才能注入像这样的依赖项 EJB PersistenceContext Inject AutoWired等在一个 FacesConverter 在我的具体情况下我需要通过注入 EJB EJB FacesConverter public
android中自动启动一个新的activity

我正在创建一个 Android 应用程序我有一个logo screen Activity 然后我的home screen another activity 我希望当我启动应用程序时我的徽标屏幕应该出现然后 2 秒后自动出现我的主屏幕
Ansible 创建可以访问所有表的 postgresql 用户？

这应该很简单我想要创建一个 Ansible 语句来创建一个 Postgres 用户该用户具有特定数据库的连接权限以及对该特定数据库中所有表的选择插入更新删除权限我尝试了以下方法 name Create postgres user
当我想要发布项目时：“指定的路径、文件名或两者都太长”

当我想运行或发布网络项目时我收到此错误严重性代码说明项目文件行抑制状态错误无法评估项目元数据 FullPath 项目元数据 FullPath 无法应用于路径 jquery ui 1 10 3 custom development
Nunit 测试给出结果 OneTimeSetUp: 未找到合适的构造函数

我有一个问题 NUnit 告诉我没有找到合适的构造函数这是什么原因造成的我还收到另一条消息异常没有堆栈跟踪这两条消息只是一遍又一遍地重复这是我的代码 TestFixture public class SecurityServic
在 Raspberry Pi 4 上的多个输出设备上播放多个 mp3 文件

我需要 4 8 个同时播放立体声音频音乐频道连续播放 SD 卡上特定文件夹中的 mp3 音乐 Working 板载 3 5 音频插孔 USB声卡正常播放音乐 Problem 但一旦我尝试在树莓派上使用带有 USB 声卡的第三个音频输出其
C# 4.0 动态对象和 WinAPI 接口，如 IShellItem（无需在 C# 源代码中定义它们）

是否可以使用 C 4 0 中的新动态关键字使用接口如 IShellItem 或其他 WinAPI 接口而无需在 C 源代码中定义它们或者至少不定义接口成员我正在尝试类似的事情 const string IShellItemGui
核心音频离线渲染GenericOutput

有人使用 core Audio 成功完成离线渲染吗我必须混合两个音频文件并应用混响使用 2 AudioFilePlayer MultiChannelMixer Reverb2 和 RemoteIO 成功了我可以在预览时保存它在 Re
在c#中搜索支持rar格式的压缩库

我想在我的应用程序中添加功能来解压缩并可选择压缩各种格式的文件我有支持 zip gzip 7zip 和 bzip2 的库但还是没有找到支持rar的库我知道 rar 是商业的但也许有一些 net 库可用于解压缩 rar s 最好是
如何在Javascript中正确使用Jupyter笔记本的kernel.execute方法（计时问题）？

下面是使用 Jupyter Notebook 的 Python 内核从自定义 JavaScript 客户端执行 Python 代码的草稿这是一个相关问题 Jupyter 前端扩展 JavaScript API 的文档在哪里 https s
如何使用NotificationCompat.Builder和startForeground？

简短的问题我正在尝试使用 NotificationCompat Builder 类来创建将用于该服务的通知但由于某种原因我要么看不到该通知要么在该服务应该取消时无法取消它被破坏或停止在前台 my code Override pub
是否可以覆盖material-ui组件的默认道具？

可以说我想要每一个Button组件来自material ui有默认的 propsvariant contained color secondary 这可能吗这方面的文档在这里 https material ui com customiza
jQuery / Javascript - 检测 WooCommerce 商店通知 html 是否可见

我正在寻找一种方法来确定使用 JavaScript jQuery 是否显示 WooCommerce 商店通知商店通知的 HTML 看起来像这样 p class woocommerce store notice demo store sty
Git - 显示远程分支的远程名称

是否有一个 Git 命令可以显示远程分支的远程名称目前我坚持使用 shell utils 从远程分支引用中提取远程名称例如 echo remote name branch name sed r s 1 remote name 有时出于

随机推荐

如何从 JVM 分析和监控 gc.log 垃圾收集器日志文件

我想知道直观分析和监视 java gc log 文件的最佳方法是什么 GCViewer https github com chewiebug GCViewer是迄今为止我发现的最有趣的工具但我想知道是否有更好的或好的解决方案来监视多个远程
Rails 4：为什么字体在生产环境中无法加载？

我无法在生产中的 Rails 4 应用程序中加载字体但它在开发中正常工作资产在部署时在服务器上预编译我的字体在 app assets fonts 我的应用程序 css font face font family WalkwayBold
从 pydev 中的另一个项目导入

我已经四处寻找很长一段时间了但我就是找不到答案类似的问题涉及第三方库等的一些棘手案例但我的情况似乎很简单尽管如此我还是不明白这是如何工作的我正在使用 Eclipse 3 5 2 Pydev 2 2 0 在 Ubuntu 11 0
当记录包含 json 或字符串的混合时，如何防止 Postgres 中的“json 类型的无效输入语法”

我有一个文本列其中包含 JSON 和计划文本我想将其转换为 JSON 然后选择一个特定的属性例如 user data user name jim user name sally some random data string 我试过了
Mockito isA() 和任何...()

有什么区别 verify mock times 1 myMethod Matchers isA String class verify mock times 1 myMethod Matchers anyString 来自 Mockito
在 std::string 中使用自定义分配器来重用已分配的字符缓冲区

我需要在 std string 对象中使用已分配的 char 缓冲区带有字符串内容经过一些研究我发现这几乎是不可能的并且 std string 总是有自己的私有数据副本我能想到的唯一剩下的方法是使用自定义分配器该分配器将返回已分
提交如何从一个文件的日志中消失？

因此我对文件进行了更改将其推送到我们的主存储库并在那里看到了它大卫从那个存储库中取出并做了一些事情但看不到我的改变由于 David 是典型的 Microsoft 受害者因此我要求他将其拥有的内容推回存储库然后我会在那里查看
iOS 应用程序无法在 Testflight Ad Hoc Distribution 上启动

我正在开发一个应用程序当我通过 Xcode 运行它时它可以在我的手机上完美运行但是当我通过 TestFlight 分发测试版时没有用户可以运行它 NOTE 他们可以毫无问题地在手机上安装该应用程序该应用程序在启动前关闭并且 Te
android.permission.BATTERY_STATS 使用情况

我正在探索有关电池的 Android API 选项什么可能性授予许可android permission BATTERY STATS 如果我可以在不声明此类权限的情况下读取电池电量的 android intent action BATTE
Flash 和 Google Drive SDK 无法相互通信

我需要创建一个连接到 Google Drive SDK 的 Flash Web 应用程序来检索公共二进制文件但我面临跨域安全问题我可以使用 javascript 来做到这一点跨站点 xmlhttprequest与 CORS 在 AS3
序列化向量

我正在尝试为我正在开发的游戏实现加载和保存我要保存的是 A char 二维数组矩阵 An ArrayList
Flex网格：左右交替

使用弹性盒我想将一系列 div 垂直放置在包含 div 的下方有些左有些右其中每个 div L 和 R 是容器 div 宽度的 70 L div 必须固定到容器的左侧 R div 必须固定到容器的右侧 L R L L R R R L
Geopandas PostGIS 连接

我最近开始在 python 中使用 Geopandas 进行一些空间工作并且对此非常满意我目前正在尝试阅读 PostGIS 功能但不太了解如何参数化数据库连接而且似乎不清楚在文档中 GeoDataFrame from postgis
为什么将 Visual Studio 解决方案添加到 TFS 时空文件夹会消失？

我有这个 Visual Studio 解决方案其中包含一个项目该项目具有由多个空文件夹组成的模板文件夹树当我使用源代码管理 gt 将解决方案添加到源代码管理菜单项将此解决方案添加到 Team Foundation Server T
隐藏 QLPreviewController 的右键？

我在应用程序中对 QLPreviewController 进行子类化并使用以下代码 QLPreviewControllerSubClass preview QLPreviewControllerSubClass alloc init sel
您可以在创建现有的 mysql 触发器后对其进行修改吗？

In mysql我可以创建一个触发器然后显示有关它的信息如下所示 mysql gt show triggers like fooTrigger 该命令提供的输出看起来非常像 select 语句其中一行显示匹配的触发器是否可以更新它向
通过 Raven Studio 中的 RQL 将额外的列/字段添加到 RavenDB 集合

我试图通过向每个实体添加额外的字段来更新整个集合这doesn t做这件事 from things as t update put id t NewField 有人可以帮忙解决一下语法吗 Thanks Just do from things
如何在VIM中映射CAPS LOCK键？

我在Windows下使用VIM 并希望将 CAPSLOCK 映射到 Ctrl 有办法做到这一点吗顺便说一句我在网上看到了大量如何使用注册表 hack 交换 CAPS 和 Esc 的示例但它们都没有使用 VIM 映射命令而是使用外部工
Slim 框架 - 无法用点解释路由

问题陈述我目前正在开发内部 RESTful API 并使用我们的主域名作为环境标识符然而我注意到 Slim 根本不喜欢其中有点的路线示例案例我有一个使用 PHP 内置 Web 服务器运行的本地 Web 服务器并且我调用了php
读取 Vertex AI Pipelines 中的数据

这是我第一次使用 Google 的 Vertex AI Pipelines 我检查了这个代码实验室 https codelabs developers google com vertex pipelines intro hl en 0也这个

读取 Vertex AI Pipelines 中的数据

读取 Vertex AI Pipelines 中的数据 的相关文章

随机推荐

热门标签

读取 Vertex AI Pipelines 中的数据的相关文章