Google Cloud Dataprep 可以监控新文件的 GCS 路径吗?

2024-02-10

Google Cloud Dataprep 看起来很棒,我们已经用它来手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中看不到它将如何处理新文件。

这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。


对此的进一步更新。自从我的问题aDataprep 新版本 https://cloud.google.com/dataprep/docs/release-notes2018 年 1 月 23 日的更新包括独立于 Dataprep 重新运行数据流作业的能力。

当您执行 Dataprep 作业时,它将生成一个 Dataflow 模板,您可以使用该模板在将来手动触发作业,并且它允许传入某些参数。

能够触发新文件的步骤(请注意这是测试版,因此 Google 可能会更改具体流程):

  1. 创建您的流程并运行相关流程/配方。手动迭代/重复,直到获得您想要的食谱。当您高兴地运行时,再次运行作业(应该是附加数据而不是替换的作业,因为您可能想要附加新内容)。取消选中“配置文件结果”(新功能)以减少开销可能是个好主意,因为这将是一项可重复的工作。
  2. 完成后,转到职位详细信息页面并单击导出结果按钮,您应该会看到数据流模板的链接。复制文本。请注意,数据流模板路径仅适用于执行的作业2018 年 1 月 23 日发布后因为这是一个新功能。
  3. 然后,您可以通过转到 DataFlow 并选择来了解如何触发数据流作业从模板创建作业,选择Custom模板并粘贴到模板路径中。在那里您将看到可以提供的参数,例如 GCS 输入路径
  4. 编写一个由 GCS 写入触发的 Google Cloud 函数,并使用事件的详细信息按照上面的步骤 (3) 使用您的文件路径执行模板。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Google Cloud Dataprep 可以监控新文件的 GCS 路径吗? 的相关文章

随机推荐