无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

2024-02-29

我有两个独立的管道，分别为“P1”和“P2”。根据我的要求，我只需要在 P1 完全完成执行后才运行 P2。我需要通过一个模板完成整个操作。

基本上，模板在找到 run() 方式（即 p1.run()）时就被创建。

所以我可以看到，我需要使用两个不同的模板处理两个不同的管道，但这不能满足我严格的基于顺序的管道执行要求。

我可以想到的另一种打电话方式p1.run()在 ParDo 内p2.run()并保持 p2 的 run() 等待，直到 p1 的 run() 完成。我尝试了这种方法，但陷入了下面给出的 IllegalArgumentException 。

java.io.NotSerializedException：PipelineOptions 对象不可序列化，不应嵌入到转换中（您是否在字段或匿名类中捕获了 PipelineOptions 对象？）。相反，如果您使用 DoFn，请在运行时通过 ProcessContext/StartBundleContext/FinishBundleContext.getPipelineOptions() 访问 PipelineOptions，或者在管道构建时从 PipelineOptions 中预先提取必要的字段。

是否根本不可能在任何转换（例如另一个管道的“Pardo”）内调用管道的 run() ？

如果是这种情况，那么如何通过创建单个模板来满足我按顺序调用两个不同管道的要求？

一个模板只能包含一个管道。为了按顺序执行两个单独的管道（每个管道都是一个模板），您需要在外部安排它们，例如通过一些工作流程管理系统（例如 Anuj 提到的，或 Airflow，或其他东西 - 你可能会从中汲取一些灵感这个帖子 https://cloud.google.com/blog/big-data/2016/04/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions例如）。

我们意识到需要在单个管道中对 Beam 中的原语进行更好的排序，但还没有具体的设计。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道的相关文章

google cloud dataflow (apache beam)可以使用ffmpeg来处理视频或图像数据吗

数据流进程可以使用 ffmpeg 处理视频或图像吗如果可以示例工作流程会是什么样子是的您可以使用以下命令确保工作人员可以使用必要的二进制文件及其依赖项 filesToStage 管道选项 https cloud google co
Apache Beam - Bigquery 流插入显示 RuntimeException：ManagedChannel 分配站点

我正在 Google Dataflow 中运行流式 Apache Beam 管道它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中它抛出了大量警告 java lang RuntimeEx
优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
使用 Google Cloud DataFlow python sdk 读取一组 xml 文件

我正在尝试从 GCS 存储桶读取 XML 文件的集合并处理它们其中集合中的每个元素都是代表整个文件的字符串但我找不到关于如何完成此操作的合适示例我也无法理解它来自 Apache Beam 文档主要是关于 Java 版本的我当前的管
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
使用airflow的DataflowPythonOperator安排数据流作业时出错

我正在尝试使用airflow 的DataflowPythonOperator 来安排数据流作业这是我的 dag 运算符 test DataFlowPythonOperator task id my task py file path my
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
窗口后 Apache-beam 挂在 groupbykey 上 - 不触发

TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道目标是从压缩文件中读取只需一个进程并以流式传输方式因为该文件不适合 RAM 并行处理每个元素 ParDo
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案？

根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除有没有办法控制增加数据流 2 1 0 上 DoFns 的并行度当我在 1 9 0 版本的数据流上使用 IntrabundlePa
如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID？

我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息并写入 Google Big Query 表作为此操作的一部分我尝试使用 P
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl

随机推荐

SwiftUI 简化许多文本字段的 .onChange 修饰符

我正在寻找一种方法来简化重构 SwiftUI 中添加 onChange of 具有许多文本字段的视图如果解决方案简洁我也会移动修饰符更接近适当的字段而不是位于 ScrollView 的末尾在这个在这种情况下所有 onChan
NuxtJS 上的 ESLint 和 Prettier 冲突

当我创建一个新的 Nuxt js 项目时我遇到了 ESLint 和 Prettier 的一个非常令人筋疲力尽的问题如果我节省这个 vue文件中 Prettier 尝试修复它但 ESLint 阻止它这样做所以我无法删除这方面的错误
拖动进入时突出显示按钮

刚刚开始探索iOS SDK 我有一些按钮需要突出显示它们触摸一次然后拖动据我了解当您单击按钮然后拖动到外部然后再次拖动到内部时会触发 TouchDragEnter 事件当您单击按钮外部然后拖动到内部时是否会触发任何事件亚历山
数据注释、IDataErrorInfo 和 MVVM

我正在尝试找到验证 MVVM 中数据的最佳方法目前我正在尝试使用 MVVM 模式将 IDataErrorInfo 与数据注释结合使用然而似乎没有任何作用我不确定我可能做错了什么我有这样的东西 Model public class
使用 numpy/scipy 的快速 B 样条算法

我需要在 python 中计算 bspline 曲线我研究了 scipy interpolate splprep 和其他一些 scipy 模块但找不到任何可以轻松满足我需要的东西所以我在下面编写了自己的模块代码运行良好但速度很慢
如何保护 web.config 中存储的密码的安全？

我在 web config 文件中添加了以下设置以启动对外部系统的 API 调用因此我存储 API URL 用户名密码如下所示
包含 MySQL 查询结果中未找到的值

我有以下 MySQL 表 tbl pet owners id name pet city date adopted 1 jane cat Boston 2017 07 11 2 jane dog Boston 2017 07 11 3 ja
cygwin中如何杀死进程？

您好我有以下无法杀死的进程我在 windows xp 32 位中运行 cygwin 我尝试发出以下命令 bin kill f 4760 bin kill 9 5000 kill 9 5000 kill 5000 当我写 bin kill
如何在 .net 中获取可用的 wifi AP 及其信号强度？

有没有办法使用 NET 访问所有 WiFi 接入点及其各自的 RSSI 值如果我可以在不使用非托管代码的情况下完成它那就太好了或者如果它可以在 Mono 和 NET 中工作那就更好了如果可能的话我将不胜感激代码示例谢谢以下是
使用隐藏代码的 nbextensions 时查找并转到文本

这是来自的重复this https stackoverflow com questions 530245473年前的问题目前还没有令人满意的解决方案问题是在使用 nbextensions 时在 Jupyter Notebook 的所有
虚拟机上奇怪的程序延迟行为

我编写了一个程序来读取 256KB 数组以获得 1 毫秒的延迟该程序非常简单并附带然而当我在Xen上的VM上运行它时我发现延迟不稳定它具有以下模式时间单位是ms totalCycle CyclePerLine totalms 2
使用 MySQLi 插入 NULL 而不是空值

我有一个带有一些可选字段的表单在数据库中这些字段设置为接受 NULL 如果某些字段为空下面的代码将引发错误您能帮忙看看避免这种情况的最佳方法是什么吗我想到的唯一解决方案是将变量设置为 if isempty query INSERT
从无符号整数中减去有符号整数[重复]

这个问题在这里已经有答案了 unsigned int value 1860 int data 1300 if data value gt 0 printf Why it is printing this 输出为什么打印这个我不明白为什么
linux gcc 链接器与 C 程序的问题

我正在尝试编译一个包含 c 文件标头的 C 程序但只有 1 个 c 文件真正使用了头文件中定义的变量这是一些会产生链接器问题的示例代码我试图让我的头文件包含 2 使用的全局变量不同的 c 文件任何类型的帮助将不胜感激谢谢 tmp
directX 创建交换链

在我的书中我编写了创建交换链的代码 IDXGIDevice dxgiDevice 0 mD3dDevice gt QueryInterface uuidof IDXGIDevice void dxgiDevice IDXGIAdapter
modelBuilder.IncludeMetadataInDatabase 在 EF CTP5 中的位置在哪里？

使用 CTP4 我曾经能够执行以下操作如由 ptrandem 建议 https stackoverflow com questions 3600672 entity framework ctp4 code first how to tur
Google Cloud Run 屏蔽授权标头中的承载令牌

Cloud Run 的 Google 文档指出您可以从授权标头中提取令牌文档在这里 https cloud google com run docs authenticating end users getting user profi
字符串数组中的随机元素[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个字符串数组 String f
Heroku 上的 .Net Core 和 Docker

Context 我正在尝试部署一个ASPNET核心示例应用程序上Heroku https heroku com 与 docker 但不工作 repo https github com mykeels sample web api https
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板

无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道 的相关文章

随机推荐

热门标签

无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道的相关文章