Apache Beam：具有无限源的批处理管道

2024-05-04

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据。数据来自Google PubSub，它是无限制的，所以目前我正在使用流媒体管道。然而，事实证明，拥有一个 24/7 运行的流管道是相当昂贵的。为了降低成本，我正在考虑切换到以固定时间间隔（例如每 30 分钟）运行的批处理管道，因为对于用户来说实时处理并不重要。

我想知道是否可以使用 PubSub 订阅作为有限源？我的想法是，每次运行作业时，都会在触发之前积累1分钟的数据。到目前为止，这似乎不可能，但我遇到过一个名为BoundedReadFromUnboundedSource https://beam.apache.org/documentation/sdks/javadoc/2.2.0/org/apache/beam/sdk/io/BoundedReadFromUnboundedSource.html（我不知道如何使用），所以也许有办法吗？

下面是源的大致样子：

PCollection<MyData> data = pipeline
            .apply("ReadData", PubsubIO
                    .readMessagesWithAttributes()
                    .fromSubscription(options.getInput()))
            .apply("ParseData", ParDo.of(new ParseMyDataFn()))
            .apply("Window", Window
                    .<MyData>into(new GlobalWindows())
                    .triggering(Repeatedly
                            .forever(AfterProcessingTime
                                    .pastFirstElementInPane()
                                    .plusDelayOf(Duration.standardSeconds(5))
                            )
                    )
                    .withAllowedLateness(Duration.ZERO).discardingFiredPanes()
            );

我尝试执行以下操作，但作业仍然以流模式运行：

PCollection<MyData> data = pipeline
            .apply("ReadData", PubsubIO
                    .readMessagesWithAttributes()
                    .fromSubscription(options.getInput()))
            .apply("ParseData", ParDo.of(new ParseMyDataFn()))

            // Is there a way to make the window trigger once and turning it into a bounded source?
            .apply("Window", Window
                    .<MyData>into(new GlobalWindows())
                    .triggering(AfterProcessingTime
                        .pastFirstElementInPane()
                        .plusDelayOf(Duration.standardMinutes(1))
                    )
                    .withAllowedLateness(Duration.ZERO).discardingFiredPanes()
            );

这在中没有明确支持PubsubIO目前，您可以尝试定期启动流作业并在几分钟后以编程方式调用 Drain。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

Apache Beam：具有无限源的批处理管道的相关文章

优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

我有一个 DataFlow 管道尝试构建索引键值对并计算一些指标例如每个键的值数量输入数据总计约 60 GB 存储在 GCS 上管道分配了约 126 个工作线程根据 Stackdriver 所有工作线程的 CPU 利用率约为 6
如何停止谷歌云数据流中的流管道

我有一个正在运行的流数据流来读取 PUB SUB 订阅一段时间后或者可能是在处理一定量的数据后我希望管道自行停止我不希望我的计算引擎实例无限期地运行当我通过数据流控制台取消作业时它显示为失败的作业有办法实现这一点吗我错过了什么
数据流中的值错误：GCS 位置无效：无

我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow
使用 Apache Beam 查找 2 个列表的笛卡尔积

我有2个PCollections PCollection
Google Cloud Dataflow (Python)：读取和写入 .csv 文件的函数？

我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件或任何非 txt 文件的精确函数对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc
Cloud Dataflow 中的作业失败：启用 Dataflow API

我目前正在尝试将 Dataflow 与 Pub Sub 结合使用但收到此错误工作流程失败原因 6e74e8516c0638ca 刷新您的凭据时出现问题请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

在我的项目中我希望在 Google Dataflow 中使用流式传输管道来处理 Pub Sub 消息在清理输入数据时我还希望获得来自 BigQuery 的侧面输入这提出了一个问题将导致两个输入之一无法工作我在管道选项中设置了st
旁加载静态数据

在 ParDo 中处理数据时我需要使用存储在 Google Cloud Storage 上的 JSON 架构我想这可能是侧面加载我读了他们称之为文档的页面 https beam apache org releases pydoc 2
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1
在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件

我是云数据流和 Java 的新手所以我希望这是正确的问题我有一个 csv 文件其中有 n 个列和行可以是字符串整数或时间戳我需要为每一列创建一个新的 PCollection 吗我在示例中找到的大多数文档都类似于 PCollec
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差
bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

当我远程运行数据管道时会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的并且我在 Google Cloud Dataflow 之上运行它当我在本地运行时管道工作正常以下代码生成 Pi
如何在欧洲使用 Cloud Dataflow 区域终端节点？

是否可以将 Google Cloud Platform Dataflow 作业的区域更改为欧洲我已将管道区域设置为europe west1 d但我无法更改工作本身的区域我尝试更改管道选项中的区域但这会导致错误并且只有默认区域有效 p

随机推荐

3D 数组如何在 C 中存储？

据我所知 C 中的数组是按行优先顺序分配的因此对于 2 x 3 数组 0 1 2 3 4 5 存储在内存中为 0 1 2 3 4 5 但是如果我有一个 2 x 3 x 2 数组怎么办 0 1 2 3 4 5 and 6 7 8 9 1
从左到右显示 SVG 动画

我有两个 SVG 图像我想将它们设置为动画如下所示首先显示Full Screen文本从左到右然后用第二个 SVG 覆盖该单词Screen显示整个第二个 SVG 因此最后我将得到第二个 svg 中的单词 Full 黑色空间以及单词
CSS位置绝对和全宽问题

我想改变 dl 下面占据全屏宽度而不更改换行和包含它的标题元素当我尝试定位 dl 元素参见 problematic code 部分下面导航获取最大宽度为 1003px 的包装器的 100 我希望它在不改变换行和标题 div 的情况下
Unity-3d-5 将 16:9 的图像缩放至其他分辨率

所以我创建了一个蛇游戏其边框是用 2d 精灵创建的我将游戏窗口设置为 16 9 在此分辨率下图像看起来不错然而扩展到其他任何东西开始让游戏看起来很奇怪我想要调整游戏窗口的大小如何让我的精灵根据当前分辨率拉伸和收缩我已经尝试创建
VS Code 和 Flutter/Dart，小部件自动完成功能不起作用

我正在使用一些教程来学习 Flutter 而我现在正在学习的教程则使用 VSCode 事实上与 Android Studio 相比我更喜欢它因为它不会使我的 Macbook 过热到目前为止我唯一感到沮丧的是有很多次自动完成功能停
使用 Java 中的 JTextfield (Netbeans) 使用点分隔符使输入字段自动格式化数字

我是 Java 新手在我的第一个 Java 程序使用 Netbeans 中我想添加带有点的输入字段自动格式编号使用 JTextfield 分隔符这是我的简短代码 private void PayTransKeyReleased
私有子网中的EKS，公共子网中的负载均衡器

我在私有子网中运行 EKS 因此无法创建面向互联网的负载均衡器但能够创建内部负载均衡器有什么方法可以在公共子网中创建负载均衡器可能是手动并指向私有子网中 EKS 中运行的 Pod 我正在考虑创建负载均衡器链其中外部负载均衡器将指向
是否可以从父线程访问/更新子线程的资源？

我正在用 C 语言进行套接字编程并且对多线程完全陌生这是我的场景我需要一个父线程从套接字读取数据可以说并将其排队到其子线程的队列中这里的问题是如何更新子线程的队列具体来自父线程支持多个生产者和消费者的线程安全队列 MtQu
mongodb 安装 - 要求？

有人知道在 mongo 上安装标准 ubuntu 需要多少磁盘空间和内存吗试图找出我的 VPS 需求没有最低要求但我不建议在与网络服务器相同的机器上运行 Mongo MongoDB 自动使用机器上的所有空闲内存作为其缓存 http d
RuntimeException 内容具有 id 属性“android.R.id.list_container”的视图，该视图不是 ViewGroup 类

我仅在使用 Android 5 0 1 的华为设备上遇到此异常 Fatal Exception java lang RuntimeException Unable to start activity ComponentInfo net ex
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
跳过痛苦的 Core Data 迁移并迁移到新的数据模型

当我什至不关心旧数据时我花费了大量时间将核心数据整理到新的迁移中有没有一种方法可以删除所有现有数据并跳转到新的数据模型而不是每次更改数据模型时都处理映射模型的麻烦是的只需删除商店文件并重新创建即可我经常至少在开发过程中让我的
PrimeFaces 扩展 - 空值属性

在我的页面上我有
在发生自调整大小之前，如何准确地为 UICollectionViewLayout 提供矩形中的元素？

我在用着UICollectionView构建可以在网格或垂直列表布局中显示元素的 UI UICollectionViewFlowLayout不能很好地适应全角列表布局所以我正在编写自己的UICollectionViewLayout子类并
如何在 Mac 上的 Safari 中删除所选元素的光泽？

在 Mac 和 iOS 设备上的 Safari 中
如何使用 ClickOnce 安装 COM

我已经安装了使用 TeeChart ActiveX COM 使用 ClickOnce 绘制图表的组件如果我使用 regsvr32 teechart8 ocx 手动注册 TeeChart 我的应用程序工作正常但我想要并且需要使用安装应用
节点 --experimental-modules，请求的模块不提供名为的导出

我已经安装了 Node 8 9 1 v10 5 0 中也出现同样的问题我正在尝试在文件中使用来自 npm 包的命名导入 mjs import throttle from lodash I run node experimental mod
数组中的唯一条目

我有以下内容将前 10 个 URL 存储到会话中 function curPageURL pageURL http if SERVER HTTPS on pageURL s pageURL if SERVER SERVER PORT 80
字节码相对于本机代码有哪些优点？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降

Apache Beam：具有无限源的批处理管道

Apache Beam：具有无限源的批处理管道 的相关文章

随机推荐

热门标签

Apache Beam：具有无限源的批处理管道的相关文章