究竟是什么在管理光束中的水印？

2024-04-08

Beam 的强大功能来自于它先进的窗口功能，但它也有点令人困惑。

在本地测试中看到一些奇怪的情况（我使用rabbitmq作为输入源），其中消息并不总是得到ackd，并修复了不总是关闭的窗口，我开始挖掘 StackOverflow 和 Beam 代码库。

似乎对于何时设置确切的水印存在特定于源的问题：

RabbitMQ 水印不前进：Apache Beam：RabbitMqIO 水印不前进 https://stackoverflow.com/questions/55736593/apache-beam-rabbitmqio-watermark-doesnt-advance
对于低容量，PubSub 水印不会前进：https://issues.apache.org/jira/browse/BEAM-7322 https://issues.apache.org/jira/browse/BEAM-7322
SQS IO 在没有新传入消息的一段时间内不会提前水印 -https://github.com/apache/beam/blob/c2f0d282337f3ae0196a7717712396a5a41fdde1/sdks/java/io/amazon-web-services/src/main/java/org/apache/beam/sdk/io/aws/sqs/SqsIO。 java#L44 https://github.com/apache/beam/blob/c2f0d282337f3ae0196a7717712396a5a41fdde1/sdks/java/io/amazon-web-services/src/main/java/org/apache/beam/sdk/io/aws/sqs/SqsIO.java#L44

（和别的）。此外，似乎还有独立的概念Checkpoints (CheckpointMarks) 与Watermarks.

所以我认为这是一个由多部分组成的问题：

什么代码负责移动水印？它似乎是 Source 和 Runner 的某种组合，但我实际上似乎无法find为了更好地理解它（或根据我们的用例调整它）。这对我来说是一个特殊的问题，因为在流量较低的时期，水印永远不会前进，消息也不会前进ackd
我没有看到太多关于检查点/检查点标记概念的文档（非代码 Beam 文档没有讨论它）。 CheckpointMark 如何与 Watermark 交互（如果有的话）？

每个 PCollection 都有自己的水印。水印表明完成程度那个特定的PCollection是。源对其生成的 PCollection 的水印负责。水印到下游 PCollection 的传播是自动的，无需额外的近似；可以粗略地理解为“输入PCollections和缓冲状态的最小值”。所以在你的情况下，它是RabbitMqIO查看水印问题。我不熟悉这个特定的 IO 连接器，但如果您还没有这样做的话，向用户列表发送错误报告或电子邮件会很好。
检查点是特定于源的数据片段，只要运行程序持久保留该检查点，就可以恢复读取而不会丢失消息。消息 ACK 往往发生在检查点终结中，因为运行程序在知道消息永远不需要重新读取时调用此方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

究竟是什么在管理光束中的水印？的相关文章

如何使用 Beam 读取大型 CSV？

我正在尝试弄清楚如何使用 Apache Beam 读取大型 CSV 文件我所说的大是指几 GB 因此将整个 CSV 一次性读入内存是不切实际的到目前为止我已经尝试了以下选项使用 TextIO read 这不好因为带引号的 CS
Apache Beam 每用户会话窗口未合并

我们有一个有用户的应用程序每个用户每次使用我们的应用程序大约 10 40 分钟我想根据发生的特定事件例如该用户已转换该用户上次会话出现问题该用户上次会话成功在此之后我想计算每天这些更高级别的事件但这是一个单独的问题为此
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板
优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
如何获取当前滑动窗口的最大时间戳

我正在使用 X 大小和 Y 周期的滑动时间窗口为了标记每个窗口的输出我想获取PCollection当前窗口的时间戳 PCollection
Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
Cloud Dataflow 中的作业失败：启用 Dataflow API

我目前正在尝试将 Dataflow 与 Pub Sub 结合使用但收到此错误工作流程失败原因 6e74e8516c0638ca 刷新您的凭据时出现问题请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
Cloud SQL 增量到 BigQuery

我需要针对我正在研究的用例之一提供一些建议使用案例我们在 Cloud SQL 中拥有大约 5 10 个表的数据其中一些被视为查找表另一些则被视为事务性表我们需要将其发送到 BigQuery 以生成 3 4 个表扁平化嵌套或非规
数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

我正在查看 incubator beam 存储库上的 word counting py 示例从数据流文档链接我想修改它以获得n 出现次数最多的这是我的管道 counts lines split gt gt beam ParDo Wor
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件

我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果分片写入 GCS 然后启动 BigQuery 加载作业以导入该数据但是我们注意到无论作业
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案？

根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除有没有办法控制增加数据流 2 1 0 上 DoFns 的并行度当我在 1 9 0 版本的数据流上使用 IntrabundlePa
在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2
写入 BigQuery 时处理卡住

我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中我最近注意到该进程开始消耗所有资源并且消息表明该进程被卡住开始显示 Proc
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da
压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
Dataflow SQL (GCP) 不支持使用 STRUCT 的嵌套行

使用 Dataflow SQL 我想读取 Pub Sub 主题丰富消息并将消息写入 Pub Sub 主题哪个 Dataflow SQL 查询将创建我想要的输出消息 Pub Sub input消息 event timestamp 1619

随机推荐

如何将 SQL Server 时间戳列转换为日期时间格式

当 SQL Server 返回时间戳时 Nov 14 2011 03 12 12 947PM 是否有一些简单的方法可以将字符串转换为日期格式例如 Y m d H i s 到目前为止我使用 date Y m d H i s strtotim
Android TaskStackBuilder 丑陋的过渡

TaskStackBuilder 到底出了什么问题它在开始新活动时使用了这种丑陋的转换 TaskStackBuilder taskStackBuilder TaskStackBuilder create this addParentSta
如何在 ngx bootstrap datepicker 中更改消息“无效日期”而不位于节点模块中

我更改了日期选择器的语言但显示的消息仍然是英语我知道它在 ngx bootstrap chronos locale locale defaults ts 里面它带来了以下信息 export declare const defaultI
如何在 Heroku 上托管 cython Web 应用程序？

目前我正在使用 Cython 并试图弄清楚如何在 heroku 上托管 Cython Flask 应用程序例如假设我的项目如下所示在 cython 编译之后 cythonheroku requirements txt run py
在控制台应用程序下找不到 System.drawing 命名空间

我选择控制台应用程序作为我的 C 项目但似乎在 Windows Form 项目下工作的导入在这里似乎不起作用它说绘图命名空间不存在 using System Drawing using System Drawing Imaging 我的
Python正则表达式分割不带空字符串

我有以下表现出这种模式的文件名 000014 L 20111007T084734 20111008T023142 txt 000014 U 20111007T084734 20111008T023142 txt 我想提取第二个下划线之后的中
按子数组计数降序对多维数组进行排序并保留第一级键

我有一个数组例如 array DEF gt type gt 1 id gt 1212 name gt Jane Doe current gt 1 type gt 1 id gt 3123121 name gt Door current g
警报管理器：缓存清理器停止应用程序

我正在制作一个简单的闹钟应用程序我想在给定时间过去后显示一个活动这是我正在尝试的代码 public void onReceive Context c Intent i Log v XXXX S Toast makeText c S mi
角度材质多选

我正在寻求一些有关使用 Angular Material 7 多重选择的建议该文档对我想做的事情没有多大帮助关于我正在尝试做的事情的一些背景因此我们正在创建一个记录对象作为其中的一部分我们需要知道哪些计划资助了他们 Progra
iframe 内容未在 iOs5 iPad/iPhone 中的滚动下呈现

我正在开发 iPad html5 网页需要显示来自其他来源不同域的页面我正在将这些页面加载到iframe 然后滚动iframe使用iOs5新的滚动能力如下面的代码所示 div style height 1185px width 1
将 2 列与 pandas 中的列表值连接起来（避免重复和 NaN）

我的 pandas 数据框如下 loc 1 loc 2 mumbai gujarat sri lanka chennai UP Goa telangana Kashmir Goa Rajkot NaN Bihar Orissa 我想创建一个
将 Liquibase 扩展与 Maven 结合使用

我正在尝试使用Liquibase Oracle 扩展 http liquibase jira com wiki display CONTRIB Oracle Extensions from maven liquibase 插件 http w
我也可以在客户端使用 Coffeescript 吗？

有没有办法在客户端使用CoffeeScript 有两种方法将 CoffeeScript 编译为 JavaScript 并像部署任何 JavaScript 文件一样部署它或者 Use coffee script js https coff
Xamarin WKWebView 接受自签名证书

我在网上看到过各种例子说明如何接受它们但我总是得到发生 SSL 错误无法与服务器建立安全连接我要注意的是该方法肯定被调用在 iOS 8 4 模拟器和 iOS 11 实际设备上运行因此未调用的方法不是这里的问题到目前为止我已经尝
主要 JavaScript 框架/库列表 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我开始更深入地研究 JavaScript 开发并希望减少时间去探索必须使用哪些工具来完成这项工作我正在寻找一些网站其中所有主要的 J
用于生成唯一链接的 Rails 插件？

我的应用程序中有很多地方需要生成带有唯一标记的链接 foo com g6Ce7sDygw 或其他每个链接可能与一些会话数据相关联并将用户带到一些特定的控制器操作有谁知道有一个 gem 插件可以做到这一点它很容易实现但会更干净无
无法通过 cloudformation yaml 创建 AWS::ECS::Service，模型验证失败

在创建期间AWS ECS Service通过 cloudformation 我收到错误 Model validation failed 该错误与以下内容有关 HealthCheckGracePeriodSeconds和一些其他属性错误详细
generateCertificate() 时出现证书异常

我正在开发我的 Android 应用程序我正在尝试生成X509证书来自我的证书文件流的实例但是得到CertificateException 这是我的简单代码 import java security cert CertificateEx
withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column

我有一个 DataFrame 其中有 6 个字符串列名为 Spclty1 Spclty6 另外 6 个字符串列名为 StartDt1 StartDt6 我想将它们压缩并折叠成如下所示的列 Spclty1 StartDt1 Spclty6
究竟是什么在管理光束中的水印？

Beam 的强大功能来自于它先进的窗口功能但它也有点令人困惑在本地测试中看到一些奇怪的情况我使用rabbitmq作为输入源其中消息并不总是得到ackd 并修复了不总是关闭的窗口我开始挖掘 StackOverflow 和 Beam

究竟是什么在管理光束中的水印？

究竟是什么在管理光束中的水印？ 的相关文章

随机推荐

热门标签

究竟是什么在管理光束中的水印？的相关文章