Apache Flink 检查点卡住

2024-03-10

我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业，并且有时该列表可能会增加到数千。在我们的用例中，每个项目都必须有自己的 TTL，因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每个新项目创建一个新的计时器。

目前大约有 140 多个计时器（将在事件.时间戳 + 40 天).

我们的问题是，作业的检查点突然卡住，或者非常慢（比如几个小时内 1%），直到最终超时。它通常会停止（flink 仪表板显示0/12 (0%)而前面几行显示12/12 (100%)）在一段非常简单的代码上：

[...]
    val myStream = env.addSource(someKafkaConsumer)
      .rebalance
      .map(new CounterMapFunction[ControlGroup]("source.kafkaconsumer"))
      .uid("src_kafka_stream")
      .name("some_name")

      myStream.process(new MonitoringProcessFunction()).uid("monitoring_uuid").name(monitoring_name)
        .getSideOutput(outputTag)
        .keyBy(_.name)
        .addSink(sink)
[...]

更多信息：

AT_LEAST_ONCE 检查点模式似乎比 EXACTLY_ONCE 更容易卡住
几个月前，状态数据达到 1.5TB，我认为数十亿个计时器没有任何问题。
运行两个任务管理器的计算机上的 RAM、CPU 和网络看起来正常
state.backend.rocksdb.thread.num = 4
第一个事件发生在我们收到大量事件（大约几分钟内数百万个）但不是前一个事件的时候。
所有事件都来自 Kafka 主题。
当处于 AT_LEAST_ONCE 检查点模式时，作业仍然正常运行和消耗。

这是我们第二次遇到这样的情况：拓扑运行得非常好，每天有几百万个事件，但突然停止了检查点。我们不知道是什么导致了这种情况。

任何人都可以想到什么可能会突然导致检查点卡住？

一些想法：

如果您有许多计时器或多或少同时触发，那么计时器的风暴将阻止其他任何事情发生——任务将循环调用 onTimer 直到没有更多的计时器被触发，在此期间它们的输入队列将被被忽略，检查点障碍将不会进展。

如果这是您遇到麻烦的原因，您可以向计时器添加一些随机抖动，以便事件风暴以后不会变成计时器风暴。重新组织要使用的东西状态生存时间 https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/state/state.html#state-time-to-live-ttl可能是另一种选择。

如果堆上有很多计时器，这可能会导致非常高的 GC 开销。这不一定会使工作失败，但可能会使检查点不稳定。在这种情况下，将计时器移至 RocksDB 中可能会有所帮助。

另外：由于您使用的是 RocksDB，从 ListState 切换到 MapState，以时间为键，可以让您删除单个条目，而无需在每次更新后重新序列化整个列表。（使用 RocksDB，MapState 中的每个键/值对都是一个单独的 RocksDB 对象。）以这种方式提高清理效率可能是最好的补救措施。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Flink 检查点卡住的相关文章

logback 在 Flink 中不起作用

我有一个单节点 Flink 实例它在 lib 文件夹中具有 logback 所需的 jar logback classic jar logback core jar log4j over slf4j jar 我已从 lib 文件夹中删除了
根据 Flink 的模式使用 GCS 文件

由于 Flink 支持 Hadoop 文件系统抽象并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的
无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量

我使用以下代码引用 Kafka 源连接器的 Flink 1 14 版本我期待以下要求在应用程序刚开始时必须读取 Kafka 主题的最新偏移量在检查点上它必须将消耗的偏移量提交给 Kafka 重新启动后当应用程序手动终止系统错误时
如何判断 Apache Flink 运行在哪个端口？

我安装了 apache flink 转到flink 1 14 3文件夹并运行 bin start cluster sh 它似乎已成功启动集群因为它输出了以下内容 Starting cluster Starting standalonese
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
Apache Flink 1.3 中的 Elasticsearch 5 连接器

通过阅读文档我了解到使用 Apache Flink 1 3 我应该能够使用 Elasticsearch 5 x 但是在我的 pom xml 中
如何在其他流的基础上过滤Apache flink流？

我有两个流一个是 Int 另一个是 json 在 json Schema 中有一个键是一些 int 所以我需要通过与另一个整数流的键比较来过滤 json 流那么在 Flink 中是否可能是的您可以使用 Flink 进行这种流处理
Flink 中的水印和触发器有什么区别？

我读到排序运算符必须缓冲它接收到的所有元素然后当它接收到水印时它可以对时间戳低于水印的所有元素进行排序并按排序顺序发出它们这是正确因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
flink kafka生产者在检查点恢复时以一次模式发送重复消息

我正在写一个案例来测试 flink 两步提交下面是概述 sink kafka曾经是kafka生产者 sink stepmysql接收器是否扩展two step commit sink comparemysql接收器是否扩展two step
Flink 日志记录限制：如何将日志记录配置传递给 Flink 作业

我有一个 flink 作业它使用 logback 作为日志记录框架因为日志需要发送到logstash 而 logback 有一个 logstash 附加程序 Logstash logback appender Appender 工作正常
Apache Beam 计数器/指标在 Flink WebUI 中不可用

我正在使用 Flink 1 4 1 和 Beam 2 3 0 并且想知道是否可以在 Flink WebUI 或任何地方中提供可用的指标如 Dataflow WebUI 中那样我用过类似的计数器 import org apache be
Python + Beam + Flink

我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起使用但我似乎找不到一套完整的指令来让环境正常工作是否有任何参考资料包含使简单的 python 管道正常工作的先决条件和步骤的完整列表
Flink CEP：对于不同类型的事件，使用哪种方法加入数据流？

假设我有两种不同类型的数据流一种提供天气数据另一种提供车辆数据我想使用 Flink 对数据进行复杂的事件处理 Flink 1 3 x 中哪种方法是正确的使用方法我看到了不同的方法如 Union Connect Window Joi
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
ROCKSDB 由于rocksdb_max_row_locks 无法获取锁

我尝试将 CSV 加载到 Rocksdb 数据库中但失败并显示以下错误 Got error 10 Operation aborted Failed to acquire lock due to rocksdb max row locks
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
尝试升级到 flink 1.3.1 时出现异常

我尝试将集群中的 flink 版本升级到 1 3 1 以及 1 3 2 但我的任务管理器中出现以下异常 2018 02 28 12 57 27 120 ERROR org apache flink streaming runtime tas
flink - 使用匕首注入 - 不可序列化？

我使用 Flink 最新通过 git 从 kafka 流式传输到 cassandra 为了简化单元测试我通过 Dagger 添加依赖注入 ObjectGraph 似乎已正确设置自身但内部对象被 Flink 标记为不可序列化如果我
Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我

随机推荐

如何删除谷歌表格中带有标题的空列？

我有下面的代码可以帮助我删除右端的所有空列但我在工作表之间也有空列并且所有这些空列都带有标题我想删除带标题的空列有人可以帮助我吗 function removeEmptyColumns var ss SpreadsheetApp g
使用 f:param 传递参数时 f:ajax 不起作用

我正在单击链接时调用一个方法以下代码可以使用ajax方式工作
如何使用 Grafana 和 Wamp 的 LDAP 身份验证进行单点登录？

我正在尝试使用 LDAP 为 grafana 添加单点登录我遇到过LDAP 的 Grafana 文档 http docs grafana org installation ldap 但我不明白我可以使用 LDAP 获得单点登录功能吗如
使用 VSIX 部署包含项目模板 IWizard 的程序集

我已经为 VS 2010 创建了一个部署项目模板的扩展项目模板使用自定义向导在特定程序集中当我基于此模板创建新项目时会调用该向导我想将包含向导的程序集打包在 VSIX 中以便将其部署到模板可以找到它的地方我知道 GAC 不是 V
转换集合

有一个对象的集合示意图 A 1 B 1 A 1 B 2 A 2 B 3 A 2 B 4 A 1 B 5 A 3 B 6 Need A 1 Bs 1 2 A 2 Bs 3 4 A 1 Bs 5 A 3 Bs 6 可以这样 LINQ 吗 No
UITextView 触摸事件未触发

我有一个UITextView我想检测一次点击看起来我只需覆盖就可以了touchesEnded withEvent并检查 touches anyObject tapCount 1 但是这个事件甚至没有触发如果我像这样重写 4 个事件 vo
如何修复：预期具体生命周期，但发现绑定生命周期参数

我目前正在听这个问题我试图将其缩小到最小的可重现示例 struct Request struct ResponseWriter lt a gt dummy a deriving Clone pub struct RouteStore pu
为什么 MIPS 中 bgezal 和 bltzal 是基本指令而不是伪指令？

根据这个MIPS指令参考 http www weblearn hs bremen de risse RST docs MIPS mips isa pdf 有两条指令 bgezal and bltzal 如果分支被采用则执行相对跳转和链接
更改 .NET 应用程序配置文件名

我有一个调用 NET 程序集的 VB6 应用程序该程序集引用 app config 文件中的设置默认情况下 NET 查找以 VB6 应用程序命名的配置文件如何将其重定向以使用不同的配置文件名这需要成为默认配置文件以便例如从中读取
如何从apache Spark框架读取XML文件？

我确实在这里遇到了一个使用 Spark 进行数据预处理的迷你教程 http ampcamp berkeley edu big data mini course featurization html http ampcamp berkeley
如何在 pandas 中旋转分类变量？

如何透视这些数据 date low up d1 a A d1 b B d2 c C 进入这个 low a b c date d1 A B NaN d2 NaN NaN C 我正在使用pivot table pivot 但它总是要求输入数字
矩阵的边界值问题

问题我需要将 P 矩阵的每个元素限制在 1 1 范围内我已经使用了代码最小最大检查 http www mathworks in matlabcentral fileexchange 43251 bound values of an ar
向 scatter3d 图添加图例

rgl 是交互式 3D 绘图的可能软件包之一我想做的是根据一些因子变量构建带有颜色编码的 3D 散点图 3D 维度散点图用于 plsr 分析产生的载荷结果图看起来像 The 示例数据在表中给出 gt loadings Comp 1 Co
如果我尝试打开 PWM 引脚，Windows 10 Iot Core 应用程序会崩溃

我想为我的蜂鸣器打开一个 PWM 引脚但如果我尝试打电话给pwmController OpenPin 6 方法应用程序崩溃并显示System Runtime InteropServices SEHException 我已经仔细检查过示例
尝试复制大文件时出现 NIO 错误

我有将文件复制到另一个位置的代码 public static void copyFile String sourceDest String newDest throws IOException File sourceFile new Fil
如何获取终端结果并设置 JTextArea 来读取终端？

我最近完成了一个 GUI 用户可以在其中输入标准并获得符合所述条件的结果该程序的工作结果明智但我无法让我的 GUI 中的文本字段读取我的终端窗口结果我的 GUI 代码如下 package project205 import java
iOS 静默推送通知仅在连接到 xcode 时有效

我有一个奇怪的问题我最近将 Xcode 更新到 6 1 1 以对我之前使用 Xcode 5 发布的应用程序进行更改运行良好现在由于某种原因当我使用新的 Xcode 测试后台静默推送通知时它只有在我的 iPhone 连接到 Mac
在 Dart 中合并两个对象列表

我有具有参数名称和参数计数器的对象这些对象存储在列表中我的列表中的某些项目具有重复的参数名称我想删除列表内的重复项并将该重复项的计数器添加到重复对象参数中 class Person Person this name this co
对于大输入返回负数的阶乘函数

我的阶乘函数似乎适用于 1 到 6 之间的数字但不适用于大于 6 的数字例如从 21 开始结果是否定的我不明白为什么这是我的功能 factorial Int gt Int factorial 0 1 factorial 1 1 f
Apache Flink 检查点卡住

我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业并且有时该列表可能会增加到数千在我们的用例中每个项目都必须有自己的 TTL 因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每

Apache Flink 检查点卡住

Apache Flink 检查点卡住 的相关文章

随机推荐

热门标签

Apache Flink 检查点卡住的相关文章