Apache Flink 检查点卡住

2024-03-10

我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业,并且有时该列表可能会增加到数千。在我们的用例中,每个项目都必须有自己的 TTL,因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每个新项目创建一个新的计时器。

目前大约有 140 多个计时器(将在事件.时间戳 + 40 天).

我们的问题是,作业的检查点突然卡住,或者非常慢(比如几个小时内 1%),直到最终超时。它通常会停止(flink 仪表板显示0/12 (0%)而前面几行显示12/12 (100%))在一段非常简单的代码上:

[...]
    val myStream = env.addSource(someKafkaConsumer)
      .rebalance
      .map(new CounterMapFunction[ControlGroup]("source.kafkaconsumer"))
      .uid("src_kafka_stream")
      .name("some_name")

      myStream.process(new MonitoringProcessFunction()).uid("monitoring_uuid").name(monitoring_name)
        .getSideOutput(outputTag)
        .keyBy(_.name)
        .addSink(sink)
[...]

更多信息:

  • AT_LEAST_ONCE 检查点模式似乎比 EXACTLY_ONCE 更容易卡住
  • 几个月前,状态数据达到 1.5TB,我认为数十亿个计时器没有任何问题。
  • 运行两个任务管理器的计算机上的 RAM、CPU 和网络看起来正常
  • state.backend.rocksdb.thread.num = 4
  • 第一个事件发生在我们收到大量事件(大约几分钟内数百万个)但不是前一个事件的时候。
  • 所有事件都来自 Kafka 主题。
  • 当处于 AT_LEAST_ONCE 检查点模式时,作业仍然正常运行和消耗。

这是我们第二次遇到这样的情况:拓扑运行得非常好,每天有几百万个事件,但突然停止了检查点。我们不知道是什么导致了这种情况。

任何人都可以想到什么可能会突然导致检查点卡住?


一些想法:

如果您有许多计时器或多或少同时触发,那么计时器的风暴将阻止其他任何事情发生——任务将循环调用 onTimer 直到没有更多的计时器被触发,在此期间它们的输入队列将被被忽略,检查点障碍将不会进展。

如果这是您遇到麻烦的原因,您可以向计时器添加一些随机抖动,以便事件风暴以后不会变成计时器风暴。重新组织要使用的东西状态生存时间 https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/state/state.html#state-time-to-live-ttl可能是另一种选择。

如果堆上有很多计时器,这可能会导致非常高的 GC 开销。这不一定会使工作失败,但可能会使检查点不稳定。在这种情况下,将计时器移至 RocksDB 中可能会有所帮助。

另外:由于您使用的是 RocksDB,从 ListState 切换到 MapState,以时间为键,可以让您删除单个条目,而无需在每次更新后重新序列化整个列表。 (使用 RocksDB,MapState 中的每个键/值对都是一个单独的 RocksDB 对象。)以这种方式提高清理效率可能是最好的补救措施。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Flink 检查点卡住 的相关文章

随机推荐

  • 如何删除谷歌表格中带有标题的空列?

    我有下面的代码可以帮助我删除右端的所有空列 但我在工作表之间也有空列 并且所有这些空列都带有标题 我想删除带标题的空列 有人可以帮助我吗 function removeEmptyColumns var ss SpreadsheetApp g
  • 使用 f:param 传递参数时 f:ajax 不起作用

    我正在单击链接时调用一个方法 以下代码可以使用ajax方式工作
  • 如何使用 Grafana 和 Wamp 的 LDAP 身份验证进行单点登录?

    我正在尝试使用 LDAP 为 grafana 添加单点登录 我遇到过LDAP 的 Grafana 文档 http docs grafana org installation ldap 但我不明白 我可以使用 LDAP 获得单点登录功能吗 如
  • 使用 VSIX 部署包含项目模板 IWizard 的程序集

    我已经为 VS 2010 创建了一个部署项目模板的扩展 项目模板使用自定义向导 在特定程序集中 当我基于此模板创建新项目时会调用该向导 我想将包含向导的程序集打包在 VSIX 中 以便将其部署到模板可以找到它的地方 我知道 GAC 不是 V
  • 转换集合

    有一个对象的集合 示意图 A 1 B 1 A 1 B 2 A 2 B 3 A 2 B 4 A 1 B 5 A 3 B 6 Need A 1 Bs 1 2 A 2 Bs 3 4 A 1 Bs 5 A 3 Bs 6 可以这样 LINQ 吗 No
  • UITextView 触摸事件未触发

    我有一个UITextView我想检测一次点击 看起来我只需覆盖就可以了touchesEnded withEvent并检查 touches anyObject tapCount 1 但是这个事件甚至没有触发 如果我像这样重写 4 个事件 vo
  • 如何修复:预期具体生命周期,但发现绑定生命周期参数

    我目前正在听这个问题 我试图将其缩小到最小的可重现示例 struct Request struct ResponseWriter lt a gt dummy a deriving Clone pub struct RouteStore pu
  • 为什么 MIPS 中 bgezal 和 bltzal 是基本指令而不是伪指令?

    根据这个MIPS指令参考 http www weblearn hs bremen de risse RST docs MIPS mips isa pdf 有两条指令 bgezal and bltzal 如果分支被采用 则执行相对跳转和链接
  • 更改 .NET 应用程序配置文件名

    我有一个调用 NET 程序集的 VB6 应用程序 该程序集引用 app config 文件中的设置 默认情况下 NET 查找以 VB6 应用程序命名的配置文件 如何将其重定向以使用不同的配置文件名 这需要成为默认配置文件 以便例如从中读取
  • 如何从apache Spark框架读取XML文件?

    我确实在这里遇到了一个使用 Spark 进行数据预处理的迷你教程 http ampcamp berkeley edu big data mini course featurization html http ampcamp berkeley
  • 如何在 pandas 中旋转分类变量?

    如何透视这些数据 date low up d1 a A d1 b B d2 c C 进入这个 low a b c date d1 A B NaN d2 NaN NaN C 我正在使用pivot table pivot 但它总是要求输入数字
  • 矩阵的边界值问题

    问题 我需要将 P 矩阵的每个元素限制在 1 1 范围内 我已经使用了代码最小最大检查 http www mathworks in matlabcentral fileexchange 43251 bound values of an ar
  • 向 scatter3d 图添加图例

    rgl 是交互式 3D 绘图的可能软件包之一 我想做的是根据一些因子变量构建带有颜色编码的 3D 散点图 3D 维度散点图用于 plsr 分析产生的载荷 结果图看起来像 The 示例数据在表中给出 gt loadings Comp 1 Co
  • 如果我尝试打开 PWM 引脚,Windows 10 Iot Core 应用程序会崩溃

    我想为我的蜂鸣器打开一个 PWM 引脚 但如果我尝试打电话给pwmController OpenPin 6 方法 应用程序崩溃并显示System Runtime InteropServices SEHException 我已经仔细检查过示例
  • 尝试复制大文件时出现 NIO 错误

    我有将文件复制到另一个位置的代码 public static void copyFile String sourceDest String newDest throws IOException File sourceFile new Fil
  • 如何获取终端结果并设置 JTextArea 来读取终端?

    我最近完成了一个 GUI 用户可以在其中输入标准 并获得符合所述条件的结果 该程序的工作结果明智 但我无法让我的 GUI 中的文本字段读取我的终端窗口结果 我的 GUI 代码如下 package project205 import java
  • iOS 静默推送通知仅在连接到 xcode 时有效

    我有一个奇怪的问题 我最近将 Xcode 更新到 6 1 1 以对我之前使用 Xcode 5 发布的应用程序进行更改 运行良好 现在 由于某种原因 当我使用新的 Xcode 测试后台静默推送通知时 它只有在我的 iPhone 连接到 Mac
  • 在 Dart 中合并两个对象列表

    我有具有参数名称和参数计数器的对象 这些对象存储在列表中 我的列表中的某些项目具有重复的参数 名称 我想删除列表内的重复项 并将该重复项的计数器添加到重复对象参数中 class Person Person this name this co
  • 对于大输入返回负数的阶乘函数

    我的阶乘函数似乎适用于 1 到 6 之间的数字 但不适用于大于 6 的数字 例如从 21 开始 结果是否定的 我不明白为什么 这是我的功能 factorial Int gt Int factorial 0 1 factorial 1 1 f
  • Apache Flink 检查点卡住

    我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业 并且有时该列表可能会增加到数千 在我们的用例中 每个项目都必须有自己的 TTL 因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每