无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量

2024-01-17

我使用以下代码引用 Kafka 源连接器的 Flink 1.14 版本。

我期待以下要求。

在应用程序刚开始时必须读取 Kafka 主题的最新偏移量
在检查点上，它必须将消耗的偏移量提交给 Kafka
重新启动后（当应用程序手动终止/系统错误时），它必须从最后提交的偏移量中进行选择，并且应该必须消耗消费者滞后以及此后的新鲜事件源。

使用 Flink 新的 KafkaConsumer API (KafkaSource) 我面临以下问题

能够满足上述要求，但无法在检查点（500ms）上提交消耗的偏移量。它会在 2 秒或 3 秒后提交。

当您在 2 秒/3 秒内手动终止应用程序并重新启动时。由于最后消费的消息未提交，因此它被读取两次（重复）。

为了交叉检查此功能，我尝试使用 Flink Kafka 的旧消费者 API (FlinkKafkaConsumer)。在那里它工作得很好。当一条消息立即被消费时，它会被提交回 Kafka。

遵循的步骤

设置Kafka环境
运行下面的flink代码来消费。代码包括新旧 API。这两个 API 都将从 Kafka 主题消费并在控制台打印
将一些消息推送到 Kafka 主题。
推送一些消息并在控制台中可见后，终止 Flink 作业。
检查两个 API 的 kafka 消费者组。与旧版消费者 api 的 group-id(older_test1) 相比，新的 flink 消费者 api 的 group-id(test1) 消费者滞后 > 0。
当您重新启动 Flink 作业时，您可以在新的 Flink kafka-consumer API 的控制台中看到那些未提交的消息，从而导致重复消息。

如果我缺少任何内容或需要添加任何属性，请提出建议。

 @Test
    public void test() throws Exception {

        System.out.println("FlinkKafkaStreamsTest started ..");

        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());
        env.enableCheckpointing(500);
        env.setParallelism(4);

        Properties propertiesOld = new Properties();
        Properties properties = new Properties();
        String inputTopic = "input_topic";
        String bootStrapServers = "localhost:29092";
        String groupId_older = "older_test1";
        String groupId = "test1";

        propertiesOld.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootStrapServers);
        propertiesOld.put(ConsumerConfig.GROUP_ID_CONFIG, groupId_older);
        propertiesOld.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");

        properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootStrapServers);
        properties.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);


        /******************** Old Kafka API **************/
        FlinkKafkaConsumer<String> flinkKafkaConsumer = new FlinkKafkaConsumer<>(inputTopic,
                new KRecordDes(),
                propertiesOld);
        flinkKafkaConsumer.setStartFromGroupOffsets();
        env.addSource(flinkKafkaConsumer).print("old-api");


        /******************** New Kafka API **************/
        KafkaSourceBuilder<String> sourceBuilder = KafkaSource.<String>builder()
                .setBootstrapServers(bootStrapServers)
                .setTopics(inputTopic)
                .setGroupId(groupId)
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .setProperty("enable.auto.commit", "false")
                .setProperty("commit.offsets.on.checkpoint", "true")
                .setProperties(properties)
                .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST));

        KafkaSource<String> kafkaSource = sourceBuilder.build();

        SingleOutputStreamOperator<String> source = env
                .fromSource(kafkaSource, WatermarkStrategy.forMonotonousTimestamps(), "Kafka Source");

        source.print("new-api");

        env.execute();
    }
    static class KRecordDes implements  KafkaDeserializationSchema<String>{
        @Override
        public TypeInformation<String> getProducedType() {
            return TypeInformation.of(String.class);
        }
        @Override
        public boolean isEndOfStream(String nextElement) {
            return false;
        }
        @Override
        public String deserialize(ConsumerRecord<byte[], byte[]> consumerRecord) throws Exception {
            return new String(consumerRecord.value());
        }
    }

注意：我还有其他要求，希望在同一代码中使用 Flink Kafka 有界源读取器，这在新的 API（KafkaSource）中可用。

来自 Kafka Source 的文档：

请注意，Kafka 源确实NOT依靠承诺的抵消额容错能力。提交offset只是为了暴露进度消费者和消费群体的监控。

当 Flink 作业从故障中恢复时，它不会使用代理上提交的偏移量，而是从最新成功的检查点恢复状态，并从该检查点中存储的偏移量恢复消费，因此检查点之后的记录将被“重放”一点少量。由于您使用的是不支持一次语义的打印接收器，因此您将看到重复的记录，这些记录实际上是最新成功检查点之后的记录。

对于你提到的offset commit延迟2-3秒，是因为执行了SourceReaderBase。简而言之SplitFetcher管理一个任务队列，当一个offset commit任务被推入队列时，直到有正在运行的fetch任务调用时，它才会被执行KafkaConsumer#poll()超时。如果流量很小，延迟可能会更长。但请注意，这不会影响正确性：KafkaSource 不使用提交的偏移量来实现容错。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量的相关文章

我可以将自定义分区器与 group by 一起使用吗？

假设我知道我的数据集不平衡并且我知道键的分布我想利用它来编写一个自定义分区器以充分利用运算符实例我知道关于数据流 partitionCustom https ci apache org projects flink flink doc
如何构建和使用flink-connector-kinesis？

我正在尝试将 Apache Flink 与 AWS kinesis 结合使用这document https ci apache org projects flink flink docs release 1 7 dev connector
Flink 仪表板版本 1.3.2 中无法执行 CEP 模式，这是由 ClassNotFoundException 引起的

我写了一个像这样的简单模式 Pattern
Flink 处理事件太慢

我使用 Kinesis 数据流作为源使用 elasticsearch 作为接收器在 AWS Kinesis Data 分析应用程序中运行 Flink 作业事件示例 area sessions userId 4450 date 2021
SingleOutputStreamOperator#returns(TypeHint typeHint) 方法的 javadoc

我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
谁能分享一下 Scala 中的 Flink Kafka 示例吗？

谁能分享一下Scala中Flink Kafka 主要是从Kafka接收消息的工作示例吗我知道有一个Kafka字数统计 https github com apache spark blob master examples src main
Apache Flink：设置并行度的指南？

我正在尝试获取一些简单的规则或指南来设置哪些值操作员或工作并行性在我看来它应该是一个数字例如假设我有 2 台任务管理器机器每台都有 4 个任务槽假设集群上没有运行其他作业我会设置并行度吗用于操作喜欢过滤并映射到 8 如
Flink 中复杂拓扑（多输入）的集成测试

我需要为 flink 流拓扑编写单元测试这基本上是一个CoFlatMapFunction 并且它有 2 个输入我尝试从这个页面中获得一些灵感 https ci apache org projects flink flink docs s
从 FlinkML 多元线性回归中提取权重

我正在运行 Flink 0 10 SNAPSHOT 的示例多元线性回归我不知道如何提取权重例如斜率和截距 beta0 beta1 无论你想怎么称呼它们我对 Scala 不太熟悉这可能是我问题的一半感谢任何人可以提供的任何帮助 ob
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
Flink：处理数据早于应用程序水印的键控流

我正在使用带有运动源和事件时间键控窗口的 F link 该应用程序将监听实时数据流窗口事件时间窗口并处理每个键控流我有另一个用例我还需要能够支持某些关键流的旧数据的回填这些将是事件时间鉴于我正在使用水印这会成为一个问题因为
Flink 日志记录限制：如何将日志记录配置传递给 Flink 作业

我有一个 flink 作业它使用 logback 作为日志记录框架因为日志需要发送到logstash 而 logback 有一个 logstash 附加程序 Logstash logback appender Appender 工作正常
Apache Beam 计数器/指标在 Flink WebUI 中不可用

我正在使用 Flink 1 4 1 和 Beam 2 3 0 并且想知道是否可以在 Flink WebUI 或任何地方中提供可用的指标如 Dataflow WebUI 中那样我用过类似的计数器 import org apache be
示例 flink 作业的错误消息：无法使字段 private Final byte[] java.lang.String.value 可访问

我正在开始使用 Apache Flink 我将发布我遇到的错误然后复制它的步骤这是我运行的命令 bin flink run examples streaming WordCount jar input 这是错误文本 org apache
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
Flink 流顺序

Flink 能保证流的执行顺序吗我有两个 Kafka 主题每个主题都有一个分区流 1 和流 2 并使用keyBy 流由一个处理coprocess功能在我的测试过程中我可以看到两个流的内容并不总是按顺序执行我可以将并行度设置为 1
基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序
Flink Logging 获取作业名称或作业 ID

我正在尝试设置 logback xml 以便它将包含与日志记录关联的 JobName 或 JobId 我还没有找到一种方法来做到这一点是否可以最终我想要实现的是能够将日志发送到 ElasticSearch 并用消息标记 JobName
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
如何正确处理自定义MapFunction中的错误？

我已经实施了MapFunction对于我的 Apache Flink 流程它正在解析传入元素并将其转换为其他格式但有时会出现错误即传入数据无效我看到两种可能的处理方法忽略无效元素但似乎我无法忽略错误因为对于任何传入元素我必须

随机推荐

android：从图库中选择图像然后裁剪并显示在图像视图中

我真的需要这个代码我在互联网上搜索了 3 个小时但我找不到完整而简单的代码我测试了很多代码但有些代码不起作用有些代码不好请帮助我提供完整而简单的代码代码谢谢编辑我有这个用于选择图像的代码但请为我在标题中所说的所有内容提供
导入错误：pyttsx 中没有名为“driver”的模块

我正在尝试运行语音程序Python 3 5 2与pyttsx图书馆但我遇到了很多问题第一个是关于发动机的当我运行命令时import pyttsx 编译器给了我如下错误 ImportError No module named engin
C# 使用一个 SqlConnection 进行多个查询

如何正确使用一SqlConnection多个查询的对象 SqlConnection connection new SqlConnection connString static void SqlQuery SqlConnection con
WordPress 中的 get_page_by_title。如何使用来获取帖子？

最近 Wordpress 在 Trac 中添加了您可以使用以下方法按标题获取帖子按标题获取页面而不是直接查询数据库如果我想获得标题为我的农场的帖子我将如何更改参数以便它搜索帖子或帖子类型 page title 乔伊在森林里字
在内核模块配方中发送额外的文件

在构建树外内核模块时有没有办法可以传送更多文件我尝试过这样的事情 FILES PN bindir my program do install append install d D bindir install m 0755 D my p
如何将 FileField 的初始值传递给 Formset（在 Django 中）

我正在尝试使用 POST FILE 请求中的数据填充 Django 表单集我可以填充除 FileField 之外的所有字段看起来initial不能用于将 request FILE 传递给 FormSet 创建者函数我的问题是如何将 F
PYQT4 - 如何编译 qrc 文件并将其导入到我的程序中？

我在导入资源文件时遇到问题我正在使用 pyqt4 和 Monkey Studio 我正在尝试导入 png 图像当我运行该程序时出现导入错误例如导入错误没有名为 icon rc 的模块我知道我必须使用pyrcc4 编译它但我不
git 使多个远程服务器与所有分支保持同步

我有两台电脑用来存储我的存储库他们是not通过任何类型的网络连接让我们将这两台不同电脑上的存储库命名为 repo1 和 repo2 我有一个本地克隆我可以将其从一台电脑移动到另一台电脑让我们将这个克隆的存储库简单地命名为克隆
没有端点适配器；您的端点是否用 @Endpoint 注释，或者它是否实现了受支持的接口（如 MessageHandler 或 PayloadEndpoint）？

我正在努力处理带有 JMS 的 Spring WS 示例我按照 Spring 建议设置了 Spring WS 和 JMS 连接但我不断收到以下错误我不知道如何绕过这个问题任何帮助将不胜感激 org springframework w
PhantomJS，但不是无头的？

有没有办法实时查看 PhantomJS 或类似的正在渲染的内容我想在与目标页面交互或至少看到其屏幕截图的同时开发我的自动化脚本不没有这样的事情 SlimerJS http slimerjs org 具有与 PhantomJS 相
如何在 dart 代码中执行 flutter 终端命令

我想自动化我的项目的测试我需要截取屏幕截图并与其他屏幕截图进行比较 Flutter 命令将截取屏幕截图并将其保存到我的目录中所以我想在 dart 而不是终端中执行该命令我在截取屏幕截图时遇到问题已经使用了一些软件包例如屏幕截图等
Angular：如何重置子组件

我编写了一个 Java 后端用作我的服务器并将提供所有数据前端是 Angular 8 应用程序我在 stackblitz 中创建了前端应用程序的精简版本 https stackblitz com edit angular code g
docker 在后台运行 shell 脚本而不退出容器

我正在尝试在我的 docker 容器中运行 shell 脚本问题是 shell 脚本生成另一个进程并且它应该继续运行除非使用另一个关闭脚本来终止启动脚本生成的进程当我运行以下命令时 docker run image tag bin
使用 Bluebird Promise 的 While 循环

我正在尝试使用 Promise 来实现 while 循环这里概述的方法似乎有效 http blog victorquinn com javascript promise while loop http blog victorquinn c
如何在 IronPython 中卸载 .NET 程序集引用

加载对程序集的引用后如下所示 import clr clr AddRferenceToFileAndPath r C foo dll 如何再次卸载组件为什么有人想要这样做因为我正在重新编译foo dll并想重新加载它但编译器让我大惊
Pandas：如何从周和年创建日期时间对象？

我有一个数据框它提供了两个整数列其中包含一年中的年份和星期 import pandas as pd import numpy as np L1 43 44 51 2 5 12 L2 2016 2016 2016 2017 2017 20
jQuery 的 .delay 方法在幕后是如何工作的？

我刚看到这个觉得很酷 console log Starting my element fadeIn delay 3000 fadeOut console log Finishing delay 方法在幕后是如何工作的我的意思是它是如何
记录用户交互：log4j？

我需要你的建议我有一个Java应用程序我想记录用户使用我的应用程序的方式我想知道最常用的按钮是什么计算应用程序中介绍新患者的平均时间 ETC 您认为最好最简单的方法是什么是使用Log4j吗谢谢您的合作此致 Daniel 考虑
在新窗口中打开的Web资源中使用Xrm.WebApi方法

我使用以下命令在新窗口中打开了 HTML Web 资源 Xrm Navigation openWebResource webResource windowOptions data 这是一个 HTML Web 资源它正在头部加载 Clien
无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量

我使用以下代码引用 Kafka 源连接器的 Flink 1 14 版本我期待以下要求在应用程序刚开始时必须读取 Kafka 主题的最新偏移量在检查点上它必须将消耗的偏移量提交给 Kafka 重新启动后当应用程序手动终止系统错误时

无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量

无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量 的相关文章

随机推荐

热门标签

无法在 Flink 新 Kafka Consumer-api (1.14) 中的检查点上向 Kafka 提交消费偏移量的相关文章