Kafka 日志压缩始终显示同一键的最后两条记录

2023-12-12

发现这两个问题：here and here，但我还是不太明白。我仍然有（意外的？）行为。

我尝试使用此配置来记录紧凑的 kafka 主题

kafka-topics.sh --bootstrap-server localhost:9092 --create --partitions 1 --replication-factor 1 --topic test1 --config "cleanup.policy=compact" --config "delete.retention.ms=1000" --config "segment.ms=1000" --config "min.cleanable.dirty.ratio=0.01" --config "min.compaction.lag.ms=500"

然后我发送这些消息，每条消息至少有1秒的间隔

A: 3
A: 4
A: 5
B: 10
B: 20
B: 30
B: 40
A: 6

我期望的是几秒钟后（配置为 1000？），当我运行时kafka-console-consumer.sh --bootstrap-server localhost:9092 --property print.key=true --topic test1 --from-beginning，我应该得到

A: 6
B: 40

相反，我得到：

A: 5
B: 40
A: 6

如果我发布另一条消息B:50并运行消费者，我得到：

B: 40
A: 6
B: 50

而不是预期的

A: 6
B: 50

实际上，如何配置日志压缩呢？
From 卡夫卡文档 : 日志压缩确保 Kafka 始终至少保留单个主题分区的数据日志中每个消息键的最后一个已知值
这是否意味着我只能对单个分区的主题使用日志压缩？

基本上，您自己已经提供了答案。正如 Kafka 文档中所述，“日志压缩确保 Kafka 始终保留至少是最后已知的单个主题分区的数据日志中每个消息键的值”。因此，不能保证您始终拥有一个键对应的一条消息。

如果我正确理解日志压缩，那么它并不适用于像您在非常有效的问题中提出的用例。相反，它的目的是最终达到主题中每个键仅存在一条消息的阶段。

日志压缩是一种提供更细粒度的每条记录保留的机制，而不是提供更粗粒度的基于时间的保留。这个想法是有选择地删除具有相同主键的最新更新的记录。这样可以保证日志至少具有每个键的最后状态。

如果您计划仅保留每个键的最新状态，并希望处理尽可能少的旧状态（非压缩主题的情况，取决于基于时间/大小的保留，压缩主题是正确的选择））。据我所知，日志压缩的用例是保存最新的地址、手机号码、数据库中的值等。这些值不会每时每刻都在变化，并且通常有很多键。

从技术角度来看，我猜您的情况发生了以下情况。

当涉及到压缩时，日志被视为分为两部分

Clean：之前已经压缩过的消息。此部分仅包含每个键的一个值，该值是上一次压缩时的最新值。
Dirty：上次压缩后写入的消息。

生成消息后B: 40 (A: 5已经生产出来了）clean日志的一部分是空的并且dirty/active部分包含A: 5 and B: 40。消息A: 6还不是日志的一部分。产生新消息A: 6将开始对日志的脏部分（因为你的比率非常低）进行压缩，但是排除新消息本身。如前所述，没有更多内容需要清理，因此新消息将仅添加到主题中，并且现在位于日志的脏部分中。与您在生产时观察到的情况相同B: 50.

此外，压实将never发生在您的活跃段上。所以，即使你设置了segment.ms只是1000 ms它不会产生新的段，因为产生后没有新数据传入A: 6 or B: 50.

为了解决您的问题并遵守您需要生成另一条消息的期望C: 1生产后A: 6 or B: 50。这样，清洁工可以再次比较原木的干净部分和脏部分，并将其清除A: 5 or B: 40.

同时，看看这些段在 Kafka 日志目录中的行为如何。

从我的角度来看，日志压缩的配置完全没问题！这并不是观察预期行为的正确用例。但对于生产用例，请注意您当前的配置会尝试非常频繁地启动压缩。根据数据量，这可能会变得相当 I/O 密集型。默认比率设置为是有原因的0.50log.roll.hours 通常设置为 24 小时。此外，您通常希望确保消费者有机会在压缩之前读取所有数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheKafka

Kafka 日志压缩始终显示同一键的最后两条记录的相关文章

即使没有消费者，消费者群体仍陷入“再平衡”

我正在使用kafka版本2 4 1 最近从2 2 0升级到2 4 1 并注意到一个奇怪的问题即使应用程序 kafka Streams 已关闭没有正在运行的应用程序但消费者组命令返回状态为重新平衡我们的应用程序作为 kubernete
无法向 Kafka 发送大消息

我想从生产者向 Kafka 发送一条大消息因此我更改了以下属性代理服务器属性 replica fetch max bytes 317344026 message max bytes 317344026 max message byt
使用 Kafka Streams 在输出中设置时间戳无法进行转换

假设我们有一个变压器用 Scala 编写 new Transformer String V String V var context ProcessorContext override def init context Processor
如何使用 haproxy 负载均衡器 Kafka Bootstrap？

我有一个 kafka 集群由 3 台在 AWS 上运行的机器组成卡夫卡1到卡夫卡3 我正在使用新型卡夫卡消费者 gt 0 8 我知道kafka客户端连接到其中一台kafka服务器获取服务器元数据然后直接连接到代理我想确保在代理发生
在 WSL2 中通过 IDE 连接到 kafka 服务器时出错

我无法通过在 Windows 上运行的 intellij 或 vscode 连接到在 ubuntu 上运行的 kafka 服务器我在 WSL2 上尝试的第一个服务器我什至尝试使用虚拟机的IP 但没有成功据我了解我们应该能够根据此文档
Kafka中如何使用事务以及如何使用abortTransaction？

我是 kafka 新手我使用 Kafka Producer Java api 面对Kafka的这个问题 Kafka Invalid transition attempted from state COMMITTING TRANSACTIO
通过 CMD 获取启用 SSL 的 Kafka 中的最新偏移量

我一直在使用下面的 CMD 从打开纯文本端口的 Kafka 队列中获取最新的偏移量 kafka run class sh kafka tools GetOffsetShell broker list server 9092 topic sa
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
如何在kafka消费组中动态添加消费者

我应该如何知道何时必须扩展消费者组中的消费者当存在快速生产者时消费者扩大规模的触发因素是什么一种直接的方法是获取消费者延迟这可以计算为提交的偏移量和开始偏移量之间的差值如果最后 n 次计算的延迟正在增加您可以扩大规模反之亦然
无法向 kafka 主题发送消息

我正在使用 Kafka Play 以及 Scala 这是我的代码我想在其中发送消息到kafka服务器主题名称是测试主题尽管我没有在主题中看到我发送的消息但我没有收到任何错误这里有什么问题吗 import kafka produc
是否可以使用 Kafka Streams 访问消息头？

随着添加Headers http apache spinellicreations com kafka 0 11 0 0 javadoc org apache kafka common header Header html到记录生产者记录
从副本消费

Kafka 将主题的每个分区复制到指定的复制因子据我所知所有写入和读取请求都会路由到分区的领导者有没有办法从追随者那里消费而不是从领导者那里消费 Kafka中的复制只是为了故障转移吗在 Kafka 2 3 及更早版本中您只能从领导
生产者程序中的 kafka 网络处理器错误（ArrayIndexOutOfBoundsException：18）

我有下面的 kafka Producer Api 程序我对 kafka 本身是新手下面的代码从 API 之一获取数据并将消息发送到 kafka 主题 package kafka Demo import java util Propert
Apache Kafka Streams 将 KTable 物化到主题似乎很慢

我正在使用 kafka 流并试图将 KTable 具体化为一个主题它有效但似乎每 30 秒左右完成一次 Kafka Stream 如何何时决定将 KTable 的当前状态具体化为主题有没有什么办法可以缩短这个时间让其更加实时
使用 kafka java api 的 Avro 序列化器和反序列化器

Kafka Avro 序列化器和反序列化器无法工作我尝试使用 kafka 控制台消费者消费消息我可以看到发布的消息 public class AvroProducer
Kafka Producer配置重试策略

需要更改 Kafka Producer 配置的哪些参数以便生产者应该 1 重试n次 2 n个间隔后如果代理关闭也会收到相同的消息我需要处理与此相关的情况 https github com rsyslog rsyslog issues
TopologyTestDriver 在 KTable 聚合上发送错误消息

我有一个聚合在 KTable 上的拓扑这是我创建的通用方法用于根据我拥有的不同主题构建此拓扑 public static
Kafka Streams - 如何扩展 Kafka 存储生成的变更日志主题

我有多个冗余应用程序实例它们想要使用主题的所有事件并独立存储它们以进行磁盘查找通过rocksdb 为了便于论证我们假设这些冗余消费者正在服务无状态 http 请求因此负载不是使用 kafka 共享的而是使用 kafka 将数据从
为每个键使用主题中的最新值

我有一个 Kafka 生产者它正在以高速率生成消息消息键是用户名值是他在游戏中的当前分数 Kafka消费者处理消费消息的速度相对较慢在这里我的要求是显示最新的分数并避免显示陈旧的数据但代价是某些分数可能永远不会显示本质上对于
了解Kafka流groupBy和window

我无法理解 kafka 流中的 groupBy groupById 和窗口的概念我的目标是聚合一段时间内例如 5 秒的流数据我的流数据看起来像 value 0 time 1533875665509 value 10 time 153

随机推荐

Google Colaboratory：OSError：[Errno 5]输入/输出错误

我正在使用 Google Colaboratory 并安装 Google Drive 当我访问 csv 文件时出现以下错误 OSError Errno 5 输入输出错误以前没有发生过这种情况如何像以前一样访问 csv 文件我已经尝
为什么逗号的这种用法在表达式中有效，但在声明中却失败？

我来自高级 OOP 语言 C 和 Java 最近开始对 C 感到摸不着头脑我觉得 C 有点奇怪就像人们觉得 JS 一样所以想澄清如下下面给出了错误这看起来很直观因为即使在 OOP 语言中它看起来也像是不正确的语法 int i
Apache Solr：按字段之一排序（带条件）

我想添加按 field1 排序如果文档中存在如果不存在则按 field2 排序请帮助我查询语法正如已经指出的那样所以问题尝试对 int 字段使用类似的内容 sort min def A 160018 9000000 def A c
AES 负字节

以下是在 Java 中使用 AES 加密的摘录 encryptedData encryptCipher doFinal strToEncrypt getBytes 以下是c 中的摘录 DecryptStringFromBytes Aes e
将 UIBarButtonItem 添加到 UINav..Controller

我不确定我在这里缺少什么我有一个习惯UINavigationController我正在尝试添加一个持久的UIBarButtonItem到酒吧 void viewDidLoad self navigationBar barStyle UIB
使用 PHP 上传两个文件[重复]

这个问题在这里已经有答案了我知道这听起来可能是一个相对基本的问题但仍然想问我需要通过在表单中为每个文件创建两个文件输入来一次上传两个文件到目前为止我已经使用基本脚本来测试上传单个文件我还找到了一些如何上传多个文件的示例但就我
创建挂载源路径'/host_mnt/c/Users/xxx/redis.conf'时出错：mkdir /host_mnt/c/Users/xxx：权限被拒绝

我已经搜索了与我类似的问题但还没有找到好的解决方案我正在尝试设置我的环境我们首先要设置的是一个portainerdocker run d p 9000 9000 portainer portainer 然后我们尝试设置Redisdoc
使用 Google Sheet 中的 GmailApp.sendEmail 时如何包含用户 Gmail 签名

我创建了一个报告模板该模板具有通过 PDF 导出 Google Sheet 的功能然后使用 GmailApp sendEmail 函数通过电子邮件发送创建的 PDF 我已经完美地工作了除了我注意到发出的电子邮件不包含发件人的 Gmai
XCode 4，添加本地化

我刚刚搬到 xcode4 我很困惑首先在屏幕截图中您可以看到可本地化的字符串几个文件名更改为 null 我想知道为什么以及它是否会影响最终产品 And also i could nt figure out for the life
NUnit 2.5.7 需要在 VS2010 下显式调试附加

我刚刚从 NUnit 2 5 2 升级到 NUnit 2 5 7 以便我可以针对使用 Net Framework 4 构建的 DLL 运行单元测试我已经通过 StartExternalProgram 使用 2 5 2 很长时间了项目属
Azure Functions 模型绑定

我创建了一个 Azure 函数并在本地运行它 FunctionName HttpTriggerCSharpSet public static async Task
App Engine 开发服务器在更改时不会重新加载代码

我正在开发一个将在 Google App Engine 上运行的 python 应用程序我使用以下目录结构设置我的应用程序 approot app yaml index yaml myapp py controllers some con
Sympy 到 numpy 会导致 AttributeError: 'Symbol' object has no attribute 'cos'

我正在尝试使用 sympy 进行偏导数我想将其转换为函数以便我可以替换值并估计 t 1 t 2 的某些值的导数我使用的代码如下 import sympy as sp import numpy as np from sympy impo
将外部文本从 .txt 加载到 html 文件

我知道如何使用 txt 文件加载外部文本 div div 和 JavaScript text load pathtofile content txt element s id should be in string form 但这可以在两个
微服务是设计模式还是架构？ [关闭]

Closed 这个问题是基于意见的目前不接受答案经过严格的研究和分析我终于得出了一个让我困惑的问题微服务是一种设计模式还是架构有人说这是一种作为整体应用程序解决方案而演变的模式因此也是设计模式一些人毫无疑问地确认这是一个涉及其
如何使用按钮在 div 中水平滚动动画

我发现这段代码添加了在 div 中水平滚动的按钮它是由 Vlad Danila 制作的但问题是我无法为它的滚动设置动画我尝试向容器添加过渡但没有成功 const buttonRight document getElementById
在Matlab中将十进制转换为二进制？

我正在将以 10 为基数的数字转换为以 2 为基数的数字并指定要用来表示这些以 10 为基数的数字的位数这是我的负数代码 function output DTB decimal binary if decimal lt 0 smalle
如何使用 Selenium - Python 选择下拉菜单选项值

我需要从下面的下拉菜单中选择一个元素
Orion 的配置管理器与 PubSub Broker

查看 FIWARE 目录我看到 Orion Context 的两个条目经纪人一个名为发布订阅代理还有另一个为了配置管理器 So 为什么有两个条目它们对应的是同一个软件吗我什么时候应该使用发布订阅代理以及什么时候我应该使
Kafka 日志压缩始终显示同一键的最后两条记录

发现这两个问题 here and here 但我还是不太明白我仍然有意外的行为我尝试使用此配置来记录紧凑的 kafka 主题 kafka topics sh bootstrap server localhost 9092 creat

Kafka 日志压缩始终显示同一键的最后两条记录

Kafka 日志压缩始终显示同一键的最后两条记录 的相关文章

随机推荐

热门标签

Kafka 日志压缩始终显示同一键的最后两条记录的相关文章