kafka本地状态存储/变更日志中的保留时间

2024-01-09

我使用 Kafka 和 Kafka Streams 作为 Spring Cloud Stream 的一部分。我的 Kafka Streams 应用程序中流动的数据正在按特定时间窗口进行聚合和具体化：

Materialized<String, ErrorScore, WindowStore<Bytes, byte[]>> oneHour = Materialized.as("one-hour-store");
    oneHour.withLoggingEnabled(topicConfig);
    events
            .map(getStringSensorMeasurementKeyValueKeyValueMapper())
            .groupByKey()
            .windowedBy(TimeWindows.of(oneHourStore.getTimeUnit()))
            .reduce((aggValue, newValue) -> getMaxErrorScore(aggValue, newValue),
                    (oneHour));

按照设计，正在具体化的信息也由变更日志主题支持。

我们的应用程序还有一个休息端点，它将像这样查询状态存储：

 ReadOnlyWindowStore<String, Double> windowStore =  queryableStoreRegistry.getQueryableStoreType("one-hour-store", QueryableStoreTypes.windowStore());
 WindowStoreIterator<ErrorScore> iter = windowStore.fetch(key, from, to);

查看创建的变更日志主题的设置，内容如下：

min.insync.replicas 1
cleanup.policy delete
retention.ms 5259600000
retention.bytes -1

我假设当地国营商店至少会将信息保留 61 天（约 2 个月）。然而，商店中似乎只保留了最后一天的数据。

是什么导致数据这么快就被删除了？

更新解决方案Kafka Streams 2.0.1版本不包含Materialized.withRetention方法。对于这个特定版本，我可以使用以下代码设置状态存储的保留时间，这解决了我的问题：

TimeWindows timeWindows = TimeWindows.of(windowSizeMs);
    timeWindows.until(retentionMs);

使我的代码写成：

...

.groupByKey()
        .windowedBy(timeWindows)
        .reduce((aggValue, newValue) -> getMaxErrorScore(aggValue, newValue),
                (oneHour));
...

对于有窗口的KTable有本地保留时间和changlog 保留时间。您可以通过以下方式设置本地商店保留时间Materialized.withRetentionTime(...)-- 默认值为 24 小时。

对于较旧的 Kafka 版本，本地存储保留时间通过设置Windows#until().

如果创建新应用程序，则会创建更改日志主题，其保留时间与本地存储保留时间相同。但是，如果您手动增加日志保留时间，这不会影响您的商店保留时间，但您需要相应地更新代码。当变更日志主题已经存在时也是如此：如果您更改本地存储保留时间，变更日志主题配置不会自动更新。

还有一个 Jira 可以用于此目的：https://issues.apache.org/jira/browse/KAFKA-7591 https://issues.apache.org/jira/browse/KAFKA-7591

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheKafka

apachekafkastreams

kafka本地状态存储/变更日志中的保留时间的相关文章

GCP Dataproc 作业未找到存储在存储桶中的 SSL pem 证书

我有一个 GCP Dataproc 集群我正在尝试部署一个 pyspark 作业该作业使用 SSL 生成一个主题 pem 文件存储在存储桶 gs dataproc kafka code code 中我正在使用下面所示的代码访问 pem
当记录处理时间超过“max.poll.interval.ms”时，在消费过程中记录/消息会发生什么？

我的消费者设置如下 auto offset reset earliest enable auto commit true default value session timeout ms 10000 default value max po
Kafka 连接教程停止工作

我在此链接中执行了步骤 7 使用 Kafka Connect 导入导出数据 http kafka apache org documentation html quickstart http kafka apache org documen
Kafka 中的“__consumer_offsets”主题是什么

当我运行此命令时我得到 2 个主题我知道我创建了测试主题但我看到了一个名为 consumer offsets 的附加主题从名称上看它与消费者抵消有关但它是如何使用的呢 bin kafka topics sh list zooke
无法对 @KafkaListener 带注释的方法进行单元测试

我正在尝试在 Spring 中对 kafka 消费者类进行单元测试我想知道如果 kafka 消息发送到它的主题则侦听器方法被正确调用我的消费者类注释如下 KafkaListener topics kafka topics myTopi
kafka启动失败（版本0.8.0 beta1）

我正在尝试在独立模式在ec2上上使用zookeeper版本 3 3 6 启动kafka服务所以我运行 1 sbt update 2 sbt package 3 sbt assembly package dependency 然后启动z
Kafka Streams - 减少大型状态存储的内存占用

我有一个拓扑见下文可以读取一个非常大的主题每天超过十亿条消息这个 Kafka Streams 应用程序的内存使用量相当高我正在寻找一些关于如何减少状态存储占用空间的建议更多详细信息如下 Note 我并不是想逃避国有商店我只是认
带有 kafka-avro-console-consumer 的未知魔法字节

我一直在尝试将 Confluence 中的 kafka avro console consumer 连接到我们的旧版 Kafka 集群该集群是在没有 Confluence Schema Registry 的情况下部署的我使用以下属性显式
由于 jaas.conf 不正确而导致 Kafka TopicAuthorizationException

我指的是JAAS登录配置文件 https docs oracle com javase 7 docs technotes guides security jgss tutorials LoginConfigFile html 它讨论了两种指
如何在 Spring Kafka 中以编程方式设置 Jsonserializer Type Value 方法

所以我无法仅使用 yaml 为 JsonSerializer 配置 JavaType 方法还不确定原因但与此同时我如何以编程方式设置它我在文档中看到了它的代码但是该代码到底需要在哪里运行 Spring Kafka JsonDese
无法初始化类 io.confluence.kafka.schemaregistry.client.rest.RestService

我正在尝试使用 KafkaAvroSerialzer 设置一个卡夫卡生产者以获得价值当 rit 尝试创建生产者时我遇到了这个错误我正在使用 confluence 5 2 1 中提供的所有罐子 java lang NoClassDefF
即使在kafka机器重新启动后，如何保留kafka保留字节和kafka保留段[重复]

这个问题已经存在了 we set retention bytes价值 104857600对于主题 topic test root confluent01 kafka topics zookeeper localhost 2181 alter
Apache Kafka 与 Apache Storm

Apache Kafka 分布式消息系统Apache Storm 实时消息处理我们如何在实时数据管道中使用这两种技术来处理事件数据就实时数据管道而言在我看来两者的工作都是相同的我们如何在数据管道上使用这两种技术您可以使用 Apa
Kafka 适合运行公共 API 吗？

我有一个想要发布的事件流它被划分为主题不断更新需要水平扩展并且没有 SPOF 很好并且可能需要在某些情况下重播旧事件所有的功能似乎都与 Kafka 的功能相匹配我想通过任何人都可以连接并获取事件的公共 API 将其发布到全世界
如何复制或配置kafka connect插件文件？

我已经从以下位置下载了插件文件https www confluence io connector kafka connect cdc microsoft sql https www confluent io connector kafka
是否可以使用Kafka传输文件？

我每天都会生成数千个文件我想使用 Kafka 进行流式传输当我尝试读取该文件时每一行都被视为一条单独的消息我想知道如何将每个文件的内容作为 Kafka 主题中的单个消息以及消费者如何将 Kafka 主题中的每条消息写入单独的文件中
如何更改主题的起始偏移量？

是否可以更改新主题的起始偏移量我想创建一个新主题并从偏移量开始阅读10000 How 自从卡夫卡0 11 0 0 https issues apache org jira browse KAFKA 4743你可以使用脚本kafka con
kafka消费端Offsets的一致性

我有复制因子为 3 的卡夫卡主题min insync replicas 2 一个向该主题发送 X 条消息的生产者acks all 一段时间后 1 分钟内在所有消息发送到主题后将使用 java kafka 客户端为此主题创建新的消费者使
编辑 Kafka Listener Spring 应用程序以更改阶段/目标

我可以利用另一个运行 Kafka 应用程序代码库的团队来使用相同的数据将其加载到我们的新暂存表中而不是他们的他们在 Messages 文件夹中有许多不同的 kafka 侦听器适配器 java 文件每个文件消耗不同类型的数据每个
Apache kafka - 消费者延迟选项

我想在 Kafka 中为特定主题稍稍延迟启动一个消费者具体来说我希望消费者在从生成消息的时间起经过特定的时间延迟后开始使用该主题的消息 Kafka 中有任何属性或选项可以启用它吗我们对火花流做了同样的事情我希望这种方法也适合您这

随机推荐

NSMutableArray 删除对象会增加引用计数吗？

我有一些代码导致 iOS 静态库内存泄漏以下是 Instruments 中对象的生命周期 Category Event Type Timestamp RefCt Address Size Responsible Library Respo
我可以在审批过程中将我的应用程序保留在 Testflight 中吗

有谁知道您是否可以在审批过程中将您的应用程序保留在 TestFlight 中是的你可以在您的应用程序启动后它甚至会在 30 天的时间限制内保留在 TestFlight 中
如何直接查看SVN外部URL？

我有一个包含一些客户端文件的 Subversion 存储库某些客户端将使用标准文件但其他客户端将提供文件的自定义版本为了适应这一点我对将使用共享文件的客户端使用了 svn externals 所以我们的结构是这样的 svn top
Python将self更改为继承的类

我有这样的结构 class Foo def init self val1 self val1 val1 def changeToGoo self HOW class Goo Foo def init self val1 val2 super
如何使用独立浏览器分离 PWA 会话和 cookie？（PWA 作为私人选项卡）

我正在将 PWA 与企业应用程序服务器结合使用应用程序服务器为独立浏览器提供响应式 Web 视图并借助首次在 PWA 启动 url 上设置的 PWA cookie 自定义 PWA 上的视图问题在于 PWA 和独立浏览器例如 Andr
如何在 NpgsqlConnection 中设置编码

我有一个 PostgreSQL 数据库它使用字符编码WIN1252 查询数据库时某些记录在尝试读取数据时会产生错误因为它正在尝试将其转换为UTF8 这种情况发生在某些包含某些非拉丁字符的外国名字上错误是 ERROR 22P05 ch
Azure Blob 存储中可以存储的文件数量是否有限制？

我找到了描述 blob 存储限制的文档包括最大文件大小和 blob 大小但我找不到关于可存储的文件数量是否有限制的参考是否有限制或者可能更重要的是当 Blob 存储中存储了数十万或数百万个小文件时性能会受到影响吗除了每个存
不更新特定的包

有没有办法告诉作曲家每次我做一个composer update我想让他忽略某个特定的包裹您是否考虑过为您试图忽略的包指定所需的版本例如 require some package 1 2 这可能会更新因为你说的是任何版本 gt 1
Windows 10 - 带有空格的用户名和路径[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案安装 Windows 10 后我创建了管理员用户Miha u ter i 现在当我安装需要修改环境变量PATH的程序时大多数都没有被添
使用另一个向量中的值对向量进行排序[重复]

这个问题在这里已经有答案了我有一个std vector called foo vec包含类的对象Foo 假设Foo有一个成员变量int x 我还实现了一个功能CompareInts int a int b 返回最小值a and b 然后
使用 -isystem 包含 CMake 项目依赖项包含目录

我正在开发的一个项目链接到 Google 测试 gtest 作为依赖项谷歌测试标头通过 CMake 的接口依赖项包含在项目中使用谷歌测试项目中包含的 CMakeLists target link libraries our projec
./configure--with-boost 没有这样的文件或目录

当我使用 configure 时终端返回检查 Boost 标头版本 gt 1 41 0 无配置错误找不到 Boost 标头版本 gt 1 41 0 所以我也使用了命令 configure with boost usr include
无法使用 SVN 作为 Maven 存储库进行部署

我正在尝试使用 Subversion 作为 Maven 存储库梅文马车 http maven apache org wagon wagon providers wagon scm 如果我使用 http 作为协议声明快照位置则在尝试部署时会
如何从android获取卫星信息？

我正在尝试从 android 获取卫星信息并编写了以下代码但没有给出任何结果有人能指出为什么会这样吗 public void onCreate Bundle savedInstanceState super onCreate save
在 VS 2010 的类设计器中可视化泛型继承的类型参数

是否可以在 Visual Studio 2010 中可视化泛型继承的类型参数如果有一个类具有类似的属性 Dictionary
BigQuery SQL 中的 LAG() 函数错误；无法返回滞后的 hits.page.pagePath

我目前正在尝试在 BigQuery 表中创建一个列该列仅包含 hist page pagePath 的滞后值对于此示例假设我的 hit time 值为 0 513 518 762 991 这些值对应于我创建的 unique visit
将第二个文本框输入文本值合并为现有创建的图像中的新行

工作模板文本项目我已经创建了将输入文本转换为图像的代码它工作得很好但我有多个文本框例如文本框1 文本框2 文本框3 问题是如果我在文本框1中输入它将文本转换为图像如果我在文本框2或文本框3中输入文本它会在此处转换新图像我只
如何使用 for 循环绘制使用 matplotlib 保存到不同文件的图形？

我想通过 for 循环绘制 n 个独立的图形并将每个图形保存到一个文件中我的代码如下 import matplotlib pyplot as plt import numpy as np for i in range len nfile
Laravel 5 具有动态参数的全局范围

我们在使用具有动态查询参数的全局范围时遇到问题全局作用域基于管理器 ID 但 model 为空并且 this 引用管理器作用域而不是模型因此 this gt id 是未定义的属性有没有办法做这样的事情 public function
kafka本地状态存储/变更日志中的保留时间

我使用 Kafka 和 Kafka Streams 作为 Spring Cloud Stream 的一部分我的 Kafka Streams 应用程序中流动的数据正在按特定时间窗口进行聚合和具体化 Materialized

kafka本地状态存储/变更日志中的保留时间

kafka本地状态存储/变更日志中的保留时间 的相关文章

随机推荐

热门标签

kafka本地状态存储/变更日志中的保留时间的相关文章