Kafka Streams - 跳跃窗口 - 去重键

2024-05-15

我正在 4 小时窗口上进行跳跃窗口聚合，每 5 分钟前进一次。由于跳跃窗口重叠，我得到了具有不同聚合值的重复键。

TimeWindows.of(240 * 60 * 1000L).advanceBy(5 * 60* 1000L)

如何消除具有重复数据的重复键或仅选择包含最新值的键。

2021 年 5 月更新：Kafka Streams API 支持“最终”窗口结果 https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#window-final-results如今，通过suppress()操作员。请参阅之前的文档链接以及博客Kafka Streams 对水印和触发器的处理 https://www.confluent.io/blog/kafka-streams-take-on-watermarks-and-triggers/从 2019 年 3 月起了解详情。

定义窗口计算后，您可以抑制中间结果，在窗口关闭时发出每个用户的最终计数。

KGroupedStream<UserId, Event> grouped = ...;

grouped.windowedBy(TimeWindows.of(Duration.ofHours(1)).grace(ofMinutes(10)))
       .count()
       .suppress(Suppressed.untilWindowCloses(unbounded()))
       .filter((windowedUserId, count) -> count < 3)
       .toStream()
       .foreach((windowedUserId, count) -> sendAlert(windowedUserId.window(), windowedUserId.key(), count));

原始答案（在不使用时仍然适用suppress()上面的运算符）：

如果我理解正确，那么这是预期的行为。您没有看到“重复”密钥，但您看到同一密钥的连续更新。

Think:

# Extreme case: record caches disabled (size set to 0)
alice->1, alice->2, alice->3, alice->4, ..., alice->100, ...

# With record cache enabled, you would see sth like this.
alice->23, alice->59, alice->100, ...

看一下解释http://docs.confluence.io/current/streams/developer-guide.html#streams-developer-guide-memory-management http://docs.confluent.io/current/streams/developer-guide.html#streams-developer-guide-memory-management，它更详细地描述了这一点。如果您希望减少每个记录键的“重复项”，您可以通过以下方式增加记录缓存的大小（当使用 DSL 时）cache.max.bytes.buffering aka StreamsConfig.CACHE_MAX_BYTES_BUFFERING_CONFIG在您的应用程序的配置中。还有一个相互作用commit.interval.ms.

如果您想知道“为什么 Kafka Streams API 首先会以这种方式运行”，我会推荐这篇博客文章https://www.confluence.io/blog/watermarks-tables-event-time-dataflow-model/ https://www.confluent.io/blog/watermarks-tables-event-time-dataflow-model/本周早些时候发布的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheKafka

apachekafkastreams

Kafka Streams - 跳跃窗口 - 去重键的相关文章

kafka消费端Offsets的一致性

我有复制因子为 3 的卡夫卡主题min insync replicas 2 一个向该主题发送 X 条消息的生产者acks all 一段时间后 1 分钟内在所有消息发送到主题后将使用 java kafka 客户端为此主题创建新的消费者使
编辑 Kafka Listener Spring 应用程序以更改阶段/目标

我可以利用另一个运行 Kafka 应用程序代码库的团队来使用相同的数据将其加载到我们的新暂存表中而不是他们的他们在 Messages 文件夹中有许多不同的 kafka 侦听器适配器 java 文件每个文件消耗不同类型的数据每个
无法找到任何实现 Connector 且名称与 io.debezium.connector.mysql.MySqlConnector 匹配的类，可用的连接器有

使用 Kafka MySQL 和 Debezium 设置数据流管道我是这个版本的 Kafka 3 4 0 MySQL 8 Debezium 2 2 1 Java 11 目标我想从 MySQL 捕获所有 CDC 并将数据流式传输到 Kaf
生产者程序中的 kafka 网络处理器错误（ArrayIndexOutOfBoundsException：18）

我有下面的 kafka Producer Api 程序我对 kafka 本身是新手下面的代码从 API 之一获取数据并将消息发送到 kafka 主题 package kafka Demo import java util Propert
Apache Kafka Streams 将 KTable 物化到主题似乎很慢

我正在使用 kafka 流并试图将 KTable 具体化为一个主题它有效但似乎每 30 秒左右完成一次 Kafka Stream 如何何时决定将 KTable 的当前状态具体化为主题有没有什么办法可以缩短这个时间让其更加实时
Kafka Producer配置重试策略

需要更改 Kafka Producer 配置的哪些参数以便生产者应该 1 重试n次 2 n个间隔后如果代理关闭也会收到相同的消息我需要处理与此相关的情况 https github com rsyslog rsyslog issues
将数据从 Kafka 存储传输到 Kafka 主题

我想在卡夫卡做这样的事情继续将数据存储在 KStream Ktable Kafka store 中当我的应用程序收到特定事件数据时仅将上述存储中的特定数据集发送到主题我们可以在卡夫卡中做到这一点吗我认为单独使用 Kafka 消费
使用 offsets_for_times 从时间戳消费

尝试使用 confluence kafka AvroConsumer 来消费给定时间戳的消息 if flag creating a list topic partitons to search list map lambda p Topic
我的 Kafka 流应用程序刚刚退出，代码为 0，什么也不做

为了尝试 Kafka 流我这样做了 public static void main String args final StreamsBuilder builder new StreamsBuilder final Properties
了解Kafka流groupBy和window

我无法理解 kafka 流中的 groupBy groupById 和窗口的概念我的目标是聚合一段时间内例如 5 秒的流数据我的流数据看起来像 value 0 time 1533875665509 value 10 time 153
频繁出现“offset out of range”消息，分区被消费者抛弃

我们正在运行 3 节点 Kafka 0 10 0 1 集群我们有一个消费者应用程序它有一个连接到多个主题的消费者组我们在消费者日志中看到奇怪的行为有了这些线 Fetch offset 1109143 is out of range
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
如何检测 KTable 连接的哪一侧触发了更新？

当您在 Kafka 中连接两个表时每次更新两个 KTable 之一时您的输出 Ktable 也会更新想象一下你正在加入Customers与一个列表Orders你已经适当减少了再次想象一下您使用此连接的结果来为最终客户提供特别优惠和
卡夫卡流：RocksDB TTL

据我了解默认 TTL 设置为无穷大非正数但是如果我们需要在存储中保留数据最多 2 天我们可以使用 RocksDBConfigSetter 接口实现即 options setWalTtlSeconds 172800 进行覆盖吗或
Spring Kafka - 为任何主题的分区消耗最后 N 条消息

我正在尝试读取请求的卡夫卡消息数对于非事务性消息我们将从 endoffset N 对于 M 个分区开始轮询并收集当前偏移量小于每个分区的结束偏移量的消息对于幂等事务消息我们必须考虑事务标记重复消息这意味着偏移量将不连续在这
Kafka Java Consumer 已关闭

我刚刚开始使用卡夫卡我面临着消费者的一个小问题我用Java写了一个消费者我收到此异常 IllegalStateException 此消费者已关闭我在以下行中遇到异常 ConsumerRecords
Kafka 中的内部和外部通信

流动本地 gt 代理 gt Kafka advertised listeners PLAINTEXT proxyhostname 8080 for external communication listeners PLAINTEXT 90
从kafka获取特定时间段的结果

这是我的代码它使用kafka python now datetime now month ago now relativedelta month 1 topic some topic name consumer KafkaConsumer
Mesos DCOS 未安装 Kafka

我正在尝试在 Mesos 上安装 Kafka 看来安装已经成功了 vagrant DevNode dcos dcos package install kafka This will install Apache Kafka DCOS Ser
如何删除 Apache Kafka 中的主题？ [复制]

这个问题在这里已经有答案了我需要删除 Kafka 0 8 2 2 3 中的一个主题我使用以下命令删除主题 bin kafka topics sh zookeeper localhost 2181 delete topic DummyTo

随机推荐

如何防止 Visual Studio Code Flutter/Dart 编辑器格式化新行/换行代码？

我最近开始研究 Flutter Dart 我喜欢保存时自动格式化 Flutter 但有一件事可能相关也可能不相关那就是长代码的代码包装即使代码仍然适合我的 4k 编辑器窗口有没有办法防止换行但保持逗号自动格式 Thanks 请按照以下
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
左对齐图像和居中文本在 div 内的同一级别？

HTML br div class UpperTitle img src align left CableSolve Web Dashboard Version 0 1 1 div br CSS UpperTitle text align
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Global.asax PostAuthenticateRequest 事件绑定是如何发生的？

我怎样才能使用发布验证请求Global asax 事件我正在跟进本教程 http www asp net security tutorials forms authentication configuration and advanced
SML 如何检查变量类型？

有什么方法可以检查测试变量的类型吗我想这样使用它 if x int then foo else if x real then bar else if x string then else ML 语言是静态类型的因此某个东西不可能在不同
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
终结器线程的范围是什么 - 每个应用程序域或每个进程？

根据我的所有阅读应该有一个 GC 线程来调用所有终结器现在的问题是这个一个线程的范围是什么每个进程或每个应用程序域因为域的整体目的是在一个进程空间中分离并创建独立的不同应用程序 I read here http dn cod
有多少像素？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案一个有多少像素 br 标签添加我知道 br 高度可以通过CSS控制line height财产不同浏览器的值是否相同它会添加与浏览
从 F# 调用 Newtonsoft.Json 出现意外结果

我没有从该 F 代码中获得预期结果我希望 t 包含调用 JsonSchema Parse json 的结果但它是空的我究竟做错了什么 open Newtonsoft Json open Newtonsoft Json Schema l
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
不可见的 reCAPTCHA - 缺少必需的参数：sitekey

我正在为每个带有具有类的按钮的表单动态加载不可见的 reCAPTCHAg recaptcha 我遇到的问题是验证码未正确加载我不知道为什么我按照验证码网站上的文档进行操作但我不确定如何以及为什么会出现此错误 Uncaught Erro
DocuSign 创建一个长期存在的嵌入式签名 URL？

嵌入式签名 url API 方法返回的 URL信封视图 createRecipient https developers docusign com docs esign rest api reference Envelopes Envelo
Java 正则表达式中的逻辑 AND

是否可以在 Java Regex 中实现逻辑 AND 如果答案是肯定的那么如何实现呢正则表达式中的逻辑 AND 由一系列堆叠的先行断言组成例如 foo bar glarch 将匹配包含所有三个 foo bar 和 glarch 的任何
这两种方式哪一种是惯用的方式？ time.Sleep() 还是自动收报机？

我必须每分钟执行一些语句我不确定我应该遵循以下哪一项如果有人能解释内存和 CPU 方面的优缺点那就太好了时间 Sleep func main go func for time Sleep time Minute fmt Printl
Google Cloud Messaging 显示成功消息但未发送 iOS

所以我在使用 Google Cloud Messaging 时遇到了一个非常奇怪的问题我遇到的问题是它正在成功注册设备并且当发送消息时我会收到来自 Google 的成功消息但设备永远不会收到任何消息我从 GCM 得到的消息是 res
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
有没有办法在 MySQL 中有效地对 TRUNCATE 或 DROP TABLE 进行 GRANT ？

我最近在 MySQL 5 5 x 中尝试过 GRANT SELECT INSERT UPDATE DELETE TRUNCATE ON crawler TO my user localhost WITH GRANT OPTION 这会导致错
JetPack Compose - 卡中行中的weight() 不起作用

创建 Android 应用程序时我将一些可组合项放在卡片的一行中如下所示但它没有按我的预期工作我添加 weight 1f 的可组合项不再显示 data class Test val title String val text Str
Kafka Streams - 跳跃窗口 - 去重键

我正在 4 小时窗口上进行跳跃窗口聚合每 5 分钟前进一次由于跳跃窗口重叠我得到了具有不同聚合值的重复键 TimeWindows of 240 60 1000L advanceBy 5 60 1000L 如何消除具有重复数据的重复键或

Kafka Streams - 跳跃窗口 - 去重键

Kafka Streams - 跳跃窗口 - 去重键 的相关文章

随机推荐

热门标签

Kafka Streams - 跳跃窗口 - 去重键的相关文章