在 Apache Kafka 中，为什么消费者实例不能多于分区？

2023-12-20

我正在学习卡夫卡，阅读这里的介绍部分

https://kafka.apache.org/documentation.html#introduction https://kafka.apache.org/documentation.html#introduction

特别是关于消费者的部分。在引言的倒数第二段中写道

卡夫卡做得更好。通过在主题中采用并行性（分区）概念，Kafka 能够在消费者进程池上提供排序保证和负载平衡。这是通过将主题中的分区分配给消费者组中的消费者来实现的，这样每个分区仅由组中的一个消费者使用。通过这样做，我们确保消费者是该分区的唯一读取者，并按顺序消费数据。由于有很多分区这仍然可以平衡许多消费者实例的负载。但请注意，不能有消费者实例多于分区。

我的困惑源于最后一句话，因为在作者描述两个消费者组和一个 4 分区主题的那段正上方的图像中，消费者实例比分区多！

消费者实例的数量不能多于分区也是没有意义的，因为这样分区就会非常小，而且为每个消费者实例创建新分区的开销似乎会让 Kafka 陷入困境。我知道分区用于容错并减少任何一台服务器上的负载，但上面的句子在分布式系统的上下文中没有意义，该系统应该能够一次处理数千个消费者。

好吧，要理解它，需要理解几个部分。

为了提供排序总订单，消息只能发送给一个消费者。否则效率会非常低，因为它需要等待所有消费者都收到消息才能发送下一条消息：

然而，虽然服务器按顺序分发消息，但消息是异步传递给消费者的，因此它们可能会乱序到达不同的消费者。这实际上意味着在并行消费的情况下消息的顺序会丢失。消息系统通常通过“独占消费者”的概念来解决这个问题，该概念只允许一个进程从队列中消费，但这当然意味着处理中没有并行性。

卡夫卡做得更好。通过主题中的并行性（分区）概念，Kafka 能够在消费者进程池上提供排序保证和负载平衡。这是通过将主题中的分区分配给消费者组中的消费者来实现的，以便每个分区恰好由该组中的一个消费者消费。通过这样做，我们确保消费者是该分区的唯一读取者并按顺序消费数据。由于存在许多分区，这仍然可以平衡许多消费者实例的负载。但请注意，消费者实例的数量不能多于分区的数量。

Kafka 仅提供分区内消息的总顺序，而不提供主题中不同分区之间的消息总顺序。

另外，您认为的性能损失（多个分区）实际上是性能增益，因为 Kafka 可以完全并行地执行不同分区的操作，同时等待其他分区完成。

图中显示了不同的消费者组，但每个分区最多一个消费者的限制仅限于一个组内。您仍然可以拥有多个消费者组。

一开始描述了两种场景：

如果所有消费者实例都有相同的消费者组，那么这就像传统的队列在消费者上平衡负载一样工作。

如果所有消费者实例都有不同的消费者组，那么这就像发布-订阅一样，所有消息都会广播给所有消费者。

因此，订阅者组越多，性能就越低，因为 kafka 需要将消息复制到所有这些组并保证总顺序。

另一方面，组越少，分区越多，您从并行化消息处理中获得的收益就越多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Distributed

ApacheKafka

在 Apache Kafka 中，为什么消费者实例不能多于分区？的相关文章

如何使用 haproxy 负载均衡器 Kafka Bootstrap？

我有一个 kafka 集群由 3 台在 AWS 上运行的机器组成卡夫卡1到卡夫卡3 我正在使用新型卡夫卡消费者 gt 0 8 我知道kafka客户端连接到其中一台kafka服务器获取服务器元数据然后直接连接到代理我想确保在代理发生
动态创建消费者spring kafka

我正在创建一个与另一个服务通信的服务以便识别要收听的 kafka 主题 kafka主题可能有不同的键和值类型因此我想为每个配置主题键类型值类型动态创建不同的 kafka 消费者其中配置仅在运行时已知然而在 spring k
如何在 Spring Kafka 中以编程方式设置 Jsonserializer Type Value 方法

所以我无法仅使用 yaml 为 JsonSerializer 配置 JavaType 方法还不确定原因但与此同时我如何以编程方式设置它我在文档中看到了它的代码但是该代码到底需要在哪里运行 Spring Kafka JsonDese
模拟网络断开连接以在本地测试分布式应用程序分区

我有几个在本地主机上运行的分布式应用程序实例每个实例都通过某些端口与其他实例通信所有实例一起构成一个整体我实际上是在谈论动物园管理员 http hadoop apache org zookeeper 在 Linux 上运行现在我想编
在SSL模式下使用apache kafka

我正在尝试在 SSL 1 way 模式下设置 kafka 我已经阅读了官方文档并成功生成了证书我将记下两种不同情况的行为此设置只有一名经纪人和一名动物园管理员案例 1 经纪人间通信明文我的相关条目server properties
在 Confluence 4.1 + Kafka 1.1 中为 Kafka Connect 打包自定义 Java `partitioner.class` 插件？

我已经成功地将用 Java 编写的简单自定义 Partitioner 类用于 Confluence 3 2 x Kafka 0 10 x 上的 Kafka Connect 接收器我想升级到 Confluence 4 1 Kafka 1 1
Grafana/prometheus 中没有 kafka 指标

我成功部署了 Helm Chart普罗米修斯操作员 https github com coreos prometheus operator tree master helm prometheus operator kube 普罗米修斯 ht
kafka Avro 多个主题的消息反序列化器

我正在尝试以 avro 格式反序列化 kafka 消息我使用以下代码 https github com ivangfr springboot kafka debezium ksql blob master kafka research c
Kafka 主题删除不起作用

我使用的是 Kafka 0 8 2 版本在开发过程中我想我可能需要删除一个主题所以我所做的是将以下行放入服务器配置文件中并启动两个 kafka 服务器 delete topic enable true 当我需要删除一个主题并运行以下命
从副本消费

Kafka 将主题的每个分区复制到指定的复制因子据我所知所有写入和读取请求都会路由到分区的领导者有没有办法从追随者那里消费而不是从领导者那里消费 Kafka中的复制只是为了故障转移吗在 Kafka 2 3 及更早版本中您只能从领导
Kafka - 如何同时使用过滤器和过滤器？

我有一个 Kafka 流它从一个主题获取数据并且需要将该信息过滤到两个不同的主题 KStream
编辑 Kafka Listener Spring 应用程序以更改阶段/目标

我可以利用另一个运行 Kafka 应用程序代码库的团队来使用相同的数据将其加载到我们的新暂存表中而不是他们的他们在 Messages 文件夹中有许多不同的 kafka 侦听器适配器 java 文件每个文件消耗不同类型的数据每个
Kafka Streams - 跳跃窗口 - 去重键

我正在 4 小时窗口上进行跳跃窗口聚合每 5 分钟前进一次由于跳跃窗口重叠我得到了具有不同聚合值的重复键 TimeWindows of 240 60 1000L advanceBy 5 60 1000L 如何消除具有重复数据的重复键或
kafka 连接 s3 源无法与 Minio 一起使用

我已经验证了与 minio 的连接确保凭据工作正常并且可以访问 minio 另外如果我尝试任何其他值store url http minio 9000我无法保存配置所以我猜想在可见性方面不存在问题卡夫卡连接容器和minio容器我不确
KafkaConsumer.commitAsync() 行为的偏移量比以前更低

kafka 将如何处理调用 KafkaConsumer commitAsync Map
使用 kafka java api 的 Avro 序列化器和反序列化器

Kafka Avro 序列化器和反序列化器无法工作我尝试使用 kafka 控制台消费者消费消息我可以看到发布的消息 public class AvroProducer
Kafka Connect Confluence S3 Sink 连接器：找不到类 io.confluence.connect.avro.AvroConverter

使用此 Kafka Connect 连接器 https www confluence io hub confluenceinc kafka connect s3 https www confluent io hub confluentinc
Kafka Streams - 如何扩展 Kafka 存储生成的变更日志主题

我有多个冗余应用程序实例它们想要使用主题的所有事件并独立存储它们以进行磁盘查找通过rocksdb 为了便于论证我们假设这些冗余消费者正在服务无状态 http 请求因此负载不是使用 kafka 共享的而是使用 kafka 将数据从
Kafka：如何获取主题的最后修改时间，即添加到主题的任何分区的最后一条消息

我们的用例是从 kafka 中删除陈旧未使用的主题即如果某个主题在所有分区上在过去 7 天内没有任何新消息那么我们会将其视为陈旧未使用并删除它许多谷歌结果建议向消息添加时间戳然后解析它对于新主题和消息灵魂可以工作但我们
java：如何设置全局线程ID？

是否有可能为线程设置唯一ID 在分布式系统中线程是在许多不同的机器上创建的例如通过 RMI 我需要它来创建日志消息根据我的研究我知道可以使用 log4j mdc ndc 来完成但只能在单线程中完成我的问题是在创建线程时必须设置

随机推荐

Android Gradle - 如何包含根项目中的资源？

我有以下项目结构 MyProject build gradle client private server public app build gradle lint xml proguard project txt project prop
JSON.net反序列化对象嵌套数据

我正在使用 SwiftType Elastic Search C 并遇到反序列化响应的问题因为 SwiftType 将所有字段都返回为带有 a 的对象raw财产 https swiftype com documentation app s
setOnItemClickListener() 不适用于自定义 ListView @ Android

我已经实现了一个自定义ListView通过扩展LinearLayout对于每一行每行都有一个小缩略图一个文本和一个check box The list view部署正确我可以毫无问题地滚动和快速浏览它 But The ListView
Puput（基于 Wagtail 的博客）- 文件在哪里？

我已将 puput 博客添加到现有的 Django 项目中我遵循了设置独立博客应用程序的所有步骤 https puput readthedocs io en latest setup html https puput readthedoc
无法连接到 docker 的 docker 镜像中的守护进程 docker

我正在尝试使用 gitlab 构建 CI 我从 docker 的 docker 镜像开始我的前端存储库没有任何问题但现在后端使用相同的 gitlab ci 配置文件我遇到了这个守护进程错误这是构建的输出 0KRunning with
图像叠加闪烁？

事实是所有这些解决方案都有效只是不适用于该项目所以我将重新提出问题略有不同本质上我有一个图像当有人将鼠标光标移到它上面时它会显示一个 div 其中包含一个图像又名播放按钮当他们将光标移动到图像之外时播放按钮就会消失它有效
是否可以在 Excel VBA 中返回复选框的名称？

我目前正在处理几个包含数百个复选框的工作表这些复选框背后的代码工作正常但我正在寻找一种方法来列出每列复选框的名称即例如我需要知道 G 列中所有复选框的名称有谁知道这是否可能预先非常感谢考虑使用 TopLeftCell 属性
可数对象和不可数对象有什么区别

我正在尝试找出可数和不可数对象之间的差异首先我找到了对象的类型 echo gettype data current fiat currency 这是一个Object 但是当我检查它是否是一个可数对象时 var dump data curr
获取 Google 折线图的颜色值？

可以为 Google 图表设置颜色值但是是否可以获取图表的预设颜色值是否有一个数组可以保存这些值并可以访问在此 Google 网上论坛讨论中默认颜色数组未记录且无法访问但是如果您想要颜色数组泽维尔古马拉 https grou
VBA：具有多个操作的单行 if 语句

我真的应该能够用谷歌搜索这个但我找不到我想知道的东西我想检查文件是否存在如果没有将弹出一个消息框并且 VBA 应退出子进程 If Dir C file txt vbDirectory Then MsgBox File doesn
为什么 Spark ML ALS 算法打印 RMSE = NaN？

我使用 ALS 来预测评级这是我的代码 val als new ALS setMaxIter 5 setRegParam 0 01 setUserCol user id setItemCol business id setRatingCo
无法检索 write() 的 AudioTrack 指针

我正在尝试实现 AudioTrack 以在 Android 设备中检索来自 IAX 的来电音频但一段时间后遇到异常 private void writeBuff short buf try if this track null Log w
“长轮询”是创建 Web 实时应用程序的最有效方法吗？

我想创建一个像这样的应用程序 http collabedit com http collabedit com 创建这个实时应用程序的最有效方法是什么闪光长轮询 Http 流式传输或者是其他东西谢谢目前长轮询可能是最好的解决方案
Office 365 Sharepoint 将文件上传到文档库

我正在尝试使用以下代码通过 Web 服务将文件添加到 Sharepoint Office365 上的文档库 public void SaveFileToSharePoint string fileName try var copyServi
如何使用 cli 获取帐户的接近余额？

是否有可能使用接近帐户余额靠近 cli https docs near org docs tools near cli Running near state
使用 Ansible 在 Windows 上执行 .exe

我们想要在带有 Ansible 1 8 2 的 Windows Server 2012 上部署应用程序我已经搜索并找到了a list http docs ansible com list of windows modules htmlWi
如何在视图外评估 Aurelia 插值表达式？

在 Aurelia 中假设我有一个包含插值表达式的字符串 Today at value date time 和一些代表绑定上下文的对象 value new Date 有没有办法在视图之外只获取该字符串和该对象并获取结果格式化字符串即
如何修复错误消息：“chromedriver.exe”可执行文件可能具有错误的权限[重复]

这个问题在这里已经有答案了我正在安装 selenium 的网络驱动程序但是我收到以下错误 PermissionError Traceback most recent call last usr local lib python3 6 d
排除 Twitter 流中的回复 - tweepy

我正在使用 tweepy 从 Twitter 的流 api 中提取推文然后我用它来自动回复该用户例如如果我想从中提取实时推文然后回复唐纳德特朗普我可以使用 import tweepy from tweepy import Stre
在 Apache Kafka 中，为什么消费者实例不能多于分区？

我正在学习卡夫卡阅读这里的介绍部分 https kafka apache org documentation html introduction https kafka apache org documentation html intr

在 Apache Kafka 中，为什么消费者实例不能多于分区？

在 Apache Kafka 中，为什么消费者实例不能多于分区？ 的相关文章

随机推荐

热门标签

在 Apache Kafka 中，为什么消费者实例不能多于分区？的相关文章