实战--Kafka学习（二）

2023-11-12

问题导读
1.Kafka工作包含哪些流程？
2.为防止log文件过大导致数据定位效率低下，kafka引入了什么？
3.Kafka生产者分区的原因和原则是什么？
4.Kafka数据可靠性是如何保证的？

3.1 Kafka工作流程及文件存储机制

Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。
topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。

由于生产者生产的消息会不断追加到log文件末尾，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号。例如，first这个topic有三个分区，则其对应的文件夹为first-0,first-1,first-2。

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index和log文件以当前segment的第一条消息的offset命名。下图为index文件和log文件的结构示意图。

“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元数据指向对应数据文件中message的物理偏移地址。

3.2 Kafka生产者

3.2.2 分区策略
1）分区的原因
（1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；
（2）可以提高并发，因为可以以Partition为单位读写了。
2）分区的原则
我们需要将producer发送的数据封装成一个ProducerRecord对象。

（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；
（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；
（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin 算法。

3.2.3 数据可靠性保证
为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

1）副本数据同步策略

Kafka选择了第二种方案，原因如下：
1.同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。
2.虽然第二种方案的网络延迟会比较高，但网络延迟对Kafka的影响较小。

2）ISR
      采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？
      Leader维护了一个动态的in-sync replica set (ISR)，意为和leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给follower发送ack。如果follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。Leader发生故障之后，就会从ISR中选举新的leader。

3）ack应答机制
对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。
所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置。
acks参数配置：
acks：
0：producer不等待broker的ack，这一操作提供了一个最低的延迟，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；
1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；

-1（all）：producer等待broker的ack，partition的leader和follower全部落盘成功后才返回ack。但是如果在follower同步完成后，broker发送ack之前，leader发生故障，那么会造成数据重复。

4）故障处理细节

（1）follower故障
follower发生故障后会被临时踢出ISR，待该follower恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。等该follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR了。
（2）leader故障
leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。
注意：这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

3.2.4 Exactly Once语义
对于某些比较重要的消息，我们需要保证exactly once语义，即保证每条消息被发送且仅被发送一次。
在0.11版本之后，Kafka引入了幂等性机制（idempotent），配合acks = -1时的at least once语义，实现了producer到broker的exactly once语义。
idempotent + at least once = exactly once
使用时，只需将enable.idempotence属性设置为true，kafka自动将acks属性设为-1。

3.3Kafka消费者

3.3.1 消费方式
consumer采用pull（拉）模式从broker中读取数据。

push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，Kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout。

3.3.2 分区分配策略
一个consumer group中有多个consumer，一个 topic有多个partition，所以必然会涉及到partition的分配问题，即确定那个partition由哪个consumer来消费。
Kafka有两种分配策略，一是roundrobin，一是range。

1）roundrobin

2）range

3.3.3 offset的维护
由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。
Kafka 0.9版本之前，consumer默认将offset保存在Zookeeper中，从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets。

3.4 Kafka 高效读写数据
1）顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到到600M/s，而随机写只有100k/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

2）零复制技术

3.5 Zookeeper在Kafka中的作用
Kafka集群中有一个broker会被选举为Controller，负责管理集群broker的上下线，所有topic的分区副本分配和leader选举等工作。
Controller的管理工作都是依赖于Zookeeper的。
      以下为partition的leader选举过程：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

实战--Kafka学习（二）的相关文章

Kafka Producer 发送数据

Kafka Producer 发送数据 1 生产者概览 1 不同的应用场景对消息有不同的需求即是否允许消息丢失重复延迟以及吞吐量的要求不同场景对Kafka生产者的API使用和配置会有直接的影响 2 Kafka发送消息的主要步骤消息
2023-详解实时数仓建设

一实时数仓建设背景 1 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切需要实时数仓的能力来赋能传统离线数仓的数据时效性是 T 1 调度频率以天为单位无法支撑实时场景的数据需求即使能将调度频率设置成
kafka如何避免消费组重平衡

目录前言协调者重平衡的影响避免重平衡重平衡发生的场景参考资料前言 Rebalance 就是让一个 Consumer Group 下所有的 Consumer 实例就如何消费订阅主题的所有分区达成共识的过程在 Rebalance
《消息队列高手课》缓存策略：如何使用缓存来减少磁盘IO？

现代的消息队列都使用磁盘文件来存储消息因为磁盘是一个持久化的存储即使服务器掉电也不会丢失数据绝大多数用于生产系统的服务器都会使用多块儿磁盘组成磁盘阵列这样不仅服务器掉电不会丢失数据即使其中的一块儿磁盘发生故障也可以把数据从其
kafka中partition数量与消费者对应关系

kafka是由Apache软件基金会开发的一个开源流处理平台 kafka是一种高吞吐量的分布式发布订阅消息系统它可以处理消费者在网站中的所有动作流数据 kafka中partition类似数据库中的分表数据可以起到水平扩展数据的目的比如
Kafka：主题创建、分区修改查看、生产者、消费者

文章目录 Kafka后台操作 1 主题 2 分区 3 生产者 4 消费者组 Kafka后台操作 1 主题 1 创建主题 bin kafka topics sh create bootstrap server hadoop102 9092 r
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
黑马头条热点文章实时计算、kafkaStream

热点文章实时计算 1 今日内容 1 1 定时计算与实时计算 1 2 今日内容 kafkaStream 什么是流式计算 kafkaStream概述 kafkaStream入门案例 Springboot集成kafkaStream 实时计算用
Flink设置Source数据源使用kafka获取数据

流处理说明有边界的流bounded stream 批数据无边界的流unbounded stream 真正的流数据 Source 基于集合 package com pzb source import org apache flink ap
Flink消费kafka出现空指针异常

文章目录出现场景表现问题解决 tombstone Kafka中提供了一个墓碑消息 tombstone 的概念如果一条消息的key不为null 但是其value为null 那么此消息就是墓碑消息出现场景双流join时采用的是l
仿kafka实现java版时间轮

系统定时超时在我们平时的项目开发中会设置系统的超时时间比如在http接口中设置超时时间在定时调度中也会用到在jdk的开发的实现Timer和ScheduledThreadPoolExecutor DelayQueue定时调度中使用
kafka + zookeeper下载/安装/使用(超详细)

kafka是需要zk来支持所以先下载zk 1 下载安装zookeeper 下载地址选择不带source的下载下来解压2次进入到 D zookeeper apache zookeeper 3 6 1 bin conf 目录下把zoo
Kafka : KafkaProducer Closing the kafka producer with timeoutMillis

1 美图 2 背景一段kafka写入程序不晓得为啥突然发现很多奇怪的日志 kafka 多线程发送数据然后在本地是可以的在服务器上是偶现的我写了一个本地程序多线程生产数据发现是没有问题的 Test public void mult
ELK配置记录（filebeat+kafka+Logstash+Elasticsearch+Kibana）

一简介 elk日志平台日志收集分析和展示的解决方案满足用户对志的查询排序统计需求 elk架构 filebeat 采集 kafka Logstash 管道 Elasticsearch 存储搜索 Kibana 日志应用各组件功
explain查看sql语句执行计划

explain sql 执行结果字段描述 id select唯一标识 select type select类型 table 表名称 type 连接类型 possible keys 可能的索引选择 key 实际用到的索引 key len 实际
[分布式] zookeeper集群与kafka集群

目录一 Zookeeper 概述 1 1 Zookeeper定义 1 2 Zookeeper 工作机制 1 3 Zookeeper 特点 1 4 Zookeeper 数据结构 1 5 Zookeeper 应用场景 1 6 Zookeepe
公司实战 ElasticSearch+Kafka+Redis+MySQL

一需求前一段时间公司要进行数据转移将我们ES数据库中的数据转移到客户的服务器上并且使用定时将新增的数据同步在这过程中学到了很多在此记录一下二技术栈 Mysql Redis ElasticSearch Kafka 三方案为
kafka系列——KafkaProducer源码分析

实例化过程在KafkaProducer的构造方法中根据配置项主要完成以下对象或数据结构的实例化配置项中解析出 clientId 用于跟踪程序运行情况在有多个KafkProducer时若没有配置 client id则clientId
Kafka——Mac搭建kafka环境

1 下载Kafka安装包下载地址将压缩包移动到 usr local mv kafka 2 12 3 1 0 tgz usr local 解压 tar zxvf kafka 2 12 3 1 0 tgz 2 启动启动zookeeper
Kafka 监控系统Eagle 使用教程 V1.4.0

1 下载安装zookeeper 2 下载安装kafka 3 下载安装kafka eagle http download kafka eagle org tar zvxf kafka eagle bin 1 4 0 tar gz 4 配置JA

随机推荐

[网站搭建] 阿里云搭建个人网站及域名绑定

前一篇网站搭建阿里云虚拟主机搭建及FTP文件上传主要讲述了如何通过阿里云虚拟机搭建网站服务器同时FTP上传文件登录后进入控制台或管理界面接下来的主要步骤如下图所示 1 获取追加信息 2 网站备案 3 上传网站数据库数据 4 网站
CSR867x — 广播数据设置接口以及如何添加厂商数据

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XX 作者文化人 XX 联系方式 XX 版权声明原创文章欢迎评论和转载转载时能告诉我一声就最好了 XX 要说的话作者水平有
Visdom：Python可视化神器

Visdom 可视化神器项目地址 visdom 文章目录 Visdom 可视化神器 visdom实质 visdom核心概念 env 环境 pane 窗格创建Visdom环境常用API plot scatter plot line pl
重新学javaweb---过滤器应用--全站乱码

之前没用过滤器的时候我们解决乱码的办法是在每个servlet最前面加响应乱码 response setCharacterEncoding utf 8 通知服务器 response setContentType text html cha
解决VMware虚拟机Ubuntu 18.04无法上网问题！

由于应用需要安装了Ubuntu18 04 整体效果还不错唯一的BUG就是网络不稳定很容易断网常常出现 connected failed 解决办法 1 sudo service network manager stop 2 删除之前先
Epoll实验总结

Epoll实验总结 2012 09 06 15 54 10 分类 network program 标签 epoll c 举报字号订阅下载LOFTER 我的照片书一超时实验建立一个阻塞模式的tcp连接到一个没有监听的服务端口肯定
【vue3】vue3在父组件中调用子组件中定义的methods

首先要区分子组件的setup的写法写法1 子组件的setup写在
声音的基础知识

一声音的定义声音 sound 是由物体振动产生的声波是通过介质空气或固体液体传播并能被人或动物听觉器官所感知的波动现象最初发出振动震动的物体叫声源声音以波的形式振动震动传播声音是声波通过任何介质传播形成的运动声音
【mmsegmentation模型训练deeplabv3】自定义数据集加载和训练

目录前言 mmsegmentation下载 mmsegmentation官网欢迎来到 MMSegmentation 的文档 MMSegmentation 0 27 0 文档https mmsegmentation readthedocs
Mac os使用git，不依赖Xcode

说明后来发现使用mac的命令行开发者工具很香于是又删除了下文安装的git 直接点击下图的安装来获取命令行开发者工具安装路径是 Library Developer CommandLineTools 包含了git gcc g make
import com.google.common.* 出错，找不到

一问题在启动项目的时候 import com google common base Preconditions 报错找不到这个类二解决要引入guavar依赖 Guava 中文是石榴的意思该项目是 Google 的一个开源项目
JavaWeb 相关问题汇总：

我是目录 1 输入 URL 后发生了什么事情如何定位服务资源 2 如何接收 HTTP 请求数据 3 ajax有什么作用 4 Filter 过滤器 5 tomcat 1 输入 URL 后发生了什么事情如何定位服务资源通过IP找到主机通
华为OD2023(A卷)基础题27【找数字、找等值元素】

华为OD机试找数字找等值元素找数字给一个二维数组nums 对于每一个元素num i 找出距离最近的且值相等的元素输出横纵坐标差值的绝对值之和如果没有等值元素则输出 1 输入描述输入第一行为二维数组的行输入第二行为二维数组的
java通过经纬度获取区间

引入依赖
python语言程序设计实践教程答案上海交通大学陈东_《C语言程序设计》蔺德军主著【摘要书评在线阅读】-苏宁易购图书...

商品参数作者蔺德军主著出版社辽宁大学出版社出版时间 2015 11 01 ISBN 9787121274220 版权提供辽宁大学出版社基本信息书名 C语言程序设计上机实验与习题解答定价 29 00元售价 18 6元便
卡内基梅隆大学（CMU），那些经受住时间考验的机器学习论文–第二弹：动态主题模型

这次我们要解释一种典型的机器学习算法动态主题模型 Dynamic Topic Model 概率主题模型和概率图模型是每个做文本挖掘的学者的必学课题其中最常见的主题模型是隐含狄利克雷分布 LDA 当然本文的动态主题模型也是主题模型的一
Mysql group by 与order by 一起使用

项目中遇到这样的要求从数据表里查出每台机器的最后一次链接时间必须group by机器id order by connect time SELECT c d equipment type FROM ms gateway connect c
C++中float和double的比较

在c 开发中 double或者float类型判断相等性不能简单的用等于符号进行一般会采用如下方式进行判断 static inline bool DoubleEqual double a double b return fabs a b
Log4j学习笔记

Log4j学习笔记 1 入门实例 2 Log4j基本使用方法 2 1 定义配置文件 2 2 在代码中使用Log4j 2 3 日志级别本文参考https blog csdn net u013870094 article details 79
实战--Kafka学习（二）

问题导读1 Kafka工作包含哪些流程 2 为防止log文件过大导致数据定位效率低下 kafka引入了什么 3 Kafka生产者分区的原因和原则是什么 4 Kafka数据可靠性是如何保证的 3 1 Kafka工作流程及文件存储机制Kafka

实战--Kafka学习（二）

实战--Kafka学习（二） 的相关文章

随机推荐

热门标签

实战--Kafka学习（二）的相关文章