kafka处理快速的原因

2023-11-17

生产者分析

生产者（producer）是负责向Kafka提交数据的，我们先分析这一部分。Kafka会把收到的消息都写入到硬盘中，它绝对不会丢失数据。为了优化写入速度Kafka采用了两个技术，顺序写入和 MMFile。

顺序写入： 因为硬盘是机械结构，每次读写都会寻址->写入，其中寻址是一个“机械动作”，它是最耗时的。所以硬盘最“讨厌”随机I/O，最喜欢顺序I/O。为了提高读写硬盘的速度，Kafka就是使用顺序I/O。每一个Partition其实都是一个文件，收到消息后Kafka会把数据插入到文件末尾（虚框部分）。这种方法有一个缺陷—— 没有办法删除数据，所以Kafka是不会删除数据的，它会把所有的数据都保留下来，每个消费者（Consumer）对每个Topic都有一个offset用来表示读取到了第几条数据。如果不删除硬盘肯定会被撑满，所以Kakfa提供了两种策略来删除数据。一是基于时间，二是基于partition文件大小。具体配置可以参看它的配置文档。从分区读取数据的时候也是按顺序读取的，避免了随机读取。
mmap：即便是顺序写入硬盘，硬盘的访问速度还是不可能追上内存。所以Kafka的数据并不是实时的写入硬盘，它充分利用了现代操作系统分页存储来利用内存提高I/O效率。Memory Mapped Files(后面简称mmap)也被翻译成内存映射文件，在64位操作系统中一般可以表示20G的数据文件，它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上（操作系统在适当的时候）。内存映射文件的作用是使一个磁盘文件与存储空间中的一个缓冲区建立映射关系，然后当从缓冲区中取数据，就相当于读文件中的相应字节；而将数据存入缓冲区，就相当于写文件中的相应字节。这样就可以不使用read和write直接执行I/O了。

消费者分析

零拷贝发送消费消息， Kafka把所有的消息都存放在一个一个的文件中，当消费者需要数据的时候Kafka直接把“文件”发送给消费者。这就是秘诀所在，比如： 10W的消息组合在一起是10MB的数据量，然后Kafka用类似于发文件的方式直接扔出去了，如果消费者和生产者之间的网络非常好，10MB可能只需要1s。所以答案是——10W的TPS，Kafka每秒钟处理了10W条消息。

可能你说：不可能把整个文件发出去吧？里面还有一些不需要的消息呢？是的，Kafka作为一个“高级作弊分子”自然要把作弊做的有逼格。Zero Copy对应的是sendfile这个函数（以Linux为例），而sendfile的工作原理呢？
1）、系统调用 sendfile() 通过 DMA 把硬盘数据拷贝到 kernel buffer，然后数据被 kernel 直接拷贝到另外一个与 socket 相关的 kernel buffer。这里没有用户态和核心态之间的切换，在内核中直接完成了从一个 buffer 到另一个 buffer 的拷贝。
2）、DMA 把数据从 kernel buffer 直接拷贝给协议栈，没有切换，也不需要数据从用户态和核心态，因为数据就在 kernel 里。
Kafka是用mmap作为文件生产写入方式的，它就是一个文件句柄，所以直接把它传给sendfile进行消费；偏移也好解决，用户会自己保持这个offset，每次请求都会发送这个offset。（也可以放在zookeeper中）；数据量更容易解决了，如果消费者想要更快，就全部扔给消费者。如果这样做一般情况下消费者肯定直接就被压死了；所以Kafka提供了的两种方式——Push，我全部扔给你了，你死了不管我的事情；Pull，好吧你告诉我你需要多少个，我给你多少个。Kafka速度的秘诀在于，它把所有的消息都变成一个批量的文件，并且进行合理的批量压缩，减少网络IO损耗。通过mmap提高I/O速度，写入数据的时候由于单个Partion是末尾添加所以速度最优；读取数据的时候配合sendfile直接暴力输出。

Kafka高效文件存储设计特点：Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。Kafka的Message存储采用了分区(partition)，分段(LogSegment)和稀疏索引这几个手段来达到了高效性。Kafka解决查询效率的手段之一是将数据文件分段，比如有100条Message，它们的offset是从0到99。假设将数据文件分成5段，第一段为0-19，第二段为20-39，以此类推，每段放在一个单独的数据文件里面，数据文件以该段中最小的offset命名。这样在查找指定offset的Message的时候，用二分查找就可以定位到该Message在哪个段中。

通过索引信息可以快速定位message和确定response的最大大小。
通过index元数据全部映射到memory，可以避免segment file的IO磁盘操作。
通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。
比如：要查找绝对offset为7的Message：
1）、首先是用二分查找确定它是在哪个LogSegment中，自然是在第一个Segment中。
2）、打开这个Segment的index文件，也是用二分查找找到offset小于或者等于指定offset的索引条目中最大的那个offset。自然offset为6的那个索引是我们要找的，通过索引文件我们知道offset为6的Message在数据文件中的位置为9807。
3）、打开数据文件，从位置为9807的那个地方开始顺序扫描直到找到offset为7的那条Message。这套机制是建立在offset是有序的。索引文件被映射到内存中，所以查找的速度还是很快的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

kafka

kafka处理快速的原因的相关文章

k8s笔记25--k8s 跨主机网络flannel

k8s笔记25 k8s 跨主机网络flannel 简介不同机器上网络设备区别 flannel 网络常见三大后端模式 UDP VXLAN host gw 如何查看集群用哪种网络模式阿里云flannel容器网络 alloc 参考文档简介

随机推荐

解决IDEA中：Error running Tomcat8: Address localhost:1099 is already in use

今天在运行Web项目的时候突然运行不起来最后报Error running Tomcat8 Address localhost 1099 is already in use 从而致web项目无法运行看了一下原来是1099端口被占用解决
PyTorch3D 安装记录

1 PyTorch 安装 PyTorch 官网 PyTorch 官网最新版本的 PyTorch 最新版本的 PyTorch 以 cuda 11 3 Python 3 9 Pytorch 1 12 1 为例 conda 安装 conda i
端口重复处理

不废话上代码之端口重复处理 Description Web server failed to start Port 8080 was already in use Action Identify and stop the process
fragment嵌套viewpager嵌套fragment第二次加载数据不显示问题

这几天做项目遇到一个问题就是有这么一个页面是activity嵌套一个fragment1然后fragment1里放了一个viewpager viewpager里放了几个fragment 本来只有这么一个页面显示出来也没什么问题现在加新需
[架构之路-207]- 人人都是产品经理 - 常见的需求分析技术：实用的需求分析与建模详解过程（实操性强）

目录 1 1 需求分析建模的要点与误区 1 1 1 需求分析到底做什么 1 1 1 1 分解的方法 1 1 1 2 提炼合并重组 1 1 1 3 消除矛盾 1 1 2 建模的目标和要点 1 1 2 1 建模的目的 1 1 2 2 建模的
请问肾阴虚吃什么药？饮食注意什么？还有桂附地黄丸是治肾阴虚还是治肾阳虚的？谢谢

如果确属肾阴虚当用六味地黄丸但肾阴虚那么多的特征里最为明显的就是夜间盗汗如果不能确定还是改用桂附地黄丸在六味的基础上加了肉桂与附子两味温药作用就是在滋阴的基础上温补肾阳适宜平补即阴阳双补最适宜服用的季
揭秘区块链的核心技术之「哈希与加密算法」

大家都知道区块链的关键技术组成主要为 P2P网络协议共识机制密码学技术账户与存储模型而这些技术中又以密码学与共识机制这两点为最核心那么今天我们来详细的聊一聊密码学看一看密码学技术是如何在区块链中应用的首先我们需知道区
完整版彻底卸载SQL Server2019

首先我是因为SQL Server2019突然出现了一些问题然后重新安装了简直被这个软件整的没脾气希望我写的这个能帮助曾经和我一样被SQL Server卸载折磨得要疯的人我是总结了很多前辈写的然后重新安装SQL Server成功了希
javase学习笔记

01 01 计算机基础知识计算机概述了解 A 什么是计算机计算机在生活中的应用举例计算机 Computer 全称电子计算机俗称电脑是一种能够按照程序运行自动高速处理海量数据的现代化智能电子设备由硬件和软件所组成没有安装
jdk8源码之Queue-ArrayQueue

关于队列这个数据结构大家应该都是比较熟悉列队是一种先进先出 FIFO 的数据结构删除操作只能在表的头部插入操作只能在表的尾部 Queue一般是作为一个缓冲队列使用的简单举例生产端的生产速度偶尔会大于消费端的消费速度但又不想等待
OOP面向对象（继承，方法重写/覆盖，多态，instanceof运算符）2021-07-19java学习日记

7 19java学习日记 7 19日 java基础p 436 p460 学习时间 7 小时关键词 OOP extends继承方法覆盖重写多态运算符instanceof 面向对象中的继承 extends 只可以继承一个类不支持多继
让 Notion AI 介绍 Notion AI

Notion AI 是一种新型的人工智能技术它可以帮助我们更好地管理和组织信息并提高工作效率 Notion AI 结合了自然语言处理和机器学习技术可以自动识别和分类文本图像和音频等多种形式的信息帮助我们更快地找到所需的信息除了以
qt中控件的使用函数

1 Text Edit编辑框将编辑框中的内容转化成Utf8编码 ui gt textEdit gt toPlainText toUtf8 2 Combo Box下拉框的应用 1 将内容加入下拉框中 ui gt comboBox gt ad
Jmter生成MD5 jmter使用md5 jmter使用自定义参数 jmter生成自定义参数 jmter编写java代码

Jmter生成MD5 jmter使用md5 jmter使用自定义参数 jmter生成自定义参数 jmter编写java代码 1 创建一个线程组 2 创建线程组 http请求 3 在 http请求添加前置处理器 BeanShell 4 请求测
Nginx、FFmpeg实现浏览器无插件播放大华IPC、NVR设备视频

Nginx FFmpeg实现浏览器无插件播放大华IPC NVR设备视频使用Nginx FFmpeg将rtsp流转换为hls流 web页面通过video js实现视频播放一软件安装 1 安装Nginx Windows平台下下载Ngin
小米推出物联网软件平台Xiaomi Vela；苹果11月11日再开发布会，自研处理器Mac有望推出；华为：计划在上海建芯片厂...

EA周报 2020年11月06日每个星期7分钟元宝带你喝一杯IT人的浓缩咖啡了解天下事掌握IT核心技术周报看点 1 小米推出物联网软件平台Xiaomi Vela 可打通 IoT 应用 2 证监会回应蚂蚁集团暂缓上市避免蚂蚁仓促上
python王者归来 pdf下载_OpenStack开源云王者归来 PDF

给大家带来的一篇关于OpenStack相关的电子书资源介绍了关于OpenStack 开源云方面的内容本书是由清华大学出版社出版格式为PDF 资源大小315279 MB 戢友编写目前豆瓣亚马逊当当京东等电子书综合评分为 8 2
RabbitMQ学习总结(含java代码)

MQ的概念 MQ message queue 本质是一个队列先进先出 MQ的作用 1 流量削峰流量高峰期将请求订单分多次进行处理防止服务器崩溃但是会影响一定的用户体验 2 应用解耦在多模块系统中一个应用有多个模块系统当一个系
面试：Java有哪几种引用类型

Interviewer 你好请先做一下自我介绍吧 applicant interviewer 你好俺叫小明巴拉巴拉巴拉巴 Interviewer 小明啊那你说一下 Java有哪几种引用类型吧 applicant 嗯啊 enenene
kafka处理快速的原因

生产者分析生产者 producer 是负责向Kafka提交数据的我们先分析这一部分 Kafka会把收到的消息都写入到硬盘中它绝对不会丢失数据为了优化写入速度Kafka采用了两个技术顺序写入和 MMFile 顺序写入因为硬盘是机

kafka处理快速的原因

生产者分析

消费者分析

kafka处理快速的原因 的相关文章

随机推荐

热门标签

kafka处理快速的原因的相关文章