Rocksdb Compaction原理

2023-11-07

概述

compaction主要包括两类：将内存中imutable 转储到磁盘上sst的过程称之为flush或者minor compaction；磁盘上的sst文件从低层向高层转储的过程称之为compaction或者是major compaction。对于myrocks来说，compaction过程都由后台线程触发，对于minor compaction和major compaction分别对应一组线程，通过参数rocksdb_max_background_flushes和rocksdb_max_background_compactions可以来控制。通过minor compaction，内存中的数据不断地写入的磁盘，保证有足够的内存来应对新的写入；而通过major compaction，多层之间的SST文件的重复数据和无用的数据可以迅速减少，进而减少sst文件占用的磁盘空间。对于读而言，由于需要访问的sst文件变少了，也会有性能的提升。由于compaction过程在后台不断地做，单位时间内compaction的内容不多，不会影响整体的性能，当然这个可以根据实际的场景对参数进行调整，compaction的整体架构可以参见图1。了解了compaction的基本概念，下面会详细介绍compaction的流程，主要包括两部分flush(minor compaction)，compaction(major compaction)，对应的入口函数分别是BackgroundFlush和BackgroundCompaction。

flush(minor-compaction)

Rockdb中在内存的数据都是通过memtable存储，主要包括两种形式，active-memtable和immutable-memtable。active-memtable是当前正在提供写操作的memtable，当active-memtable写入超过阀值(通过参数wirte_buffer_size控制)，会将这个memtable标记为read-only，然后再创建一个新的memtable供新的写入，这个read-only的memtable就是immutable-memtable。我们所说的flush操作就是将imumutable-memtable 写入到level0的过程。flush过程以column family为单位进行，一个column family是一组sst文件的集合，在myrocks中一个表可以是一个单独的column family，也可以多个表共用一个column family。每个column family中可能包含一个或多个immutable-memtable，一个flush线程会抓取column family中所有的immutable-memtable进行merge，然后flush到level0。由于一个线程在flush过程中，新的写入也源源不断进来，进而产生新的immutable-memtable，其它flush线程可以新起一个任务进行flush，因此在rocksdb体系下，active-memtable->immutable-memtable->sst文件转换过程是流水作业，并且flush可以并发执行，相对于levelDB，并发compaction的速度要快很多。通过参数max_write_buffer_number可以控制memtable的总数量，如果写入非常快，而compaction很慢，会导致memtable数量超过阀值，导致write stall的严重后果。另外一个参数是min_write_buffer_number_to_merge，整个参数是控制至少几个immutable才会触发flush，默认是1。flush的基本流程如下：

1.遍历immutable-list,如果没有其它线程flush，则加入队列

2.通过迭代器逐一扫描key-value，将key-value写入到data-block

3.如果data block大小已经超过block_size(比如16k)，或者已经key-value对是最后的一对，则触发一次block-flush

4.根据压缩算法对block进行压缩，并生成对应的index block记录(begin_key, last_key, offset)

5.至此若干个block已经写入文件，并为每个block生成了indexblock记录

6.写入index block，meta block，metaindex block以及footer信息到文件尾

7.将变化sst文件的元信息写入manifest文件

flush实质是对memtable中的记录进行一次有序遍历，在这个过程中会去掉一些冗余的记录，然后以block为单位写入sst文件，写入文件时根据压缩策略确定是否对block进行压缩。为什么会有冗余记录？这个主要是因为rocksdb中无论是insert，update还是delete，所有的写入操作都是以append的方式写入memtable，比如先后对key=1的记录执行三个操作insert(1),update(1),delete(1),在rocksdb中会产生3条不同记录。(在innodb中，对于同一个key的操作都是原地更新，只有一条记录)。实际上delete后这个记录不应该存在了，所以在合并时，可以干掉这些冗余的记录，比如这里的insert(1),update(1)，这种合并使得flush到level0的sst已经比较紧凑。冗余记录主要有以下三种情况：(user_key, op)表示对user_key的操作,比如put，delete等。

1.对于(user_key,put),(user_key,delete),则可以将put删掉

2.对于(user_key,single-delete),(user_key,put)，single-delete保证put，delete成对出现，可以同时将两条记录都删掉。

3.对于(user_key,put1)，(user_key,put2)，(user_key,put3)可以干掉比较老的put

对于以上3种情况，都要考虑snapshot，如果要删除的key在某个snapshot可见，则不能删除。注意第1种情况，(user_key,delete)这条记录是不能被删除的，因为对用户而言，这条记录已经不存在了，但由于rocksdb的LSM-tree存储结构，这个user_key的记录可能在level0，level1或者levelN，所以(user_key, delete)这条记录要保留，直到进行最后一层的compaction操作时才能将它干掉。第2种情况，single-delete是一个特殊的delete操作，这个操作保证了put，delete一定是成对出现的，所以flush时，可以将这两条记录同时干掉。

compaction(major-compaction)

我们通常所说的compaction就是major-compaction，sst文件从低level合并到高level的过程，这个过程与flush过程类似，也是通过迭代器将多个sst文件的key进行merge，遍历key然后创建sst文件。flush的触发条件是immutable memtable的数量是否超过了min_write_buffer_number_to_merge，而compaction的触发条件是两类：文件个数和文件大小。对于level0，触发条件是sst文件个数，通过参数level0_file_num_compaction_trigger控制，score通过sst文件数目与level0_file_num_compaction_trigger的比值得到。level1-levelN触发条件是sst文件的大小，通过参数max_bytes_for_level_base和max_bytes_for_level_multiplier来控制每一层最大的容量，score是本层当前的总容量与能存放的最大容量的比值。rocksdb中通过一个任务队列维护compaction任务流，通过判断某个level是否满足compaction条件来加入队列，然后从队列中获取任务来进行compact。compaction的主要流程如下：

1.首先找score最高的level，如果level的score>1，则选择从这个level进行compaction

2.根据一定的策略，从level中选择一个sst文件进行compact，对于level0，由于sst文件之间(minkey,maxkey)有重叠，所以可能有多个。

3.从level中选出的文件，我们能计算出(minkey,maxkey)

4.从level+1中选出与(minkey,maxkey)有重叠的sst文件

5.多个sst文件进行归并排序，合并写出到sst文件

6.根据压缩策略，对写出的sst文件进行压缩

7.合并结束后，利用VersionEdit更新VersionSet，更新统计信息

上面的步骤基本介绍了compaction的流程，简单来说就是选择某个level的sst文件与level+1中存在重叠的sst文件进行合并，然后将合并后的文件写入到level+1层的过程。通过判断每个level的score是否大于1，确定level是否需要compact；对于level中sst文件的选择，会有几种策略，默认是选择文件size较大，包含delete记录较多的sst文件，这种文件尽快合并有利于缩小空间。关于选择sst文件的策略可以参考options.h中的CompactionPri的定义。每次会从level中选取一个sst文件与下层compact，但由于level0中可能会有多个sst文件存在重叠的范围，因此一次compaction可能有多个level0的sst文件参与。rocksdb后台一般有多个线程执行compact任务，compaction线程不断地从任务队列中获取任务，也会不断地检查每个level是否需要compact，然后加入到队列，因此整体来看，compact过程是并发的，但并发的基本原则是，多个并发任务不会有重叠的key。对于level0来说，由于多个sst文件会存在重叠的key范围，根据level0，level+1中参与compact的sst文件key范围进行分区，划分为多个子任务进行compact，所有子任务并发执行，都执行完成后，整个compact过程结束。另外还有一个问题要说明的是，compact时并不是都需要合并，如果level中的输入sst文件与level+1中无重叠，则可以直接将文件移到level+1中。

Universal Compaction

前面介绍的compaction类型是level compaction，在rocksdb中还有一类compaction，称之为Univeral Compaction。Univeral模式中，所有的sst文件都可能存在重叠的key范围。对于R1,R2,R3,...,Rn,每个R是一个sst文件，R1中包含了最新的数据，而Rn包含了最老的数据。合并的前提条件是sst文件数目大于level0_file_num_compaction_trigger，如果没有达到这个阀值，则不会触发合并。在满足前置条件的情况下，按优先级顺序触发以下合并。

1.如果空间放大超过一定的比例，则所有sst进行一次compaction，所谓的full compaction，通过参数max_size_amplification_percent控制。

2.如果前size(R1)小于size(R2)在一定比例，默认1%，则与R1与R2一起进行compaction，如果（R1+R2)*(100+ratio)%100<R3，则将R3也加入到compaction任务中，依次顺序加入sst文件

3.如果第1和第2种情况都没有compaction，则强制选择前N个文件进行合并。

相对于level compaction，Univeral compaction由于每一次合并的文件较多，相对于level compaction的多层合并，写放大较小，付出的代价是空间放大较大。除了前面介绍的level compaction和univeral compaction，rocksdb还支持一种FIFO的compaction。FIFO顾名思义就是先进先出，这种模式周期性地删除旧数据。在FIFO模式下，所有文件都在level0，当sst文件总大小超过阀值max_table_files_size，则删除最老的sst文件。整个compaction是LSM-tree数据结构的核心，也是rocksDB的核心，本文梳理了几种compaction方式的基本流程，里面还有很多的细节没有涉及到，有兴趣的同学可以在本文的基础上仔细阅读源码，加深对compaction的理解。

附录

flink

Rocksdb Compaction原理的相关文章

用vue构建项目笔记5(在vue-cli项目中引用公用方法)（vue resource统一处理）

之前用cli脚手架构建的项目废了又让我改成jq了悲剧这次这个项目用纯vue实现了哈哈下面介绍如何引入全局方法供每个组件都能调用 1 创建一个js文件我起的名字叫做 common js 放在assets gt js下 2 在com

随机推荐

vue文件夹上传源码

一功能性需求与非功能性需求要求操作便利一次选择多个文件和文件夹进行上传支持PC端全平台操作系统 Windows Linux Mac 支持文件和文件夹的批量下载断点续传刷新页面后继续传输关闭浏览器后保留进度信息支持文件夹批量上
[论文解读]UNet++解读 + 它是如何对UNet改进 + 作者的研究态度和方式

UNet 论文地址 UNet 论文翻译地址 UNet 源代码地址 UNet 作者在知乎上进行了解读里面还有视频的详解深入人心里面的每一句话都令我印象深刻我总结如下很多论文给出了他们建议的网络结构其中包括非常多的细节比如
Oracle常用及非常用函数

感于总有些网友提出一些非常基础的问题比如有没有实现某某功能的函数啊某某函数是做什么用的啊格式是什么等等同时也感受到自己对oracle函数认识的不足于是集中月余时间专注于oracle函数小有心得不敢私藏发之与诸公共享本文并不准
Java 使用BufferedImage快速画出图片

Java 使用BufferedImage快速画出图片在上一篇文章中我们学习了类似相机中的一些功能比如黑白马赛克等但是我们发现一个问题画的太慢了一张图片能画半天而且还是一条一条的今天我们来学习如何迅速的画出图片新知识 new
C++ 正则表达式regex（二）

正则匹配查找与替代书写好模式字符串后需要将待匹配的字符串和模式字符串进行一定规则的匹配包括三种方式匹配 regex match 查找 regex search 替换 regex replace 匹配很简单直接将待匹配字符串和模式
PLSQL连接ORACLE时弹出空白框

前两天一台数据库服务器坏掉了重新找了台同型号的替换服务器系统装好后就在本地机器上远程操作服务器配置数据库后新部署的服务就是起不来怀疑数据库的问题就各种折腾还是没有起作用用本地PLSQL链接ORACLE时就出现一个小白框
HBase选择Store file做compaction的算法

The algorithm is basically as follows Run over the set of all store files from oldest to youngest If there are more than
Maven : Log4j2 could not find a logging implementation

1 美图 3 错误信息 Log4j2 could not find a logging implementation Please add log4j core to the classpath 解决办法 pom把log4j api也加进去
开源电路仿真软件CircuitJS1介绍与使用入门

文章目录前言基础介绍使用入门界面与显示绘制与操作保存为文件子电路绘制与使用总结前言在做电路设计的过程中经常需要用到电路仿真软件对设计的电路进行仿真以确定电路工作特性或者元件的参数取值使用电路仿真软件可以缩短电路开发时
CentOS系统安装Apache步骤详解

1 通过 yum y install httpd 安装apache服务 2 使用 systemctl start httpd 启动Apache服务器并测试启动情况 3 修改主页 4 访问测试这样 centos的apache服务就搭建好了
单片机毕设基于stm32的WiFi监控小车

文章目录 1 背景 2 系统设计方案 2 1 实现功能 2 1 1 硬件部分 2 1 2 软件部分 2 1 3 WIFI通信功能 2 2 系统架构 2 2 1 WiFi 通信 2 2 2 电机驱动 2 2 3 摄像头 2 2 4 舵机 2
合宙Air724UG LuatOS-Air LVGL API控件-图片 (Image)

图片 Image 图片IMG是用于显示图像的基本对象类型图像来源可以是文件或者定义的符号示例代码创建图片控件 img lvgl img create lvgl scr act nil 设置图片显示的图像 lvgl img set s
C# 执行 .bat 文件

string path E a bat Process pro new Process FileInfo file new FileInfo path pro StartInfo WorkingDirectory file Director
在react hook里使用mobx(配置mobx依赖)

在powershell里安装依赖直接npm i mobx或者npm i mobx react是会报错的 npm i mobx mobx react save save是下载到 dependencies 里 npm i mobx react
图像边缘及matlab实现

图像边缘是图像的重要特征是图像中特性如像素灰度纹理等分布的不连续处图像周围特性有阶跃变化或屋脊状变化的那些像素集合图像的边缘部分集中了图像的大部分信息一幅图像的边缘结构与特点往往是决定图像特质的重要部分图像边缘的另一个定义是
Spring Boot + Vue的网上商城之物流系统实现

Spring Boot Vue的网上商城之物流系统实现思路当构建一个物流系统时我们可以按照以下步骤进行设计数据模型首先确定系统中需要存储的数据例如物流公司信息物流订单信息等根据需求设计相应的数据模型包括实体类和数据库表结构
软件工程考试归纳知识点

软件工程第一章什么是软件软件是计算机系统中与硬件子系统相互依存的另一个子系统是一个包含程序及其文档资料的完整集合提供了用户与硬件子系统之间的接口软件的特征 1 软件固有的特性复杂性抽象性依赖性软件使用特性 2 软件生产特
Python之可变参数，*参数，**参数，以及传入*参数，进行解包

1 定义了一个需要两个参数的函数 def print str first second print first print second if name main print str hello world 如果传一个参数调用 print
Blink 帮助文档编译

个人使用的是Centos7 1 安装rvm 参考 http rvm io rvm install gpg keyserver hkp pool sks keyservers net recv keys 409B6B1796C275462A1
Rocksdb Compaction原理

概述 compaction主要包括两类将内存中imutable 转储到磁盘上sst的过程称之为flush或者minor compaction 磁盘上的sst文件从低层向高层转储的过程称之为compaction或者是major compac

Rocksdb Compaction原理

Rocksdb Compaction原理 的相关文章

随机推荐

热门标签

Rocksdb Compaction原理的相关文章