Linux·内核的 4 大 IO 调度算法

2023-11-10

Linux 内核包含4个IO调度器,分别是 Noop IO scheduler、Anticipatory IO scheduler、Deadline IO scheduler 与 CFQ IO scheduler。

anticipatory, 预期的;提早发生的;期待着的

通常磁盘的读写影响是由磁头到柱面移动造成了延迟,解决这种延迟内核主要采用两种策略:缓存和IO调度算法来进行弥补.

本文做一简单介绍.

调度算法概念

  1. 当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成.
  2. 每个块设备都有它自己的队列.
  3. I/O调度程序负责维护这些队列的顺序,以更有效地利用介质.I/O调度程序将无序的I/O操作变为有序的I/O操作.
  4. 内核必须首先确定队列中一共有多少个请求,然后才开始进行调度.

IO调度器(IO Scheduler)

IO调度器(IO Scheduler)是操作系统用来决定块设备上IO操作提交顺序的方法。存在的目的有两个,一是提高IO吞吐量,二是降低IO响应时间。然而IO吞吐量和IO响应时间往往是矛盾的,为了尽量平衡这两者,IO调度器提供了多种调度算法来适应不同的IO请求场景。其中,对数据库这种随机读写的场景最有利的算法是DEANLINE。

IO调度器在内核栈中所处位置如下:

块设备最悲剧的地方就是磁盘转动,这个过程会很耗时间。 每个块设备或者块设备的分区,都对应有自身的请求队列(request_queue),而每个请求队列都可以选择一个I/O调度器来协调所递交的request。I/O调度器的基本目的是将请求按照它们对应在块设备上的扇区号进行排列,以减少磁头的移动,提高效率。每个设备的请求队列里的请求将按顺序被响应。实际上,除了这个队列,每个调度器自身都维护有不同数量的队列,用来对递交上来的request进行处理,而排在队列最前面的request将适时被移动到请求队列中等待响应。

IO scheduler 的作用主要是为了减少磁盘转动的需求。主要通过2中方式实现:

1.合并 2.排序

每个设备都会自己对应请求队列,所有的请求在被处理之前都会在请求队列上。 在新来一个请求的时候如果发现这个请求和前面的某个请求请求的位置是相邻的,那么就可以合并为一个请求。如果不能找到合并的,就会按照磁盘的转动方向进行排序。通常IO scheduler 的作用就是为了在进行合并和排序的同时,也不会太影响单个请求的处理时间。

1、NOOP

FIFO

  1. noop是什么? noop是一种输入输出调度算法 . NOOP, No Operation. 什么都不做,请求来一个处理一个。这种方式事实起来简单,也更有效。问题就是disk seek 太多,对于传统磁盘,这是不能接受的。 但对于SSD 磁盘就可以,因为SSD 磁盘不需要转动。
  2. noop的别称 又称为电梯调度算法.
  3. noop原理是怎样的?

将输入输出请求放到一个FIFO队列中,然后按次序执行队列中的输入输出请求:

当来一个新请求时:

  1. 如果能合并就合并
  2. 如果不能合并,就会尝试排序。 如果队列上的请求都已经很老了,这个新的请求就不能插队,只能放到最后面。否则就插到合适的位置
  3. 如果既不能合并,有没有合适的位置插入,就放到请求队列的最后。
  4. 适用场景

4.1 在不希望修改输入输出请求先后顺序的场景下;   4.2 在输入输出之下具有更加智能调度算法的设备,如NAS存储设备;   4.3 上层应用程序已经精心优化过的输入输出请求;   4.4 非旋转磁头式的磁盘设备,如SSD磁盘

2、CFQ(Completely Fair Queuing, 完全公平排队)

CFQ(Completely Fair Queuing)算法,顾名思义,绝对公平算法。它试图为竞争块设备使用权的所有进程分配一个请求队列和一个时间片,在调度器分配给进程的时间片内,进程可以将其读写请求发送给底层块设备,当进程的时间片消耗完,进程的请求队列将被挂起,等待调度。

每个进程的时间片和每个进程的队列长度取决于进程的IO优先级,每个进程都会有一个IO优先级,CFQ调度器将会将其作为考虑的因素之一,来确定该进程的请求队列何时可以获取块设备的使用权。

IO优先级从高到低可以分为三大类:

RT(real time) BE(best try) IDLE(idle)

其中RT和BE又可以再划分为8个子优先级。可以通过ionice 去查看和修改。 优先级越高,被处理的越早,用于这个进程的时间片也越多,一次处理的请求数也会越多。

实际上,我们已经知道CFQ调度器的公平是针对于进程而言的,而只有同步请求(read或syn write)才是针对进程而存在的,他们会放入进程自身的请求队列,而所有同优先级的异步请求,无论来自于哪个进程,都会被放入公共的队列,异步请求的队列总共有8(RT)+8(BE)+1(IDLE)=17个。

从Linux 2.6.18起,CFQ作为默认的IO调度算法。对于通用的服务器来说,CFQ是较好的选择。具体使用哪种调度算法还是要根据具体的业务场景去做足benchmark来选择,不能仅靠别人的文字来决定。

3、DEADLINE

DEADLINE在CFQ的基础上,解决了IO请求饿死的极端情况。

除了CFQ本身具有的IO排序队列之外,DEADLINE额外分别为读IO和写IO提供了FIFO队列。

读FIFO队列的最大等待时间为500ms,写FIFO队列的最大等待时间为5s(当然这些参数都是可以手动设置的)。

FIFO队列内的IO请求优先级要比CFQ队列中的高,,而读FIFO队列的优先级又比写FIFO队列的优先级高。优先级可以表示如下:

FIFO(Read) > FIFO(Write) > CFQ

deadline 算法保证对于既定的 IO 请求以最小的延迟时间,从这一点理解,对于 DSS 应用应该会是很适合的。

deadline 实际上是对Elevator 的一种改进: 1 避免有些请求太长时间不能被处理。 2 区分对待读操作和写操作。

deadline IO 维护3个队列。第一个队列和Elevator 一样, 尽量按照物理位置排序。 第二个队列和第三个队列都是按照时间排序,不同的是一个是读操作一个是写操作。

deadline IO 之所以区分读和写是因为设计者认为如果应用程序发了一个读请求,一般就会阻塞到那里,一直等到的结果返回。 而写请求则不是通常是应用请求写到内存即可,由后台进程再写回磁盘。应用程序一般不等写完成就继续往下走。 所以读请求应该比写请求有更高的优先级。

在这种设计下,每个新增请求都会先放到第一个队列,算法和Elevator的方式一样,同时也会增加到读或者写队列的尾端。这样首先处理一些第一队列的请求,同时检测第二/三队列前几个请求是否等了太长时间,如果已经超过一个阀值,就会去处理一下。 这个阀值对于读请求时 5ms, 对于写请求时5s.

个人认为对于记录数据库变更日志的分区,例如oracle 的online log, mysql 的binlog 等等,最好不要使用这种分区。 因为这类写请求通常是调用fsync 的。 如果写完不成,也会很影响应用性能的。

4、ANTICIPATORY

CFQ和DEADLINE考虑的焦点在于满足零散IO请求上。对于连续的IO请求,比如顺序读,并没有做优化。

为了满足随机IO和顺序IO混合的场景,Linux还支持ANTICIPATORY调度算法。ANTICIPATORY的在DEADLINE的基础上,为每个读IO都设置了6ms的等待时间窗口。如果在这6ms内OS收到了相邻位置的读IO请求,就可以立即满足。

小结

IO调度器算法的选择,既取决于硬件特征,也取决于应用场景。

在传统的SAS盘上,CFQ、DEADLINE、ANTICIPATORY都是不错的选择;对于专属的数据库服务器,DEADLINE的吞吐量和响应时间都表现良好。然而在新兴的固态硬盘比如SSD、Fusion IO上,最简单的NOOP反而可能是最好的算法,因为其他三个算法的优化是基于缩短寻道时间的,而固态硬盘没有所谓的寻道时间且IO响应时间非常短。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Linux·内核的 4 大 IO 调度算法 的相关文章

  • 因果学习论文阅读

    论文阅读 因果机器学习的前沿进展综述 Overview of the Frontier Progress of Causal Machine Learning 因果概念 提出因果旨在解决虚假相关的问题 相关只需要保持两个变量的分布相同 而因
  • python中的CSV 工具类

    CSV工具类是Python中的自带包 用来解析CSV文件 实例化一个CSV对象 需要传入一个CSV文件的路径 with open case csv as casefile csv DictReader 将CSV读取成字典的形式 rows2

随机推荐

  • Python练习(二)

    目录 列表元素计算 字典最大值 输出一串字符对应的Unicode值 列表基本操作 元素增加 删除 字典值求和 习题 列表元素计算 描述 从键盘输入一个列表 计算输出列表元素的平均值 请完善代码 def mean numlist s 0 0
  • opencv+matlab双目标定(python版)

    采集的图像用opencv自带程序识别不出棋盘格角点 可能是因为分辨率太低了 好在MATLAB标定工具箱可以正常使用 不过获得的标定参数导入opencv之后需要转置 记录一下官方自带实例的方法免得以后忘了 1 MATLAB标定 导入左右相机图
  • 【uniapp关联unicloud,阿里云云服务空间】unicloud本地调试服务启动失败:当前项目未关联unicloud服务空间,请调整后重新运行,已解决

    最近开发app项目 很多都是第一次上手 1 在Hbuider中运行项目 出现如下提示 2 项目根目录下已有uniCloud文件夹 3 如果云开发环境未创建 可以右击项目 选择创建uniCloud云开发环境 4 创建好的目录如下 index
  • DES 数据加密标准 结构详解

    DES Data Encryption Standard 又称数据加密标准 是一种对称加密算法 也是密码学摆脱古典流加密后最简单的一种块加密算法 由于香农与1949年提出 完善保密性 该标准要求密钥长度不短于明文长度 实际操作难以达到 因此
  • 黑白棋子问题

    黑白棋子问题 1 问题描述 两个人下棋 一方执黑棋 一方执白棋 要求双方轮流下子 给出两种情况的解决办法 1 执黑子一方先下 2 双方都可以先下 谁先抢到棋盘谁先下 2 解决 情况 1 信号量 bfg 1 wfg 0 注意信号量及初值的设置
  • 一个顽疾——QT不能包含tslib的头和库文件联合编译的解决方法

    先介绍一下我的交叉编译环境 OS是Fedora9 交叉编译器是arm linux gcc 4 3 3 arm 2009q1 其它 tslib 1 4 QT4 7 2 硬件平台Omap3530 以前我的交叉编译器使用的是arm linux g
  • Java技术之提取指定文件

    目录 序幕 详解 开发工具 简介 主线程代码 静态变量 复制指定文件的方法创建 分析并实现 在Main主线程中的使用 简单搬运 序幕 嗨嗨 我又来咯 距离上一次发布已经有了很长一段时间 问我在干嘛 我在消磨人生 直到昨天 收到了来自父亲的这
  • java content-type设置_POST请求时 content-type的设置以及参数传递

    前提 在前后端联调的时候总会牵扯到一个问题 就是参数的传递方式 GET请求就不说了 参数往url后面一拼 万事大吉 然而一到POST请求的时候 花样就来了 后端童鞋跟你说 我这个接口在postman试过是没问题的 你content type
  • centos7将python升级为3.7

    centos7将python升级为3 7
  • Java实现二叉树的遍历(递归和非递归)

    现有一颗如下图所示的二叉树 一 基本概念 1 先序遍历 深度优先遍历 前 中 后这三个词是针对根节点的访问顺序而言的 先访问根结点 再访问左子结点 最后访问右子结点 图中的二叉树的先序遍历的顺序是1 2 4 8 9 5 3 6 7 2 中序
  • DHCP详解

    DHCP简介 我们都知道一台计算机或者手机想要上网 必须要有一个IP地址 要不然别人是找不到你的 如果我们要手动配置IP的话 是非常麻烦的 因为一个IP地址要对应着一个网络 而一个网络对应一个位置 如果主机更改位置了 要重新变换IP地址 实
  • ERROR: Could not find a version that satisfies the requirement setuptools_scm (from versions: none)

    一 项目场景 在使用百度飞桨导入paddlehub包时 一直出现没有 paddlehub 包的错误 换了好几个镜像源都不行 出现以下错误 WARNING The repository located at pypi douban com i
  • vue 实现Tabs 组件自定义删除+拖拽排序功能

    前言 目前市面上有很多实现拖拽排序功能的插件和方法 本节不过多累述 只讲一种 vue的v dragging内置组件 效果图 主图 拖拽中的图 1 安装 npm install awe dnd save 2 在 main js 文件中引入 i
  • 《算法图解》高清PDF版

    算法图解 高清PDF版 像小说一样好看容易理解的算法书籍 适合算法和竞赛入门者学习 书中的示例代码是python width 738 height 523 class preview iframe scrolling no src http
  • Flutter GetX使用详细解读

    FlutterGetX 是一个基于 Flutter 框架的状态管理和依赖注入库 它与其他状态管理库相比 具有以下优势 简单易用 FlutterGetX 采用简单明了的 API 设计 易于学习和使用 高性能 FlutterGetX 的状态更新
  • Android 学习之环境变量配置以及无法安装 intel HAXM问题的解决

    前提 已完成Java运行环境的全部配置 1 Android 开发工具Android Studio的下载和安装 自行百度 2 下载Android SDK以及设置环境变量 2 1 Android SDK 开发工具中可搜索下载 2 2环境变量配置
  • 02-像元大小

    https blog csdn net peckerzeng article details 78319935 在解释像元大小 Cell size of raster data 的概念的时候 我们有必要先引入另外一个名词叫做 像素 像素顾名
  • python最小二乘法拟合模型的loocc误差_最小二乘法拟合+3sigema去除误差大的点

    for i 1 96 for j 1 96 xdata 4 8 12 16 20 24 28 32 if ratio1 i j ratio2 i j ratio3 i j ratio4 i j ratio5 i j ratio6 i j r
  • C++模板template用法

    引言 模板 Template 指C 程序设计设计语言中采用类型作为参数的程序设计 支持通用程序设计 C 的标准库提供许多有用的函数大多结合了模板的观念 如STL以及IO Stream 1 模板 1 1 什么是函数模板 函数模板定义一族函数
  • Linux·内核的 4 大 IO 调度算法

    Linux 内核包含4个IO调度器 分别是 Noop IO scheduler Anticipatory IO scheduler Deadline IO scheduler 与 CFQ IO scheduler anticipatory