小议同步IO :fsync与fdatasync

2023-05-16

对于提供事务支持的数据库,在事务提交时,都要确保事务日志(包含该事务所有的修改操作以及一个提交记录)完全写到硬盘上,才认定事务提交成功并返回给应用层。

一个简单的问题:在*nix操作系统上,怎样保证对文件的更新内容成功持久化到硬盘?

 

1.  write不够,需要fsync

一般情况下,对硬盘(或者其他持久存储设备)文件的write操作,更新的只是内存中的页缓存(page cache),而脏页面不会立即更新到硬盘中,而是由操作系统统一调度,如由专门的flusher内核线程在满足一定条件时(如一定时间间隔、内存中的脏页达到一定比例)内将脏页面同步到硬盘上(放入设备的IO请求队列)。

因为write调用不会等到硬盘IO完成之后才返回,因此如果OS在write调用之后、硬盘同步之前崩溃,则数据可能丢失。虽然这样的时间窗口很小,但是对于需要保证事务的持久化(durability)和一致性(consistency)的数据库程序来说,write()所提供的“松散的异步语义”是不够的,通常需要OS提供的同步IO(synchronized-IO)原语来保证:


1 #include <unistd.h>
2 int fsync(int fd);  

fsync的功能是确保文件fd所有已修改的内容已经正确同步到硬盘上,该调用会阻塞等待直到设备报告IO完成。

 

 

PS:如果采用内存映射文件的方式进行文件IO(使用mmap,将文件的page cache直接映射到进程的地址空间,通过写内存的方式修改文件),也有类似的系统调用来确保修改的内容完全同步到硬盘之上:


1 #incude <sys/mman.h>
2 int msync(void *addr, size_t length, int flags)  

msync需要指定同步的地址区间,如此细粒度的控制似乎比fsync更加高效(因为应用程序通常知道自己的脏页位置),但实际上(Linux)kernel中有着十分高效的数据结构,能够很快地找出文件的脏页,使得fsync只会同步文件的修改内容。

 

2. fsync的性能问题,与fdatasync

除了同步文件的修改内容(脏页),fsync还会同步文件的描述信息(metadata,包括size、访问时间st_atime & st_mtime等等),因为文件的数据和metadata通常存在硬盘的不同地方,因此fsync至少需要两次IO写操作,fsync的man page这样说:

"Unfortunately fsync() will always initialize two write operations : one for the newly written data and another one in order to update the modification time stored in the inode. If the modification time is not a part of the transaction concept fdatasync() can be used to avoid unnecessary inode disk write operations."

多余的一次IO操作,有多么昂贵呢?根据Wikipedia的数据,当前硬盘驱动的平均寻道时间(Average seek time)大约是3~15ms,7200RPM硬盘的平均旋转延迟(Average rotational latency)大约为4ms,因此一次IO操作的耗时大约为10ms左右。这个数字意味着什么?下文还会提到。

 

Posix同样定义了fdatasync,放宽了同步的语义以提高性能:


1 #include <unistd.h>
2 int fdatasync(int fd);  

fdatasync的功能与fsync类似,但是仅仅在必要的情况下才会同步metadata,因此可以减少一次IO写操作。那么,什么是“必要的情况”呢?根据man page中的解释:

"fdatasync does not flush modified metadata unless that metadata is needed in order to allow a subsequent data retrieval to be corretly handled."

举例来说,文件的尺寸(st_size)如果变化,是需要立即同步的,否则OS一旦崩溃,即使文件的数据部分已同步,由于metadata没有同步,依然读不到修改的内容。而最后访问时间(atime)/修改时间(mtime)是不需要每次都同步的,只要应用程序对这两个时间戳没有苛刻的要求,基本无伤大雅。

 

 

PS:open时的参数O_SYNC/O_DSYNC有着和fsync/fdatasync类似的语义:使每次write都会阻塞等待硬盘IO完成。(实际上,Linux对O_SYNC/O_DSYNC做了相同处理,没有满足Posix的要求,而是都实现了fdatasync的语义)相对于fsync/fdatasync,这样的设置不够灵活,应该很少使用。

 

 

3. 使用fdatasync优化日志同步

文章开头时已提到,为了满足事务要求,数据库的日志文件是常常需要同步IO的。由于需要同步等待硬盘IO完成,所以事务的提交操作常常十分耗时,成为性能的瓶颈。

在Berkeley DB下,如果开启了AUTO_COMMIT(所有独立的写操作自动具有事务语义)并使用默认的同步级别(日志完全同步到硬盘才返回),写一条记录的耗时大约为5~10ms级别,基本和一次IO操作(10ms)的耗时相同。

 我们已经知道,在同步上fsync是低效的。但是如果需要使用fdatasync减少对metadata的更新,则需要确保文件的尺寸在write前后没有发生变化。日志文件天生是追加型(append-only)的,总是在不断增大,似乎很难利用好fdatasync。

 

且看Berkeley DB是怎样处理日志文件的:

1.每个log文件固定为10MB大小,从1开始编号,名称格式为“log.%010d"

2.每次log文件创建时,先写文件的最后1个page,将log文件扩展为10MB大小

3.向log文件中追加记录时,由于文件的尺寸不发生变化,使用fdatasync可以大大优化写log的效率

4.如果一个log文件写满了,则新建一个log文件,也只有一次同步metadata的开销

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

小议同步IO :fsync与fdatasync 的相关文章

  • CentOS中添加Swap

    1 检查 Swap 空间在设置 Swap 文件之前 xff0c 有必要先检查一下系统里有没有既存的 Swap 文件 运行以下命令 xff1a 1 swapon s 如果返回的信息概要是空的 xff0c 则表示 Swap 文件不存在 2 检查
  • 优秀程序员的故事

    A君默默的工作了3年 xff0c 从项目初立 xff0c 到遍地开花 工作不忙 xff0c 工资没长 新领导来了 xff0c 下个版本重新开发 xff0c A君继续维护老版本 新招了一批人 xff0c 加班加点干了半年多 直到版本发布 xf
  • android studio 控制台输出乱码

    问题 android studio 控制台输出乱码 详细问题 解决方案 双击Shift 全局查找快捷键 xff0c 输入vmoption xff0c 选择Edit Custom CM Options 即 如果之前没有配置过 xff0c 会弹
  • Linux下使用VSCode,GCC,OpenOCD实现STM32一键编译烧录调试(CMake篇)

    Linux下使用VSCode开发STM32 xff08 二 xff09 一 开发工具安装二 测试工程简介三 CMake工具1 CMakeLists txt2 生成Makefile3 make编译 四 json脚本实现一键编译烧录调试1 la
  • CMake Error at cmake/OpenCVDetectCXXCompiler.cmake:85 (list)

    Ubuntu 18 4 安装opencv 2 4 10时遇到如下问题 xff1a CMake Error at cmake OpenCVDetectCXXCompiler cmake 85 list list GET given empty
  • Camera-IMU标定工具Kalibr的编译

    关于catkin make过程中下载suitesparse过久甚至失败的问题 xff1a 在安装kalibr时的suitesprse库时 xff0c 对应的cmakelists中会通过wget 下载压缩包 xff0c 若无法下载则整个kal
  • 远程桌面,RDP文件密码加密、解密算法(C#)

    背景 xff1a 由于项目需要 xff0c 使用RDP文件来远程登录 xff0c 需要实现点击rdp文件就可以自动连接远程桌面 xff0c 并且实现自动登录功能 xff01 自动登录 xff01 自动登录 xff01 自动登录 xff1a
  • 解决apt install存在依赖关系导致无法安装成功的办法

    安装aptitude xff0c 使用aptitude进行安装会自动给出解决方案 sudo apt get install aptitude sudo aptitude install XXX
  • cubemx在使用freertos的时候为何推荐使用除systick以外的timebase

    摘要 第一次使用stm32cubemx 在配置freertos后生成代码时会提示 When FreeRTOS is used It is strongly recommended to use a HAL timebase source o
  • 状态机编程 (一) 状态机相关概念

    基本概念 状态机编程 xff0c 又称事件驱动型编程 事件驱动程序需要一系列的精细粒度的事件处理函数来处理事件 这些事件函数必须处理的很快并返回主事件循环 所以其非常依赖于通过使用静态变量维护在从一个事件驱动函数转换到下一个执行函数时的执行
  • 后端状态估计-卡尔曼滤波器理解+扩展-SLAM14讲笔记(六)

    文章目录 系列文章目录前言一 pandas是什么 xff1f 二 使用步骤 1 引入库2 读入数据 状态估计的概率解释 xff1a 位姿x和路标y服从某种概率分布 xff0c 目的是通过某些运动数据u xff08 比如惯性测量传感器IMU输
  • OpenCV笔记.1 - OpenCV的编译和安装

    OpenCV的编译和安装 想要使用OpenCV进行图像的处理和开发 xff0c 就需要先对OpenCV库进行编译 虽然在Windows下已经有了现成的OpenCV库 xff0c 但是由于官方提供的库缺少一些关键的功能 xff08 例如Ope
  • Git中stash和stage的差别

    对于初学者来说 xff0c git中stash和stage两个命令的单词有些相似 xff0c 有可能会弄混 其实二者是两个完全不同的概念 1 stash是git中的一个命令 git stash的作用是把工作区 必须是工作区中已经被git追踪
  • 用matlab和RTB做二连杆机械臂动力学建模

    文章目录 写在前面二连杆机械臂RTB建模仿真与验证源代码 写在前面 本文使用的工具为matlab以及Peter Corke的RTB Robotics Toolbox 基于RTB 10 3 1版本 xff0c 我写了RTE Robotics
  • 机械臂协同搬运中的阻抗控制

    文章目录 阻抗模型物体阻抗分布阻抗Matlab和RTB仿真物体阻抗分布阻抗 源代码 阻抗模型 阻抗控制的目的是将原有物体动力学修正为我们期望动力学 假设有一个弹簧 xff0c 通过阻抗控制 xff0c 可以使得它的刚度降低 xff0c 实际
  • MATLAB App Designer生成独立GUI(可执行exe)并添加依赖项

    文章目录 写在前面生成步骤设置编译器编写GUI生成exe 常踩的坑 写在前面 近期 xff0c 由于朋友需求以及科研任务要求 xff0c 我研究了一下MATLAB GUI设计 xff0c 写了两个小程序 一个是读取excel部门名单生成ex
  • 用MATLAB仿真仿射队形变换(affine formation maneuver)

    文章目录 写在前面如何仿真静态编队控制构建stress matrixMATLAB求解LMI问题静态编队控制源代码 如何仿真时变轨迹和队形变换轨迹生成时变leader控制律时变轨迹和队形变换源代码 写在前面 原论文标题 xff1a Affin
  • 多智能体一致性(Consensus)中的矩阵理论(Matrix Theory)

    文章目录 写在前面一致性算法连续时间离散时间 一致性证明连续时间离散时间 矩阵理论特征值和特征向量特征多项式代数重数几何重数 总结 写在前面 最近在看一些分布式优化的文章 xff0c 但是大部分文章都是用的离散时间算法 我之前一直研究的是连
  • 【论文笔记】利用平滑度加速分布式优化——梯度跟踪法(Gradient Tracking)

    文章目录 写在前面问题描述和算法收敛性证明 写在前面 原论文 xff1a Harnessing Smoothness to Accelerate Distributed Optimization 本文是Qu 20181的笔记 xff0c 主
  • 迭代器是什么,C++ STL迭代器(iterator)用法详解

    无论是序列容器还是关联容器 xff0c 最常做的操作无疑是遍历容器中存储的元素 xff0c 而实现此操作 xff0c 多数情况会选用 迭代器 xff08 iterator xff09 来实现 那么 xff0c 迭代器到底是什么呢 xff1f

随机推荐

  • C++ priority_queue 用法详解

    不出所料 xff0c priority queue 容器适配器定义了一个元素有序排列的队列 默认队列头部的元素优先级最高 因为它是一个队列 xff0c 所以只能访问第一个元素 xff0c 这也意味着优先级最高的元素总是第一个被处理 但是如何
  • 数据库|SQLite编程实例---在线词典

    在线词典项目实例 1 在线词典功能分析 在线词典功能分析框图 2 服务器端和客户端流程图 服务器端流程示意图 客户端流程示意图 3 服务器端和客户端源码 服务器端源码 span class token comment dict server
  • 【力扣刷题】动态规划问题的思考与总结

    文章目录 什么是动态规划解决动态规划问题的步骤基础递推算法子问题求和爬楼梯杨辉三角 子问题最值最大子序和 二维DP数组非最优子结构 买卖股票 xff08 多状态递推 xff09 打家劫舍 xff08 分治算法 xff09 贪心算法背包问题
  • 百度2014移动研发笔试题目

    答案仅供参考 一 简答题 1 简述计算机的存储系统分为哪几个层次 xff0c 为什么这样的分层能够提高程序的执行效率 所谓存储系统的层次结构 xff0c 就是把各种不同存储容量 存取速度和价格的存储器按层次结构组成多层存储器 xff0c 并
  • 横屏layout-land失效的细节问题 以及谈谈不同设置模式的优缺点

    android configChanges 61 34 orientation keyboardHidden screenSize 34 设置之后手机可以识别横屏布局 xff0c 但是不会重建 xff0c 但是pad不识别 xff0c 头疼
  • 数学公式汇总

    高等数学公式篇 平方关系 xff1a sin 2 43 cos 2 61 1 tan 2 43 1 61 sec 2 cot 2 43 1 61 csc 2 积的关系 xff1a sin 61 tan cos cos 61 cot sin
  • KEIL ARM 6.12 compiler 编译__ASM 错误的解决方法

    1 问题 KEIL compiler 设置为 use default compiler version 5 可以正确编译以下汇编和C混合代码 xff0c 更改编译器为V6 12后不识别 ASM关键字 xff0c 并对汇编语法报错 替换为 A
  • 面试题:从给定的N个正数中选取若干个数之和最接近M

    这道题跟捞鱼问题一样 xff0c 都是刚进实验室新生培训那会儿做过的题目 xff0c 不过这个是一师姐当时找工作的面试题 如题 xff0c 并输出该子序列 测试用例 xff1a 2 xff0c 9 xff0c 5 xff0c 7 xff0c
  • 贝叶斯最优分类器

    贝叶斯常常有两个问题 xff1a xff08 1 xff09 给定训练数据 xff0c 最可能的假设是什么 xff1f xff08 2 xff09 给定训练数据 xff0c 对新实例的最可能分类是什么 xff1f 第一个问题用最大后验概率
  • 奇异值分解SVD应用—LSI/LSA

    原文 xff1a http blog csdn net abcjennifer article details 8131087 xff08 有看不懂的地方 xff0c 原文评论有点解答 xff09 潜在语义索引 xff08 Latent S
  • EAGAIN、EWOULDBLOCK、EINTR与非阻塞 长连接

    EAGAIN EWOULDBLOCK EINTR与非阻塞 长连接 EWOULDBLOCK用于非阻塞模式 xff0c 不需要重新读或者写 EINTR指操作被中断唤醒 xff0c 需要重新读 写 在Linux环境下开发经常会碰到很多错误 设置e
  • WebSocket 实战

    本文介绍了 HTML5 WebSocket 的由来 xff0c 运作机制及客户端和服务端的 API 实现 xff0c 重点介绍服务端 xff08 基于 Tomcat7 xff09 及客户端 xff08 基于浏览器原生 HTML5 API x
  • FreeRTOS系列|FreeRTOS简介

    FreeRTOS简介 1 RTOS简介 RTOS全称为 Real Time Operation System xff0c 即实时操作系统 RTOS强调的是实时性 xff0c 又分为硬实时和软实时 硬实时要求在规定的时间内必须完成操作 xff
  • makefile 编写之32 or 64位机器

    一 Makefile 判断 64位机器 ARCH 61 shell uname m BIT32 61 i686 BIT64 61 x86 64 all clean ifeq ARCH BIT64 64 echo x86 64 make Su
  • linux多行注释

    1 多行注释 xff1a 1 首先按esc进入命令行模式下 xff0c 按下Ctrl 43 v xff0c 进入列 xff08 也叫区块 xff09 模式 2 在行首使用上下键选择需要注释的多行 3 按下键盘 xff08 大写 xff09
  • linux多线程信号处理

    在linux下 xff0c 每个进程都有自己的signal mask xff0c 这个信号掩码指定哪个信号被阻塞 xff0c 哪个不会被阻塞 xff0c 通常用调用sigmask来处理 同时每个进程还有自己的signal action xf
  • Mysql的row_format

    问题描述 xff1a You have an error in your SQL syntax check the manual that corresponds to your MySQL server version for the r
  • MetricsSystem

    Metrics xff0c 我们听到的太多了 xff0c 熟悉大数据系统的不可能没听说过metrics xff0c 当我们需要为某个系统某个服务做监控 做统计 xff0c 就需要用到Metrics 举个例子 xff0c 一个图片压缩服务 x
  • Hazelcast集群服务(1)——Hazelcast介绍

    https www cnblogs com hunter 56213 p 6230442 html Hazelcast是什么 分布式 集群服务 网格式内存数据 分布式缓存 弹性可伸缩服务 这些牛逼闪闪的名词拿到哪都是ITer装逼的不二之选
  • 小议同步IO :fsync与fdatasync

    对于提供事务支持的数据库 xff0c 在事务提交时 xff0c 都要确保事务日志 xff08 包含该事务所有的修改操作以及一个提交记录 xff09 完全写到硬盘上 xff0c 才认定事务提交成功并返回给应用层 一个简单的问题 xff1a 在