深入理解overlayfs（一）：初识

2023-11-12

版权声明：本文为CSDN博主「luckyapple1028」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/luckyapple1028/article/details/77916194

Overlayfs是一种类似aufs的一种堆叠文件系统，于2014年正式合入Linux-3.18主线内核，目前其功能已经基本稳定（虽然还存在一些特性尚未实现）且被逐渐推广，特别在容器技术中更是势头难挡。本系列博文将首先介绍overlayfs的基本概念和应用场景，然后通过若干实例描述它的使用方式，最后从源码角度结合Linux VFS Layer和Ext4fs连通分析overlayfs的实现。本文先来大致认识一下什么是Overlayfs，它有什么应用场景和使用限制。

内核版本：Linux-4.13.y

Overlayfs概述
基本概念
Overlayfs是一种堆叠文件系统，它依赖并建立在其它的文件系统之上（例如ext4fs和xfs等等），并不直接参与磁盘空间结构的划分，仅仅将原来底层文件系统中不同的目录进行“合并”，然后向用户呈现。因此对于用户来说，它所见到的overlay文件系统根目录下的内容就来自挂载时所指定的不同目录的“合集”。见图1。

图1 Overlayfs基本结构

其中lower dirA / lower dirB目录和upper dir目录为来自底层文件系统的不同目录，用户可以自行指定，内部包含了用户想要合并的文件和目录，merge dir目录为挂载点。当文件系统挂载后，在merge目录下将会同时看到来自各lower和upper目录下的内容，并且用户也无法（无需）感知这些文件分别哪些来自lower dir，哪些来自upper dir，用户看见的只是一个普通的文件系统根目录而已（lower dir可以有多个也可以只有一个）。

虽然overlayfs将不同的各层目录进行合并，但是upper dir和各lower dir这几个不同的目录并不完全等价，存在层次关系。首先当upper dir和lower dir两个目录存在同名文件时，lower dir的文件将会被隐藏，用户只能看见来自upper dir的文件，然后各个lower dir也存在相同的层次关系，较上层屏蔽叫下层的同名文件。除此之外，如果存在同名的目录，那就继续合并（lower dir和upper dir合并到挂载点目录其实就是合并一个典型的例子）。

各层目录中的upper dir是可读写的目录，当用户通过merge dir向其中一个来自upper dir的文件写入数据时，那数据将直接写入upper dir下原来的文件中，删除文件也是同理；而各lower dir则是只读的，在overlayfs挂载后无论如何操作merge目录中对应来自lower dir的文件或目录，lower dir中的内容均不会发生任何的改变（理论设计如此，但实际在一些极端场景存在偏差，后面我会详细介绍）。既然lower dir是只读的，那当用户想要往来自lower层的文件添加或修改内容时，overlayfs首先会的拷贝一份lower dir中的文件副本到upper dir中，后续的写入和修改操作将会在upper dir下的copy-up的副本文件中进行，lower dir原文件被隐藏。

以上就是overlayfs最基本的特性，简单的总结为以下3点：（1）上下层同名目录合并；（2）上下层同名文件覆盖；（3）lower dir文件写时拷贝。这三点对用户都是不感知的。

应用
基本了解overlayfs的基本特性以后，来了解overlayfs特性所带来的好处和应用场景。在实际的使用中，我们可能会存在以下的多用户复用共享文件和目录的场景。见图2。

图2 复用共享目录文件
在同一个设备上，用户A和用户B有一些共同使用的共享文件（例如运行程序所依赖的动态链接库等），一般是只读的；同时也有自己的私有文件（例如系统配置文件等），往往是需要能够写入修改的；最后即使用户A修改了被共享的文件也不会影响到用户B。

对于以上的需求场景，我们并不希望每个用户都有一份完全一样的文件副本，因为这样不仅带来空间的浪费也会影响性能，因此overlayfs是一个较为完美的解决方案。我们将这些共享的文件和目录所在的目录设定为lower dir (1~n)，将用户私有的文件和目录所在的目录设定为upper dir，然后挂载到用户指定的挂载点，这样即能够保证前面列出的3点需求，同时也能够保证用户A和B独有的目录树结构。最后最为关键的是用户A和用户B在各自挂载目录下看见的共享文件其实是同一个文件，这样磁盘空间的节省自是不必说了，还有就是共享同一份cache而减少内存的使用和提高访问性能，因为只要cache不被回收，只需某个用户首次访问时创建cache，后续其他所有用户都可以通过访问cache来提高IO性能。

上面说的这种使用场景在容器技术中应用最为广泛，下面以docker容器为例来介绍overlay的两种应用方式：Overlay和Overlay2.

Docker容器将镜像层（image layer）作为lower dir，将容器层（container layer）作为upper dir，最后挂载到容器merge挂载点，即容器的根目录下。遗憾的是，早期内核中的overlayfs并不支持多lower layer，在Linux-4.0以后的内核版本中才陆续支持完善。而容器中可能存在多层镜像，所以出现了两种overlayfs的挂载方式，早期的overlay不使用多lower layer的方式挂载而overlay2则使用该方式挂载。

Overlay Driver
Overlay挂载方式如下。见图3（该图引用自Miklos Szeredi的《overlayfs and containers》2017 linux内核大会演讲材料）。

图3 Overlay Driver

本图黄色框中的部分是镜像层和容器层的组织方式，各个镜像层中，每下一层中的文件以硬链接的方式出现在它的上一层中，以此类推，最终挂载overlayfs的lower dir为最上层镜像层目录imager layer N。与此同时，容器的writable dir作为upper dir，挂载成为容器的rootfs。本图中虽然只描述了一个容器的挂载方式，但是其他容器也类似，镜像层lower dir N共享，只是各个容器的upper dir不同而已。

Overlay2 Driver
Overlay2挂载方式如下。见图4（该图引用自 Miklos Szeredi的《overlayfs and containers》2017 linux内核大会演讲材料）。

图4 Overlay2 Driver

Overlay2的挂载方式比Overlay的要简单许多，它基于内核overlayfs的Multiple lower layers特性实现，不在需要硬链接，直接将镜像层的各个目录设置为overlayfs的各个lower layer即可（Overlayfs最多支持500层lower dir），对比Overlay Driver将减少inode的使用。

注意事项
尽管Overlayfs看起来是这么的优秀，但是当前它还并不是那么的完美，依然存在一些缺点和使用限制（还没有完全支持POSIX标准），这里简单列出一些，先认识一下，以后遇到也能心中有数：

Mount Overlayfs之后就不允许在对原lower dir和upper dir进行操作
当我们挂载完成overlayfs以后，对文件系统的任何操作都只能在merge dir中进行，用户不允许再直接或间接的到底层文件系统的原始lower dir或upper dir目录下修改文件或目录，否则可能会出现一些无法预料的后果（kernel crash除外）。

Copy-up
Overlayfs的lower layer文件写时复制机制让某一个用户在修改来自lower层的文件不会影响到其他用户（容器），但是这个文件的复制动作会显得比较慢，后面我们会看到为了保证文件系统的一致性，这个copy-up实现包含了很多步骤，其中最为耗时的就是文件数据块的复制和fsync同步。用户在修改文件时，如果文件较小那可能不一定能够感受出来，但是当文件比较大或一次对大量的小文件进行修改，那耗时将非常可观。虽然自Linux-4.11起内核引入了“concurrent copy up”特性来提高copy-up的并行性，但是对于大文件也还是没有明显的效果。不过幸运的是，如果底层的文件系统支持reflink这样的延时拷贝技术（例如xfs）那就不存在这个问题了。

Rename directory（POSIX标准支持问题）
如果Overlayfs的某一个目录是单纯来自lower layer或是lower layer和upper layer合并的，那默认情况下，用户无法对该目录执行rename系统调用，否则会返回-EXDEV错误。不过你会发现通过mv命令重命名该目录依然可以成功，那是因为mv命令的实现对rename系统调用的-EXDEV错误进行规避（这当然是有缺点的，先暂不展开）。在Linux-4.10起内核引入了“redirect dir”特性来修复这个问题，为此引入了一个内核选项：CONFIG_OVERLAY_FS_REDIRECT_DIR，用户想要支持该特性可以在内核中开启这个选项，否则就应避免对这两类目录使用rename系统调用。

Hard link break（POSIX标准支持问题）
该问题源自copy-up机制，当lower dir目录中某个文件拥有多个硬链接时，若用户在merge layer对其中一个写入了一些数据，那将触发copy-up，由此该文件将拷贝到upper dir，那么和原始文件的hard link也就断开了，变成了一个单独的文件，用户在merge layer通过stat和ls命令能够直接看到这个变化。在Linux-4.13起内核引入了“index feature”来修复这个问题，同样引入了一个内核选项：CONFIG_OVERLAY_FS_INDEX，用户想要修复该问题可以打开这个选项，不过该选项不具有向前兼容性，请谨慎使用。

Unconstant st_dev&st_ino（POSIX标准支持问题）
该问题同样源自copy-up机制，当原来在lower dir中的文件触发了copy-up以后，那用户在merge layer见到了将是来自upper dir的新文件，那也就意味着它俩的inode是不同的，虽然inode中很多的attr和xattr是可以copy的，但是st_dev和st_ino这两个字段却具有唯一性，是不可以复制的，所以用户可以通过ls和stat命令看到的该字段将发生变化。在Linux-4.12和Linux-4.13分别进行了部分的修复，目前在lower dir和upper dir都在同一个文件系统挂载点的场景下，问题已经修复，但lower dir和upper dir若来自不同的文件系统，问题依然存在。

File descriptor change（POSIX标准支持问题）
该问题也同样源自copy-up机制，用户在文件发生copy-up之前以只读方式open文件（这操作不会触发copy-up）得到的文件描述符fd1和copy-up之后open文件得到的文件描述符fd2指向不同的文件，用户通过fd2写入的新数据，将无法从fd1中获取到，只能重新open一个新的fd。该问题目前社区主线内核依然存在，暂未修复。
以上这6点列出了目前Overlayfs的主要问题和限制，将在后文中陆续展开。社区为了让Overlayfs能够更加向支持Posix标准的文件系统靠拢，做出了很多的努力，后续将进一步修复上面提到且未修复的问题，还会增加对NFS Export、freeze snapshots、overlayfs snapshots等的支持，进一步完善overlayfs。

小结
Overlayfs在以它特有的机制已经使用的越来越广泛，在Docker容器技术中以它优异的性能将会渐渐成为首选。不过overlayfs也尚存诸多限制，到目前为止，它还不是一个完全符合Posix规范的文件系统，但社区的开发人员们一直在努力完善，相信不久的将来我们会看到一个非常易用且成熟的Overlayfs。

参考文献

by Miklos Szeredi.

Documentation/filesystems/overlayfs.txt
————————————————
版权声明：本文为CSDN博主「奇小葩」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u012489236/article/details/120860884

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深入理解overlayfs（一）：初识的相关文章

在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Linux 中什么处理 ping？

我想覆盖更改 linux 处理 ping icmp echo 请求数据包的方式这意味着我想运行自己的服务器来回复传入的 icmp 回显请求或其他数据包但为了使其正常工作我想我需要禁用 Linux 的默认 ping icmp 数据包
C语言中如何通过内存地址映射函数名和行号？

如何用 GCC 中的内存地址映射回函数名称和行号即假设一个 C 语言原型 void func Get the address of caller maybe this could be avoided MemoryAddress get
为什么我可以直接从 bash 执行 JAR？

我是一个长期从事 Java 工作的人并且知道运行带有主类的 JAR 的方法MANIFEST MFJar 中的文件很简单 java jar theJar jar 我用它来启动 Fabric3 服务器包含在bin server jar在其标
为arm构建WebRTC

我想为我的带有arm926ej s处理器的小机器构建webrtc 安装 depot tools 后我执行了以下步骤 gclient config http webrtc googlecode com svn trunk gclient s
将 jar 作为 Linux 服务运行 - init.d 脚本在启动应用程序时卡住

我目前正在致力于在 Linux VM 上实现一个可运行的 jar 作为后台服务我已经使用了找到的例子here https gist github com shirish4you 5089019作为工作的基础并将 start 方法修改为
在我的 index.php 中加载 CSS 和 JS 等资源时出现错误 403

我使用的是 Linux Elementary OS 并在 opt 中安装了 lampp My CSS and JS won t load When I inspect my page through browser The console
如何在 Bash 中给定超时后终止子进程？

我有一个 bash 脚本它启动一个子进程该进程时不时地崩溃实际上是挂起而且没有明显的原因闭源所以我对此无能为力因此我希望能够在给定的时间内启动此进程如果在给定的时间内没有成功返回则将其终止有没有simple and r
我不明白 execlp() 在 Linux 中如何工作

过去两天我一直在试图理解execlp 系统调用但我还在这里让我直奔主题 The man pageexeclp 将系统调用声明为int execlp const char file const char arg 与描述 execl exe
按进程名称过滤并记录 CPU 使用情况

Linux 下有选项吗顶部命令 https www man7 org linux man pages man1 top 1 html我可以在哪里按名称过滤进程并将每秒该进程的 CPU 使用情况写入日志文件 top pgrep 过滤输出top
Linux - 从第二个选项卡获取文本

假设我们有这样的文件一些文本11 一些文本12 一些文本13 一些文本21 一些文本22 一些文本23 文本由制表符分隔我们知道第 1 列中的一些文本但希望从第 2 列中获取文本我知道我可以通过以下方式获取线路 grep somet
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
快速像素绘图库

我的应用程序以每像素的方式生成动画因此我需要有效地绘制它们我尝试过不同的策略库但结果并不令人满意尤其是在更高分辨率的情况下这是我尝试过的 SDL 好的但是慢 OpenGL 像素操作效率低下 xlib 更好但仍然太慢 svg
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost
在 unix 中编译 dhrystone 时出错

我是使用基准测试和 makefile 的新手我已经从下面的链接下载了 Dhrystone 基准测试我正在尝试编译它但我遇到了奇怪的错误我尝试解决它但没有成功有人可以帮助我运行 dhrystone 基准测试吗以下是我尝试编译的两
为什么我可以在 /proc/pid/maps 输出中看到几个相同的段？

测试在32位Linux上进行代码如下 int foo int a int b int c a b return c int main int e 0 int d foo 1 2 printf d n d scanf d e return
Python 脚本作为 Linux 服务/守护进程

Hallo 我试图让 python 脚本作为服务守护进程在 ubuntu linux 上运行网络上存在多种解决方案例如 http pypi python org pypi python daemon http pypi python
从 systemd bash 内联脚本创建 filename_$(date %Y-%m-%d)

我正在尝试执行systemd计时器并希望将执行脚本的输出保存在每个日期的文件中这是我的ExecStart脚本中的 service file ExecStart bin bash c echo date Y m d gt gt home u
如何在 GNU/Linux 上设置 Subversion (SVN) 服务器 - Ubuntu [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一台运行 Ubuntu 的笔记本电脑我想将其用作 Subversion 服务器既让我自己在本地承诺也让其他人远程承诺要使其
Linux 上的 RTLD_LOCAL 和dynamic_cast

我们有一个由应用程序中的一些共享库构成的插件我们需要在应用程序运行时更新它出于性能原因我们在卸载旧插件之前加载并开始使用新插件并且只有当所有线程都使用旧插件完成后我们才卸载它由于新插件和旧插件的库具有相同的符号我们dlopen

随机推荐

数据仓库灵魂30问之如何建设数据中台？一幅图说清中台。

什么是中台什么是数据中台数据仓库实现了企业数据模型的构建大数据平台解决了海量实时数据的计算和存储问题数据中台要解决什么呢数据如何安全的快速的最小权限的且能够溯源的被探测和快速应用的问题数据中台不应该被过度的承载平台的计算
进程同步，信号量，互斥变量等说明

0 前言工作三年敲了3年代码 PHP C Java C 等开发过几种产品非计算机科班出身全部编程是自学最近闲来无事买了一本计算机操作系统第四版学一下个人感觉对比较重要的章节增加对编程的理解 1 进程的描述 1 1 进程的定
Python多元线性回归预测模型实验完整版

多元线性回归预测模型实验目的通过多元线性回归预测模型掌握预测模型的建立和应用方法了解线性回归模型的基本原理实验内容多元线性回归预测模型实验步骤和过程 1 第一步学习多元线性回归预测模型相关知识一元线性回归模型反映的是单个自
在html中取消超链接的下划线

在html的超链接a标签中取消下划线需要用到text decoration a text decoration none
AI部署之路

作者 Oldpan 编辑汽车人点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心模型部署技术交流群后台回复模型部署工程获取基于TensorRT的分类检测任务的部署源码好久没更文了
WSL2加载独立硬盘和设置固定IP

最近发现了win10 包括win11 上的神器 Linux子系统抱着玩一玩的态度安装了琢磨了几天逐步把Ubuntu完善起来了发现完全可以当作WIN Linux双系统使用还不用重启系统作为生产力工具绰绰有余总结了常用的工具软件和
CPU、GPU、DPU、TPU、NPU...傻傻分不清楚？实力扫盲——安排

人工智能的发展离不开算力的支持算力又是依附于各种硬件设备的没有了算力设备的加持就好比炼丹少了丹炉一样可想而知人工智能智能也就无用武之地了以深度学习为主的人工智能方向的发展更是离不开强大的算力支持随着深度学习的不断发展各种各样
登录验证，复杂验证

效果如图
程序员为什么要挤破头也要进大厂？别说是拧螺丝，递扳手我也愿意去！

大家好前段时间写了一篇关于程序员的年薪五十万指南引起了一些共鸣有些读者私信问我现在不是大厂竞争很激烈吗再说大厂的薪水待遇也没有比一些二线公司更好呀既然如此那为什么我们还要挤破脑袋进大厂呢今天就和大家闲聊几句以下说的仅代表我
K8S的卷、临时卷、持久卷、PV、PVC、SC

博客 cbb777 fun 全平台账号安妮的心动录 github https github com anneheartrecord 下文中我说的可能对也可能不对鉴于笔者水平有限请君自辨有问题欢迎大家找我讨论为什么需要卷容器中的
Maven项目添加mysql-connector-java依赖失败:dependency ‘mysql-connector-java‘not found

在IDEA中搭建Scala项目需要将处理过的数据存储到本地mysql数据库中故需要在Maven的pom xml中添加mysql connector java依赖包可能是我之前迁移AS项目时更改了在C盘User目录下的 m2 仓库文件
对视觉目标检测的整体认知（基于目标检测综述）

计算机视觉领域研究的绝大多数问题均存在诸多不确定性因素因为图像理解是成像的逆过程成像是从三维向二维投影的过程在此过程中不仅会丢失深度信息而且光照材料特性朝向距离等信息都反映成唯一的测量值即灰度或色彩而要从这唯一的测量值中恢
双向链表的实现

定义一个双向链表定义双向链表 typedef struct LinkNode int data 数据域 LinkNode next 下一个节点 LinkNode last 上一个节点 LinkNode 节点域 LinkList 头结点初
NeRF：神经辐射场论文原理讲解

一新视角合成 NeRF是开创了一种全新的视角合成方法新视角合成任务指的是给定源图像 Source Image 及对应的源姿态 Source Pose 以及目标姿态 Target Pose 渲染生成目标姿态对应的图片 Target 源姿态
java: 无法从静态上下文中引用非静态方法

Error 11 9 java 无法从静态上下文中引用非静态方法 printArraylist java util ArrayList
分享一个最好用的剪切板管理软件

对于每一个离不开电脑的朋友来说不断的复制粘贴剪切粘贴是常有的事而且电脑断电程序异常退出因手欠而错关了编辑器等类似噩梦经常发生之前我找到一个名叫 M8 Free Clipboard 是用起来还算方便可是免费用户只能保存有限
LLc用simplis 如何建模

简单来说 Simplis 模型的建模方法包括数据预处理特征工程模型设计和调参首先需要收集所需的数据并对数据进行预处理清洗和标准化然后需要进行特征工程确定哪些特征有助于模型预测并调整特征以提高模型准确性接下来根据数据
【初识Git工具】Git工具的基本介绍

初识Git工具 Git工具的基本介绍一什么是Git 1 1 Git简介 1 2 Git和SVN区别 1 3 常用的Git工具二 Git的起源三 Git的优点四 Git的架构五 Git的基本概念 5 1 仓库 Repository
电子邮件链接mailto_“ 3个链接”电子邮件的历史记录以及曾经发送的每个链接的存档...

电子邮件链接mailto by Quincy Larson 昆西拉尔森 Quincy Larson 3个链接电子邮件的历史记录以及曾经发送的每个链接的存档 The history of the 3 links email and an
深入理解overlayfs（一）：初识

版权声明本文为CSDN博主 luckyapple1028 的原创文章遵循CC 4 0 BY SA版权协议转载请附上原文出处链接及本声明原文链接 https blog csdn net luckyapple1028 article d

深入理解overlayfs（一）：初识

深入理解overlayfs（一）：初识 的相关文章

随机推荐

热门标签

深入理解overlayfs（一）：初识的相关文章