操作系统-四、内存管理（小林coding笔记）

2023-05-16

虚拟内存

防止内存运行多个程序时崩溃。

把进程所使用的地址隔离开，让操作系统为每个进程分配一套独立的虚拟地址。操作系统会提供一种机制，将不同进程的虚拟地址和不同内存的物理地址映射起来。

内存分段

程序时由若干逻辑分段组成的，不同的段有不同的属性，所以用分段的形式把这些段分离出来。

虚拟地址由段选择因子和段内偏移量组成。

带来的问题：内存碎片、内存交换的效率低。

内存碎片主要分为内部内存碎片和外部内存碎片，但一般不会出现内部内存碎片。用swap空间解决外部内存碎片，将内存和硬盘进行空间交换。但这样很慢导致效率低。

内存分页

分页是把整个虚拟和物理内存空间切成一段段固定尺寸的大小。

分页不会产生外部内存碎片，但页内会出现内存浪费，导致内部内存碎片的现象。

分页机制下，虚拟地址分为页号和页内偏移两部分。

多级页表 节约空间 TLB 节约时间，把最常访问的页表项存储到访问更快的硬件中，成为页表缓存。

段页式内存管理

先把程序分为多个有逻辑意义的段，再把每个段分成固定大小的页。地址结构就由段号、段内页号和页内位移组成。

Linux内存主要采用页式内存管理，但同时不可避免的涉及了段机制。

内存分配

malloc（）是c库里的函数，用于动态分配内存。

方式一通过brk（）系统调用从堆分配内存，方式二通过mmap（）系统调用在文件映射区域分配内存。

malloc分配的是虚拟内存，在分配内存时，会预分配更大的空间作为内存池。

malloc（1）实际分配132K字节的内存。

brk（）方式申请的内存，free释放内存时，没有把内存归还给操作系统而是缓存在malloc内存池中了，待下次使用；而mmap方式申请的内存会归还给操作系统。

频繁使用mmap分配内存，每次都要进行运行态的切换，还会发生缺页中断，导致CPU消耗大。

频繁使用brk分配内存，堆内将产生越来越多不可用的碎片，导致内存泄漏。

free函数会对传进的内存地址向左偏移16字节，分析出内存块的大小。

内存回收

后台内存回收和直接内存回收；

后台内存回收过程是异步的，不会阻塞进程的执行；若后台异步回收跟不上就开始直接回收，这个过程是同步的，会阻塞进程的执行。若仍然无法满足内存需求，那么就会触发OOM机制。

OOM Killer机制根据算法选择占内存高的进程将其杀死。

可以回收的内存

文件页：内核缓存的磁盘数据和内核缓存的文件数据；回收干净页的方式是直接释放内存，回收脏页的方式是先写回磁盘在释放内存。

匿名页：这部分内存没有实际载体。通过Swap机制先把内存写到磁盘，再释放内存。

回收都是基于LRU算法，也就是优先回收不常访问的内存。

调整文件页和匿名页的回收倾向：在Linux里把swappiness的数值设置为0，这样更倾向于文件页的回收，减少磁盘I/O的操作。

内核定义了三个内存阈值来衡量当前剩余内存的情况：页高阈值、页低阈值、页最小阈值。

橙色部分：执行内存回收，直到剩余内存大于高阈值。异步回收

红色部分：触发直接内存回收。

通过调节内存最小阈值类设置页低阈值和页高阈值。

NUMA架构下的内存回收策略

SMP架构：多个CPU处理器共享资源的电脑硬件架构，每个CPU地位平等。也称为一致存储访问结构（UMA），但用同一根总线访问内存，总线压力大。

NUMA架构将每个CPU进行了分组，每组用Node表示，每个Node有自己独立的资源，包括内存、IO等。每组之间可以通过互联模块总线通信。

在NUMA架构下，某个Node内存不足时，系统可以从其他Node寻找空闲内存。

保护进程

omm_badness()根据进程消耗的内存打分，消耗的内存越大越容易被杀掉，可以通过调整omm_score_adj的值改变得分结果。

将omm_score_adj设置为-1000，进程就不会被杀掉。

避免预读失效和缓存污染

Linux操作系统的缓存：对读取的文件数据缓存到页缓存中。

MySQL的缓存：Innodb存储引擎设计了一个缓冲池，其属于内存空间。

传统LRU算法：访问的页在内存中，把该页对应的LRU链表节点移动到链表头部；不在内存中，把该页放到LRU链表头部还要淘汰末尾的页。

预读机制：操作系统出于空间局部性原理，提前将磁盘块后续的数据都加载到内存中。好处是减少了磁盘I/O次数。

预读失效：被提前加载来的页没有被访问，反而占用链表头部位置，导致淘汰热点数据。

改进：

Linux实现了两个LRU表：活跃LRU链表（active list）和非活跃LRU链表

MySQL在LRU链表上划分了两个区域：young和old区域。

将预读页加入到inactive list的头部，当预读页被访问时，才将页插入active list的头部。

缓存污染

热点数据都被挤到非活跃链表了，就导致活跃链表被污染了。

改进：

提高进入活跃LRU链表的门槛，保证热点数据不会被轻易替换掉。

Linux在内存也被第二次访问时，才把页升级到活跃链表中。

MySQL在内存页被第二次访问同时时间间隔超过1秒时才会升级到young区。

深入理解虚拟内存管理

进程虚拟内存空间

存放进程程序二进制文件中的机器指令的代码段

定义全局变量和静态变量的数据段和BSS段

用于动态申请内存的堆

存放动态链接库以及内存映射区的文件映射与匿名映射

存放函数调用过程中的局部变量和函数参数的栈

Linux进程虚拟内存空间

进程虚拟内存空间的管理

进程在内核中的描述符task_struct结构，每个进程都有唯一的mm_struct结构体，保证虚拟地址空间都是独立互不干扰的。

通过fork()创建的子进程，其虚拟内存空间和父进程的虚拟内存空间是一模一样的，直接拷贝过来的。

通过vfork或clone系统调用创建的子进程，是将父进程的虚拟内存空间以及相关页表直接赋值给子进程，也就是父子的虚拟内存空间是共享的，一样的，并不是一份拷贝。这样子进程就变成了线程。

是否共享地址空间几乎是进程和线程的本质区别。

内核线程和用户态线程的区别是内核线程没有相关的内存描述符mm_struct;

划分用户态和内核态虚拟内存空间

进程的内存描述符mm_struct结构体中的task_size变量定义了用户态地址空间和内核态地址空间的分界线。

内核中用mm_struct结构体中的属性来定义虚拟内存空间的不同内存区域。

内核管理虚拟内存空间

结构体vm_area_struct描述了虚拟内存空间

虚拟内存区域的访问权限和行为规范

vm_page_prot偏向于定义页这一级别的访问控制权限，可直接应用在底层表中。

vm_flags偏向于定义整个虚拟内存空间的访问权限和行为规范。

内存映射中的映射关系

属性anon_vma关联匿名映射区；属性vm_file关联被映射的文件；vm_pgoff表示映射进虚拟内存中的文件内容在文件中的偏移。

结构体 vm_area_struct结构中有一个vm_ops用来指向针对虚拟内存区域的相关操作的函数指针。

组织关系

内核中通过一个双向 vm_area_struct结构中的双向链表将虚拟内存空间中的虚拟内存区域串联起来的。头指针存储在内存描述符struct mm_struct结构体中的mmap中；每个虚拟内存区域又通过struct vm_arrea_struct中的vm_mm指针指向所属的虚拟内存空间mm_struct;

还有一种红黑树用于高效的查找，每个VMA都是树的一个结点，红黑树的根结点存储在mm_rb中。

二进制文件映射到虚拟内库空间

通过函数load_elf_binary将ELF格式的二进制文件中的Section加载并映射到虚拟内存空降中。

内核虚拟内存空间

内核态虚拟内存空间是所有进程共享的。

32位体系内核虚拟内存空间布局

直接映射区：范围为 3G -- 3G + 896m这块连续的虚拟内存地址会映射到0-896M这块连续的物理内存上。

直接映射区存放的内容：前1M被系统占用，之后的存放内核代码段、数据段、BSS段。还有进程相关的数据结构、内核栈。

物理内存896M以上的区域被内核划分为ZONE_HIGHMEM区域，称为高端内存。通过动态映射的方式映射到128M大小的内核虚拟内存空间中。

动态映射区：动态的一部分一部分的分批映射。

永久映射区:建立与物理高端内存的长期映射关系。

固定映射区：虚拟地址是固定的，被映射的物理地址是可以改变的。相当于一个指针常量。

临时映射区：临时映射，用完就释放。

64位体系内核虚拟内存空间布局

64位下内核虚拟内存空间很大，不用精细管理，直接映射就可以了。

物理内存地址

内存也叫随机访问存储器（RAM）

静态RAM（SRAM）：用于CPU高速缓存L1、L2、L3，访问速度快，容量小，造价高；

动态RAM（DRAM）：用于常说的主存，访问速度较慢，容量较大，相对便宜。

主存由一个个存储器模块组成，多个存储器模块连接到存储控制器上，就聚合成了主存。

DRAM芯片的存储结构是二维矩阵，二维矩阵中存储的元素成为超单元。都有坐标地址。

包含两个地址引脚，八个数据引脚。

DRAM芯片的访问

CPU读写主存

CPU和主存之间的数据交互是通过总线完成的，数据在总线的传送过程称为总线事务。

总线上传输的信号有地址信号、数据信号、控制信号。总线传输的地址为物理内存地址。

IO bridge负责转换不同总线上的电子信号。

CPU从内存读数据

存储控制器将物理地址转换为二维坐标，并广播给所有存储器模块。并依次从DRAM0到DRAM7读取相应的supercell。

物理内存地址实际上是不连续的，因为这连续的八个字节实际上存储与不同的DRAM芯片上。

Linux物理内存管理

物理内存划分为内存页，在内核中用struct page结构体进行管理。每个结构体定义了一个索引编号PFN，与struct page 一一对应。

物理内存模型

FLATMEN平坦内存模型

假设内存是地址连续的内存空间，内核将内存空间分为一页一页的内存块struct page，用一个数组来组织连续的的物理内存页。

内核使用mem_map的全局数组来组织所有划分出来的内存页，计算逻辑就是基于mem_map数组进行偏移操作。

DISCONTIGMEM非连续内存模型

平坦模型管理非连续内存时会造成内存空洞。

在DISCONTIGMEM非连续内存模型中，内核将物理内存从宏观上划分成了一个个的结点node，每个结点管理一块连续的物理内存。

每个节点中还是采用FLATMEM平坦内存模型来组织管理物理内存页。

SPARSEMEM稀疏内存模型

DISCONTIGMEN内存模型中的每个node中的物理内存也不一定都是连续的。若node数目多了，开销变大。

SPARSEMEM稀疏内存模型核心思想是对粒度更小的连续内存块进行精细管理。管理单元称为section。

物理内存热插拔

热插拔分为两个阶段：物理热插拔阶段和逻辑热插拔阶段。

SPARSEMEM内存模型中的每个men_section都可以在系统运行时改变offline和online的状态，当offline时，内核把这部分内存隔离开，然后将内存页迁移到其他内存上。

内核将物理内存根据物理页是否可前移，划分为不可迁移页、可回收页、可迁移页。热拔出时，操作的都是可迁移的内存页，从而使内存顺利拔出。

物理内存架构

从CPU访问物理内存的角度观察物理内存的架构。

一致性内存访问UMA架构

多个CPU访问内存都要过总线，且距离相同，访问速度都是一样的，这种模式叫SMP，即对称多处理器。

优点：结构简单，访问速度一致。

缺点：总线压力会变大，CPU可用带宽减少；总线长度增加，访问延迟。

非一致性内存访问NUMA架构

内存被划分为一个个内存结点，每个CPU都有自己的本地内存节点，本地内存不足时，需要跨节点访问其他内存节点。

NUMA内存分配策略

内核管理NUMA节点

内核统一组织NUMA节点

内核使用了一个类型为struct pglist_data的全局数据node_data[]来管理所有的NUMA节点。

NUMA节点描述符pglist_data结构

node_id表示NUMA节点的id；

struct page 类型的数组node_men_map包含了NUMA节点内所有的物理内存页；

node_start_pfn指向NUMA节点内第一个物理页的PFN；

node_present_pages用于统计NUMA节点内所有真正可用的物理页面数量；

NUMA节点物理内存区域的划分

ZONE_MOVABLE 是一个虚拟内存区域，该区域的物理页都是可以迁移的，主要为了防止内存碎片和支持内存的热插拔。

NUMA节点之间所包含的物理内存区域个数是不一样的。

NUMA节点中内存规整与回收

kswapd进程用于回收不经常使用的页面；

kcompactd进程用于内存的规整避免内存碎片。

NUMA节点的状态

NUMA节点多余一个，内核会维护一个位图node_states，用于维护各个NUMA节点的状态信息。

内核管理NUMA节点中的物理内存区域

内核中描述和管理NUMA节点中物理内存区域的结构体是struct zone；

物理内存区域中的预留内存

每个物理内存区域struct zone为操作系统预留了一部分内存，用于内核的核心操作。

内核不允许高位内存对低位内存的无限制挤压，每个内存区域可以根据各自的lowmen_reserve_ratio计算各自区域中的预留内存大小；也可以进行动态调整。

物理内存区域中的水位线

内存资源紧张时应对方法：产生OOM、内存回收、内存规整。

内核为每个NUMA结点中的每个物理内存区域定制了三条指示内存容量的水线：WMARK_MIN(页最小阈值)、WMARK_LOW(页低阈值)、WMARK_HIGH(页高阈值)

水位线的数值是以min_free_kbytes为基准分别计算出来的，用户也可以通过sysctl来动态设置这个参数。

要保证kswapd进程活动范围大一些，这样就减少了直接回收内存的可能。调整watermark_scale_factor重新计算水位线之间的间距。

物理内存区域中的冷热页

热页：已经加载进CPU高速缓存中的物理内存页；

冷页：还未加载进CPU高速缓存中的物理内存页；

内核关于冷热页的管理全部封装在struct per_cpu_pageset结构中。两个pre_cpu_pages结构分别管理冷页和热页。

内核5.0版本直接使用struct pre_cpu_pages的链表来集中管理系统中所有CPU高速缓存冷热页。

每种迁移类型都对应一个冷热页链表。

内核描述物理内存页

Linux采用4KB作为标准物理内存页的大小：必须是2的整数次幂；4KB是磁盘块大小的整数倍，同时传输小块数据会更高效。

struct page结构是内核中访问最频繁的结构体，其中包含了大量的union结构，被用于同一块内存根据不同的场景保存不同类型数据的一种方式。

匿名页的反向映射

从物理内存映射到虚拟内存，用于某个物理内存页需要进行回收或迁移，此时就要去找到这个物理页被映射到了哪些进程的虚拟地址空间，并断开他们的映射。

内核可以直接检出page结构中的mapping指针的最低位来判断该物理内存到底是匿名页还是文件页。

内存回收相关属性

内核为了将页面的使用频率这个因素加入进来，就引入了active链表和inactive链表。

回收优先级：inactive 链表尾部 > inactive 链表头部 > active 链表尾部 > active 链表头部。

因为匿名页的换入换出代价大，所以要优先替换文件页。对active链表和inactive链表按照匿名页和文件页进行了归类。（匿名页的active链表，inactive链表和文件页的active链表，inactive链表）

swappiness设置为0时，内核只会置换文件页，不会置换匿名页。

物理内存页属性和状态的标志位flag

struct page中的flag字段的高8位用来表示struct page的定位信息，剩余低位表示特定的标志位。

复合页compound_page相关属性

巨型大页：通过两个或者多个物理上连续的内存页page组装成一个比普通内存页page更大的页。

可减少缺页中断提高性能；所需要的页表项比普通页要少，加速内存访问；拷贝父进程的页表时更快。

复合页中所有尾页都会指向首页从而组合成一个完整的复合页。

Slab对象池相关属性

slab好比一个对象池，内核中的数据结构对象都对应于一个slab对象池，用于分配固定类型对象所需要的内存。从伙伴系统申请一整页内存，然后划分为多个大小相等的小块内存被slab管理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)