第8章、页式、段式、段页式存储管理

1、基本分页存储管理方式

1.1、连续分配方式的缺点

考虑支持多道程序的两种连续分配方式:

固定分区分配：缺乏灵活性，会产生大量的内部碎片,内存的利用率很低。
动态分区分配：会产生很多外部碎片，虽然可以用"紧凑"技术来处理，但是"紧凑"的时间代价很高，需要花费很高的CPU时间

1.2、非连续分配管理方式

为了寻找解决碎片问题的新途径，人们很容易想到能否避开程序对连续性的要求，让程序的地址空间去适应存储器的现状。例如，有个程序要求投入运行，其程序的地址空间为5KB，而内存存当前已有两个分开的各为3KB和2KB的空闲区。显然，每个空闲区的大小都比该程序的地址空间小而总和却同它相等，这时可以把该程序存放到主存中这两个不相邻的区域中，这正是分页的思想。

即如果允许将一个进程分散地装入到许多不相邻的分区中，便可充分地利用内存，而无需再进行"紧凑"，基于这一思想，产生了"非连续分配方式"，或者称为"离散分配方式"

非连续分配：为用户进程分配的可以是一些分散的内存空间。可以分为以下几种：

基本分页存储管理
基本分段存储管理
段页式存储管理

1.3、基本分页存储管理方式

1.3.1、思想

假设在等分的固定分区分配模式下，每个分区大小只有10MB，假设进程A大小为23MB，如果进程只能占用一个分区，那显然放不下，如下左图所示

解决思路： 如果允许进程占用多个分区，那么可以把进程拆分成10MB+10MB+3MB三个部分，再把这三个部分分别放到三个分区中(这些分区不要求连续)，并且进程A的最后一个部分是3MB，放入分区后会产生7MB的内部碎片。

但是这个7m的内部碎片还是挺大的，因此如果每个分区大小为2MB，那么进程A可以拆分成11*2MB+1MB共12个部分，只有最后一部分1MB占不满分区，会产生1MB的内部碎片。

显然，如果把分区大小设置的更小一些，内部碎片会更小，内存利用率会更高。

基本分页存储管理的思想： 为了便于管理，考虑等分内存空间和程序的地址空间，即把内存分为一个个相等的小分区，再按照分区大小把进程拆分成一个个小部分。在分页存储管理方法中，主存被等分成一系列的块，程序的地址空间被等分成一系列的页面

1.3.2、分页存储管理基本概念

将内存空间分为一个个大小相等的分区(比如:每个分区4KB)，每个分区就是一个“页框”，或称“页帧”、“内存块”、“物理块”。每个页框有一个编号，即“页框号”(或者“内存块号”、“页帧号”、“物理块号”)，页框号从0开始。

将用户进程的地址空间也分为与页框大小相等的一个个区域，称为 “页”或“页面”。每个页面也有一个编号，即 “页号”，页号也是从0开始。(注：进程的最后一个页面可能没有一个页框那么大。因此，页框不能太大，否则可能产生过大的内部碎片)

操作系统以页框为单位为各个进程分配内存空间。进程的每个页面分别放入一个页框中。也就是说，进程的页面与内存的页框有一一对应的关系。各个页面不必连续存放，也不必按先后顺序来，可以放到不相邻的各个页框中。

1.3.3、内存扩充

在按区分配方案中，当程序的地址空间小于主存可用空间时，该程序是不能投入运行的。但是，在页式系统中则可方便地支持虚拟存储，扩充主存，因为它不需限定程序在投入运行之前必须把它的全部地址空间装入主存，而只要求把当前所需要的一部分页面装入主存即可，这样对虚地址空间的限制被取消了。

为实现虚拟存储系统，必须完成主存和辅存(外存)之间的信息的自动调度。因为，一个程序的全部页面存放在辅存上，当它投入运行时，只是将运行进程的部分页面装入主存(这些页面称为活动页面)，在进程活动期间，系统必须根据其需要，自动地从辅存调入运行所需的信息。【参考第九章虚拟存储技术】

1.3.4、如何实现地址的转换

将进程地址空间分页之后，操作系统该如何实现逻辑地址到物理地址的转换?

回顾一下以前进程在内存中连续存放时，操作系统是如何实现逻辑地址到物理地址的转换的?--是通过动态重定位的方式

重定位寄存器：存放装入模块存放的起始位置
思想：模块在内存中的的 “起始地址”+目标内存单元相对于起始位置的 “偏移量”

转入正题，借鉴这种方式，由于程序地址空间中的各个页面被装到主存的若干块中，由于这些块可能是不连续的，因此，为保证程序的正确执行，必须进行动态地址映射，方法如下：

以CPU执行指令1，需要访问逻辑地址为80的内存单元为例，如何转化为物理地址?

逻辑地址为80的内存单元：应该在1号页，该页在内存中的起始位置为450，逻辑地址为80的内存单元相对于该页的起始地址而言，偏移量”应该是30。实际物理地址= 450+ 30 = 480

要算出逻辑地址对应的页号
要知道该页号对应页面在内存中的起始地址
要算出逻辑地址在页面内的“偏移量”
物理地址=页面始址+页内偏移量

1.3.5、页号、页内偏移量的计算

页号=逻辑地址/页面长度(取除法的整数部分)
页内偏移量=逻辑地址%页面长度(取除法的余数部分)。【为了方便计算页号、页内偏移量，页面大小一般为2的整数幂】
Eg：逻辑地址2，用二进制表示应该是00000000000000000000000000010，若0号页在内存中的起始地址为X，则逻辑地址2对应的物理地址应该是X+00000000010
结论：如果每个页面大小为2^KB，用二进制数表示逻辑地址，则末尾K位即为页内偏移量，其余部分就是页号

因此，如果让每个页面的大小为2的整数幂，计算机就可以很方便地得出一个逻辑地址对应的页号和页内偏移量。

1.3.6、逻辑地址结构

分页存储管理的逻辑地址结构如下所示:

地址结构包含两个部分：

前一部分为页号，后一部分为页内偏移量W。
在上图所示的例子中，地址长度为32位，其中0~11位为“页内偏移量”，或称“页内地址”; 12~31 位为“页号”

如果有K位表示“页内偏移量”，则说明该系统中一个页面的大小是2K个内存单元，如果有M位表示“页号”，则说明在该系统中，一个进程最多允许有2M个页面

1.3.5、页表

为了能知道这种页式管理下，进程的每个页面在内存中存放的位置【知道进程每个页面的页号对应页面在内存中的起始地址】，操作系统要为每个进程建立一张页表。【页表可以由高速缓冲存储器或主存来构造】

一个进程对应一张页表
进程的每一页对应一个页表项
每个页表项由“页号”和“块号”组成
页表记录进程页面和实际存放的内存块之间的对应关系
每个页表项的长度是相同的，页号是“隐含”的

为什么每个页表项的长度是相同的，页号是“隐含”的?

Eg:假设某系统物理内存大小为4GB，页面大小为4KB，则每个页表项至少应该为多少字节?

4GB= 232B，4KB= 212B，因此4GB的内存总共会被分为232/ 212= 20个内存块，因此内存块号的范围应该是0~2^20-1 因此至少要20个二进制位才能表示这么多的内存块号，因此至少要3个字节才够(每个字节8个二进制位，3个字节共24个二进制位)

各页表项会按顺序连续地存放在内存中，如果该页表在内存中存放的起始地址为X，则M号页对应的页表项一定是存放在内存地址为X+3*M，因此，页表中的“页号”可以是“隐含”的。只需要知道页表存放的起始地址和页表项长度，即可找到各个页号对应的页表项存放的位置。在本例中，一个页表项占3B，如果进程由n个页面，则该进程的页表总共会占3*n个字节

1.4、基本地址变换机构

1.4.1、页表寄存器的作用

基本地址变换机构(用于实现逻辑地址到物理地址转换的一组硬件机构)。基本地址变换机构可以借助进程的页表将逻辑地址转换为物理地址。

通常会在系统中设置一个页表寄存器(PTR)，存放页表在内存中的起始地址F和页表长度M。进程未执行时，页表的始址和页表长度放在进程控制块(PCB) 中，当进程被调度时，操作系统内核会把它们放到页表寄存器中。

1.4.2、地址变换过程

注意：页面大小是2的整数幂，设页面大小为L，逻辑地址A到物理地址E的变换过程如下:

计算页号P和页内偏移量W (如果用十进制数手算，则P=A/L，W=A%L;但是在计算机实际运行时，逻辑地址结构是固定不变的，因此计算机硬件可以更快地得到二进制表示的页号、页内偏移量)
比较页号P和页表长度M，若P≥M，则产生越界中断，否则继续执行。(注意: 页号是从0开始的，而页表长度至少是1，因此P=M时也会越界)
页表中页号P对应的页表项地址=页表起始地址F+页号P*页表项长度，取出该页表项内容b,即为内存块号。(注意区分页表项长度、页表长度、页面大小的区别。页表长度指的是这个页表中总共有几个页表项，即总共有几个页;页表项长度指的是每个页表项占多大的存储空间;页面大小指的是一个页面占多大的存储空间)
计算E=b*L+ W，用得到的物理地址E去访存。( 如果内存块号、页面偏移量是用二进制表示的，那么把二者拼接起来就是最终的物理地址了)

注意： 留意越界的判断！页表项的解释在上一篇学习笔记已总结

1.4.3、其他小细节

页内偏移量位数与页面大小之间的关系(要能用其中一个条件推出另一个条件)
页式管理中地址是一维的
实际应用中，通常使一个页框恰好能放入整数个页表项
为了方便找到页表项，页表一般是放在连续的内存块中的

1.5、具有快表的地址变换机构

是基本地址变换机构的改进版本

1.5.1、局部性原理

时间局部性： 如果执行了程序中的某条指令，那么不久后这条指令很有可能再次执行;如果某个数据被访问过，不久之后该数据很可能再次被访问。( 因为程序中存在大量的循环)
空间局部性: 一旦程序访问了某个存储单元，在不久之后，其附近的存储单元也很有可能被访问。(因为很多数据在内存中都是连续存放的)

1.5.2、快表(联想寄存器TLB)

在地址变换过程中，若页表全部由内存实现，那么存取一个数据 (或条指令)，至少要访问两次内存：一次是访问页表，根据逻辑地址确定所要取数据(或指令)的物理地址；第二次才根据物理地址取数(或指令)。由于局部性原理，可能连续很多次查到的都是同一个页表项。也就是说，若采用存放在主存的页表进行地址变换，指令执行速度要下降100%，为了提高查表速度，减少访问页表的次数，可以采用高速缓冲存储器作页表。

当前的系统大多采用高速缓冲存储器页表和主存页表相结合的方法，将应用程序的所有页表放在主存中，而将一部分页表放在快速存储器中。这种方法与页表全部放在主存的系统相比较、其成本略有提高，但指令执行速度却明显地加快。存放页表部分内容的快速存储器称为联想寄存器

快表，又称联想寄存器(TLB)，是一种访问速度比内存快很多的高速缓冲存储器，用来存放当前访问的若干页表项，以加速地址变换的过程。与此对应，内存中的页表常称为慢表。

1.5.3、引入快表后，地址的变换过程

CPU给出逻辑地址，由某个硬件算得页号、页内偏移量，将页号与快表中的所有页号进行比较。
如果找到匹配的页号，说明要访问的页表项在快表中有副本，则直接从中取出该页对应的内存块号，再将内存块号与页内偏移量拼接形成物理地址，最后，访问该物理地址对应的内存单元。因此,若快表命中，则访问某个逻辑地址仅需一次访存即可。
如果没有找到匹配的页号，则需要访问内存中的页表，找到对应页表项，得到页面存放的内存块号，再将内存块号与页内偏移量拼接形成物理地址，最后，访问该物理地址对应的内存单元。
因此，若快表未命中，则访问某个逻辑地址需要两次访存(注意:在找到页表项后，应同时将其存入快表,以便后面可能的再次访问。但若快表已满，则必须按照一定的算法对旧的页表项进行替换)。由于查询快表的速度比查询页表的速度快很多，因此只要快表命中，就可以节省很多时间。
因为局部性原理，一般来说快表的命中率可以达到90%以上。

例：某系统使用基本分页存储管理，并采用了具有快表的地址变换机构。访问一次快表耗时1us，访问一次内存耗时100us。若快表的命中率为90%，那么访问一个逻辑地址的平均耗时是多少?

(1+100) * 0.9+ (1+100+100) * 0.1= 111 us
有的系统支持快表和慢表同时查找，如果是这样，平均耗时应该是(1+100) * 0.9+ (100+100) * 0.1=110.9 us
若未采用快表机制，则访问一个逻辑地址需要100+100 = 200us

1.6、两级页表

2、基本分段存储管理方式

与“分页”最大的区别就是一离散分配时所分配地址空间的基本单位不同

在分区存储管理和页式系统中，程序的地址空间是维线性的，指令或操作数地址只要给一个信息量即可决定。但这两种方法都存在缺点。分区存储管理方法易出现碎片，页式系统中一页或页号相连的几个虚页上存放的内容一般都不是一个逻辑意义完整的信息单位，这这对于要调用许多子程序的大型用户程序来说，仍然会感到主存空间的使用效率不高。为此，提出了段式管理技术。段式系统中程序的地址空间由若干个逻辑分段组成，每个分段有自己的名字，对于一个分段而言它是个连续的地址区。

2.1、什么是分段

进程的地址空间： 按照程序自身的逻辑关系划分为若干个段(代码分段、数据分段、栈段等组成)，每个段都有一个段名(在低级语言中，程序员使用段名来编程)，每段从0开始编址

内存分配规则： 以段为单位进行分配，每个段在内存中占据连续空间，但各段之间可以不相邻。

由于是按逻辑功能模块划分，用户编程更方便，程序的可读性更高

2.2、逻辑地址结构

采用了分段以后，分段系统的逻辑地址结构由段号(段名)和段内地址(段内偏移量)所组成。如: .

段号的位数决定了每个进程最多可以分几个段
段内地址位数决定了每个段的最大长度是多少
在上述例子中，若系统是按字节寻址的，则
- 段号占16位，因此在该系统中，每个进程最多有216= 64K个段
- 段内地址占16位，因此每个段的最大长度是216 = 64KB。

2.3、什么是段表

问题：程序分多个段，各段离散地装入内存，为了保证程序能正常运行，就必须能从物理内存中找到各个逻辑段的存放位置。为此，需为每个进程建立一张段映射表，简称 “段表”。

每个段对应一个段表项，其中记录了该段在内存中的起始位置(又称基址”)和段的长度。
各个段表项的长度是相同的。例如:某系统按字节寻址，采用分段存储管理，逻辑地址结构为(段号16位,段内地址16位)，因此用16位即可表示最大段长。物理内存大小为4GB (可用32位表示整个物理内存地址空间)。因此，可以让每个段表项占16+32 =48位，即6B。由于段表项长度相同，因此段号可以是隐含的，不占存储空间。若段表存放的起始地址为M，则K号段对应的段表项存放的地址为M + K*6

2.4、如何实现地址变换

2.5、分段、分页管理的对比

页是信息的物理单位。分页的主要目的是为了实现离散分配，提高内存利用率。分页仅仅是系统管理上的需要，完全是系统行为，对用户是不可见的。

段是信息的逻辑单位。分段的主要目的是更好地满足用户需求。一个段通常包含着一组属于一个逻辑模块的信息。分段对用户是可见的，用户编程时需要显式地给出段名。

页的大小固定且由系统决定。段的长度却不固定，决定于用户编写的程序。

分页的用户进程地址空间是一维的，程序员只需给出一个记忆符即可表示一个地址。分段的用户进程地址空间是二维的，程序员在标识一个地址时，既要给出段名，也要给出段内地址。

分段比分页更容易实现信息的共享和保护。 不能被修改的代码称为纯代码或可重入代码(不属于临界资源)，这样的代码是可以共享的。可修改的代码是不能共享的(比如，有一个代码段中有很多变量，各进程并发地同时访问可能造成数据不一致)

访问一个逻辑地址需要几次访存?

分页(单级页表) :第一次访存--查内存中的页表，第二次访存---访问目标内存单元。总共两次访存
分段：第一次访存---查内存中的段表，第二次访存---访问目标内存单元。总共两次访存，与分页系统类似，分段系统中也可以引入快表机构，将近期访问过的段表项放到快表中，这样可以少一次访问，加快地址变换速度。

3、段页式管理方式

3.1、分页、分段管理方式中最大的优缺点

分段管理中产生的外部碎片也可以用“紧凑”来解决，只是需要付出较大的时间代价

3.2、分段+分页的结合一段页式管理方式

在进程的程序地址空间内按逻辑模块分段，再将各段分页(如每个页面4KB)，再将内存空间分为大小相同的内存块/页框/页帧/物理块，这就形成了段页式存储管理，进程前将各页面分别装入各内存块中

3.3、段页式管理的逻辑地址结构

分段系统的逻辑地址结构由段号和段内地址(段内偏移量)组成。如:

段页式系统的逻辑地址结构由段号、页号、页内地址(页内偏移量)组成。如:

段号的位数决定了每个进程最多可以分几个段
页号位数决定了每个段最大有多少页
页内偏移量决定了页面大小、内存块大小是多少
在上述例子中，若系统是按字节寻址的，则
- 段号占16位，因此在该系统中，每个进程最多有216= 64K个段
- 页号占4位，因此每个段最多有2^4= 16页
- 页内偏移量占12位，因此每个页面\每个内存块大小为212=4096=4KB

“分段”对用户是可见的，程序员编程时需要显式地给出段号、段内地址。而将各段“分页”对用户是不可见的。系统会根据段内地址自动划分页号和页内偏移量。因此段页式管理的地址结构是二维的。

3.4、段表、页表

每个段对应一个段表项，每个段表项由段号、页表长度、页表存放块号(页表起始地址)组成。每个段表项长度相等，段号是隐含的。每个页面对应一个页表项，每个页表项由页号、页面存放的内存块号组成。每个页表项长度相等，页号是隐含的。

3.5、如何实现地址变换

段页式地址变换中要得到物理地址须经过三次主存访问(若段表、页表都在主存)

第一次访问段表，得到页表起始地址；
第二次访问页表，得到主存块号
第三次将主存号与页内唯一组合，得到物理地址，可用软、硬件相结合的方法实现段页式地址变换

这样，虽然增加了硬件成本和系统开销，但是在方便用户和提高存储器利用率上实现了存储管理的目标

8、操作系统原理知识复习(day08)--内存管理(中)--页式、段式、段页式存储管理