计算机存储器系统

714 阅读18分钟

        存储器是用来存放程序和数据的部件,它是一个记忆装置,也是计算机能够实现“存储程序控制”的基础。在计算机系统中,规模较大的存储器往往分成若干级,称为存储器系统。

        传统的存储器系统一般分为高速缓冲存储器(Cache)、主存辅存三级。主存可由CPU直接访问,存取速度快,但容量较小,一般用来存放当前正在执行的程序和数据。辅存设置在主机外部,它的存储容量大,价格较低,但存取速度较慢,一般用来存放暂时不参与运行的程序和数据,CPU不可以直接访问辅存,辅存中的程序和数据在需要时才传送到主存,因此它是主存的补充和后援。当 CPU 速度很高时,为了使访问存储器的速度能与CPU的速度相匹配,又在主存和CPU间增设了一级Cache。Cache的存取速度比主存更快,但容量更小,用来存放当前最急需处理的程序和数据,以便快速地向 CPU 提供指令和数据。因此,计算机采用多级存储器体系,确保能够获得尽可能高的存取速率,同时保持较低的成本。

        多层级的存储体系之所以能用低投入换来较高的存取速率,得益于局部性原理。局部性原理是指程序在执行时呈现出局部性规律,即在一较短的时间内,程序的执行仅局限于某个部分。相应地,它所访问的存储空间也仅局限于某个区域。程序局部性包括时间局部性空间局部性,时间局部性是指程序中的某条指令一旦执行,不久以后该指令可能再次执行。产生时间局部性的典型原因是由于程序中存在着大量的循环操作;空间局部性是指一旦程序访问了某个存储单元,不久以后,其附近的存储单元也将被访问,即程序在一段时间内所访问的地址可能集中在一定的范围内,其典型情况是程序顺序执行。

1、分类        

        存储器中数据常用的存取方式有顺序存取直接存取随机存取相联存取四种。

1.1、顺序存取

        存储器的数据以记录的形式进行组织。对数据的访问必须按特定的线性顺序进行。磁带存储器采用顺序存取的方式。

1.2、直接存取

        与顺序存取相似,直接存取也使用一个共享的读写装置对所有的数据进行访问。但是,每个数据块都拥有唯一的地址标识,读写装置可以直接移动到目的数据块所在位置进行访问。存取时间也是可变的。磁盘存储器采用直接存取的方式。

1.3、随机存取

        存储器的每一个可寻址单元都具有自己唯一的地址和读写装置,系统可以在相同的时间内对任意一个存储单元的数据进行访问,而与先前的访问序列无关。主存储器采用随机存取的方式。

1.4、相联存取

        相联存取也是一种随机存取的形式,但是选择某一单元进行读写是取决于其内容而不是其地址。与普通的随机存取方式一样,每个单元都有自己的读写装置,读写时间也是一个常数。使用相联存取方式,可以对所有的存储单元的特定位进行比较,选择符合条件的单元进行访问。为了提高地址映射的速度,Cache采取相联存取的方式。

2、主存储器

        主存用来存放计算机运行期间所需要的程序和数据,CPU 可直接随机地进行读/写。主存具有一定容量,存取速度较高。由于 CPU 要频繁地访问主存,所以主存的性能在很大程度上影响了整个计算机系统的性能。根据工艺和技术不同,主存可分为随机存取存储器只读存储器

2.1、随机存取存储器

        随机存取存储器(Random Access Memory,RAM)既可以写入也可以读出,但断电后信息无法保存,因此只能用于暂存数据。RAM又可分为DRAM(Dynamic RAM,动态RAM)和SRAM(Static RAM,静态RAM)两种,DRAM的信息会随时间逐渐消失,因此需要定时对其进行刷新维持信息不丢失;SRAM在不断电的情况下信息能够一直保持而不会丢失。DRAM的密度大于SRAM且更加便宜,但SRAM速度快,电路简单(不需要刷新电路), 然而容量小,价格高。

2.2、只读存储器

        只读存储器(Read Only Memory,ROM)可以看作RAM的一种特殊形式,其特点是:存储器的内容只能随机读出而不能写入。这类存储器常用来存放那些不需要改变的信息。由于信息一旦写入存储器就固定不变了,即使断电,写入的内容也不会丢失,所以又称为固定存储器。ROM一般用于存放系统程序BIOS(Basic Input Output System,基本输入输出系统)。

2.3、主存编址方法

        在计算机系统中,存储器中每个单元的位数是相同且固定的,称为存储器编址单位。不同的计算机,存储器编址的方式不同,主要有字编址字节编址。 

        主存一般以字节(8位)为单位,或者以字为单位(字的长度可大可小,例如16位或者32位等,在这类试题中,一般会给出字的大小)。 

        例如,主存地址从AC000H到C7FFFH,则共有C7FFFFH-AC000H=1BFFFH个地址单元(转换为十进制后,为112KB)。如果该主存地址按字(16bit)编址,则共有112KB×16位。假设该主存由 28 片存储器芯片构成,已知构成此主存的芯片每片有 16KB 个存储单元,则该芯片每个存储单元存储(112KB×16)/(28×16KB)=4位。

3、辅助存储器

        辅助存储器用于存放当前不需要立即使用的信息,一旦需要,再和主机成批交换数据,是主存储器的后备,因此称之为辅助存储器;它又是主机的外部设备,又称之为外存储器。辅助存储器的最大特点是存储器容量大、可靠性高、价格低。常用的辅助存储器有磁带存储器硬盘存储器磁盘阵列光盘存储器

3.1、磁带存储器

        磁带存储器是一种顺序存取的设备,其特点包括:存取时间较长,但存储容量大,便于携带,价格便宜。磁带应用的场景越来越少,目前主要用于资料的归档保存。

3.2、硬盘存储器

        在硬盘中,信息分布呈以下层次:记录面、圆柱面、磁道和扇区,如下图所示。

        一台硬盘驱动器中有多个磁盘片,每个盘片有两个记录面,每个记录面对应一个磁头,所以记录面号就是磁头号,如图1-2(a)所示。所有的磁头安装在一个公用的传动设备或支架上,磁头一致地沿盘面径向移动,单个磁头不能单独地移动。在记录面上,一条条磁道形成一组同心圆,最外圈的磁道为0号,往内则磁道号逐步增加,如图1-2(b)所示。在一个盘组中,各记录面上相同编号(位置)的各磁道构成一个柱面,如图1-2(c)所示。若每个磁盘片有m个磁道,则该硬盘共有m个柱面。 

        引入柱面的概念是为了提高硬盘的存储速度。当主机要存入一个较大的文件时,若一条磁道存不完,就需要存放在几条磁道上。这时,应首先将一个文件尽可能地存放在同一柱面中。 如果仍存放不完,再存入相邻的柱面内。

        通常将一条磁道划分为若干个段,每个段称为一个扇区或扇段,每个扇区存放一个定长信息块(例如,512个字节),如图1-2(b)所示。一条磁道划分多少扇区,每个扇区可存放多少字节,一般由操作系统决定。磁道上的扇区编号从1开始,不像磁头或柱面编号从0开始。 

        在磁盘上进行信息的读写时,首先需要定位到目标磁道,这个过程称之为寻道,寻道所消耗的时间称为寻道时间,定位到目标磁道后,需要定位到目标扇区,此过程通过旋转盘片完成,平均旋转半圈可到目标位置。故磁盘访问时间为:

         磁盘访问时间(存取时间)=寻道时间+旋转延迟时间

4、Cache存储器

    Cache 的功能是提高 CPU 数据输入输出的速率,突破所谓的“冯•诺依曼瓶颈”,即CPU与存储系统间数据传送带宽限制。高速存储器能以极高的速率进行数据访问,但因其价格高昂,如果计算机的内存完全由这种高速存储器组成,则会大大增加计算机的成本。通常在CPU和内存之间设置小容量的Cache。Cache容量小但速度快,内存速度较低但容量大,通过优化调度算法,系统的性能会大大改善,仿佛其存储系统容量与内存相当而访问速度近似Cache。 

        Cache通常采用相联存储器(Content Addressable Memory,CAM)。CAM是一种基于数据内容进行访问的存储设备。当对其写入数据时,CAM 能够自动选择一个未用的空单元进行存储;当要读出数据时,不是给出其存储单元的地址,而是直接给出该数据或者该数据的一部分内容,CAM 对所有存储单元中的数据同时进行比较,并标记符合条件的所有数据以供读取。由于比较是同时、并行进行的,所以,这种基于数据内容进行读写的机制,其速度比基于地址进行读写的方式要快很多。

4.1、Cache基本原理

        使用Cache改善系统性能的依据是程序的局部性原理。 

        根据程序的局部性原理,最近的、未来要用的指令和数据大多局限于正在用的指令和数据,或是存放在与这些指令和数据位置上邻近的单元中。这样,就可以把目前常用或将要用到的信息预先放在Cache中。当CPU需要读取数据时,首先在Cache中查找是否有所需内容,如果有,则直接从Cache中读取;若没有,再从内存中读取该数据,然后同时送往CPU和Cache。如果CPU需要访问的内容大多都能在Cache中找到(称为访问命中),则可以大大提高系统性能。 

        如果以h代表对 Cache 的访问命中率(“1-h”称为失效率,或者称为未命中率),t1表示cache的周期时间,t2表示内存的周期时间,以读操作为例,使用“Cache+主存储器”的系统的平均周期为t3。则: t3=t1×h+t2×(1-h) 系统的平均存储周期与命中率有很密切的关系,命中率的提高即使很小也能导致性能上的较大改善。 例如,设某计算机主存的读/写时间为 l00ns,有一个指令和数据合一的 Cache,已知该Cache的读/写时间为10ns,取指令的命中率为98%,取数的命中率为95%。在执行某类程序时,约有1/5指令需要存/取一个操作数。假设指令流水线在任何时候都不阻塞,则设置Cache后,每条指令的平均访存时间约为: (2%×100ns + 98%×10ns)+ 1/5×(5%×100ns + 95%×10ns)=14.7ns

4.2、映射机制

        当 CPU 发出访存请求后,存储器地址先被送到 Cache 控制器以确定所需数据是否已在Cache中,若命中则直接对Cache进行访问。这个过程称为Cache的地址映射(映像)。在Cache 的地址映射中,主存和Cache将均分成容量相同的块(页)。常见的映射方法有直接映射全相联映射组相联映射

4.2.1、直接映像

        直接映像方式以随机存取存储器作为 Cache存储器,硬件电路较简单。在进行映像时,主存地址被分成三个部分,从高到低依次为:区号、页号以及页内地址,如下图所示。

        直接映像方式的优点是比较容易实现,缺点是不够灵活,块冲突率高,有可能使Cache的存储空间得不到充分利用

         在本例中,内存容量为1GB,Cache容量为8MB,页面的大小为512KB。直接映像中,先分区,再分页。一个区的大小就是 Cache 容量的大小,所以一共分:1GB/8MB=128 个区,区号7位。每个区分:8MB/512KB=16个页,所以页号为4位。 

        在直接映像方式中,每个主存页只能复制到某一固定的Cache页中,如下图所示。 直接映像方式的映像规律是:主存中每个区的第0页,只能进入到Cache的第0页。即:若当前时刻Cache中0号页已被占据,而1-15号页空闲,现在要将1区第0页(即内存的16页)调入Cache是会发生冲突的。所以直接映像的块冲突率非常高。 

        在Cache中,为每一个页设立一个Cache标记,该标记用于识别当前的Cache块来自于哪个内存页。直接映像中,由于每个区的N号页,都必须进入到Cache的N号页,所以只需要记录区号即可。所以此时标记位的长度是7位。

4.2.2、全相联映像

        全相联映像使用相联存储器组成的Cache存储器。在全相联映像方式中,主存的每一页可以映像到Cache的任一页。如果淘汰Cache中某一页的内容,则可调入任一主存页的内容,因而较直接映像方式灵活。

         在全相联映像方式中,主存地址分为两个部分,分别为地址部分(主存页标记)和数据部分(页内地址)。数据部分用于存放数据,而地址部分则存放该数据的存储器地址。如下图所示。

        位置不受限制,十分灵 活。其主要缺点是无法 从主存块号中直接获得 Cache的块号,而是需要将主存页标记与Cache各页的标记逐个比较,直到找到标记符合的页(访问Cache命中),或者全部比较完后仍无符合的标记(访问 Cache 失败),因此这种映像方式速度很慢,失掉了高速缓存的作用,这是全相联映像方式的最大缺点。

4.2.3、组相联映像

        组相联映像(页组映像)介于直接映像和全相联映像之间,是这两种映像的一种折衷方案。全相联映像方式以页为单位,可自由映像,没有固定的对应关系直接映像方式中,主存分组,主存组内的各页与Cache的页之间采取的是固定的映像关系,但各组均可映像到Cache中。在组相联映像方式中,主存与Cache都分组,主存中一个组内的页数与Cache的分组数相同。如下图所示

        在上图给出的例子中,主存分128个区,每个区8个组,每个组2个页。组相联映像方式的主存地址组织如下图所示。

        组相联映像的规则是:主存中的组与Cache的组形成直接映像关系,而每个组内的页是全相联映像关系。如主存1区0页,他在0组中,所以只能进入Cache的0组中,至于进入到Cache的0组0页,还是0组1页,并无强制要求,可任意放置。 

        在组相联映像中,Cache中每一页的标记位长度为8位,因为此时除了要记录区号,还得记录组号,即区号7位加组号1位等于8位。 

        容易看出,如果Cache中每组只有一页,则组相联映像方式就变成了直接映像方式。如果Cache中每组页数为16页(即Cache只分一组),则就是全相联映像。因此,在具体设计组相联映像时,可以根据设计目标选取某一折衷值。 

        在组相联映像中,由于Cache中每组有若干可供选择的页,因而它在映像定位方面较直接映像方式灵活;每组页数有限,因此付出的代价不是很大,可以根据设计目标选择组内页数。 

4.3、替换算法

        当Cache产生了一次访问未命中之后,相应的数据应同时读入CPU和Cache。但是当Cache 已存满数据后,新数据必须替换(淘汰)Cache 中的某些旧数据。最常用的替换算法有以下三种:

(1)随机算法

        这是最简单的替换算法。随机法完全不管Cache块过去、现在及将来的使用情况,简单地根据一个随机数,选择一块替换掉。 

(2)先进先出(First In and First Out,FIFO)算法

        按调入Cache的先后决定淘汰的顺序,即在需要更新时,将最先进入Cache的块作为被替换的块。这种方法要求为每块做一记录,记下它们进入Cache的先后次序。这种方法容易实现,而且系统开销小。其缺点是可能会把一些需要经常使用的程序块(如循环程序)替换掉。 

(3)近期最少使用(Least Recently Used,LRU)算法

        LRU算法是把CPU近期最少使用的块作为被替换的块。这种替换方法需要随时记录Cache中各块的使用情况,以便确定哪个块是近期最少使用的块。LRU算法相对合理,但实现起来比较复杂,系统开销较大。通常需要对每一块设置一个称为“年龄计数器”的硬件或软件计数器,用以记录其被使用的情况。 

4.4、写操作

        因为需要保证缓存在 Cache 中的数据与内存中的内容一致,相对读操作而言,Cache的写操作比较复杂,常用的有以下几种方法。 

(1)写直达(write through)

        当要写Cache时,数据同时写回内存,有时也称为写通。当某一块需要替换时,也不必把这一块写回到主存中去,新调入的块可以立即把这一块覆盖掉。这种方法实现简单,而且能随时保持主存数据的正确性,但可能增加多次不必要的主存写入,会降低存取速度。 

(2)写回(write back)

        CPU修改Cache的某一块后,相应的数据并不立即写入内存单元,而是当该块从cache中被淘汰时,才把数据写回到内存中。在采用这种更新策略的cache块表中,一般有一个标志位,当一块中的任何一个单元被修改时,标志位被置“1”。在需要替换掉这一块时,如果标志位为“1”,则必须先把这一块写回到主存中去之后,才能再调入新的块;如果标志位为“0”,则这一块不必写回主存,只要用新调入的块覆盖掉这一块即可。这种方法的优点是操作速度快,缺点是因主存中的字块未随时修改而有可能出错。 

(3)标记法

        对Cache中的每一个数据设置一个有效位。当数据进入Cache后,有效位置“1”;而当CPU要对该数据进行修改时,数据只需写入内存并同时将该有效位置“0”。当要从Cache中读取数据时需要测试其有效位,若为“l”则直接从Cache中取数,否则,从内存中取数。