第六章:死锁与死锁处理策略
1、死锁简介
1.1、知识总览
1.2、死锁、饥饿、死循环的区别
知识回顾:哲学家进餐问题就是一个死锁,可以看出操作系统的死锁一般是由资源分配不当引起的
死锁: 在在两个或多个并发进程的并发环境下,各进程因竞争资源而造成的一种互相等待对方手里的资源,导致各进程都阻塞,都无法向前推进的现象,就是“死锁”,发生死锁后若无外力干涉这种状态,这些进程都将无法向前推进。
饥饿: 由于长时间得不到想要的资源,某进程无法向前推进的现象。比如:短进程优先(SPF)算法中,若有源源不断的短进程到来,则长进程将一直得不到处理机,从而发生进程“饥饿”。
死循环: 某进程执行过程中一直跳不出某个循环的现象。有时是因为程序逻辑bug导致的,有时是程序员故意设计的。
1.3、死锁产生的必要条件
产生死锁必须同时满足以下四个条件,只要其中任一条件不成立,死锁就不会发生。
- 互斥条件:只有对必须互斥使用的资源的争抢才会导致死锁(如哲学家的筷子、打印机设备)。像内存、扬声器这样可以同时让多个进程使用的资源是不会导致死锁的(因为进程不用阻塞等待这种资源)。
- 不剥夺条件(非抢占): 进程所获得的资源在未使用完只看,不能由其他进程强行夺走,只能主动释放。
- 请求和保持条件(占有并等待):进程已经保持了至少一个资源,但又提出了新的资源请求,而该资源又被其他进程占有,此时请求进程被阻塞,但又对自己已有的资源保持不放。
- 循环等待条件(环路条件):存在一种进程资源的循环等待链,链中每一个进程已获得的资源同时被下一个进程所请求。
注意: 发生死锁一定有循环等待,但是发生循环等待不一定死锁【(循环等待是死锁的必要不充分条件)】。
如果同类资源数大于1,则即使有循环等待,也未必发生死锁。但如果系统中每类资源都只有一个,那循环等待就是死锁的充分必要条件了。
1.4、什么时候会发生死锁
- 对系统资源的竞争。各进程对不可剥夺的资源(如打印机)的竞争可能引起死锁,对可剥夺的资源(CPU)的竞争是不会引起死锁的。
- 进程推进顺序非法。(请求和释放资源的顺序不当,也同样会导致死锁。例如,并发执行的进程P1、P2分别申请并占有了资源R1、R2,之后进程P1又紧接着申请资源R2,而进程P2又申请资源R1,两者会因为申请的资源被对方占有而阻塞,从而发生死锁。
- 信号量的使用不当也会造成死锁。如生产者~消费者问题中,如果实现互斥的P操作在实现同步的P操作之前,就有可能导致死锁。(可以把互斥信号量、同步信号量也看做是一种抽象的系统资源)
- 总之,对不可剥夺资源的不合理分配,可能导致死锁。
2、死锁的处理策略
2.1、综述
归纳起来可以采用下列策略之一来解决死锁问题:
- 预防死锁。采用资源静态分配方法预防死锁,即破坏死锁产生的四个必要条件中的一个或几个。
- 避免死锁。采用资源动态分配方法来避免死锁,即用某种方法防止系统进入不安全状态,从而避免死锁(银行家算法)
- 死锁的检测和解除。允许死锁的发生,不过操作系统会负责检测出死锁的发生,然后采取某种措施解除死锁。
- 忽略死锁,一旦死锁发生便重启系统。这种方法为绝大多数操作系统(如UNIX系统)所采用。
2.2、预防死锁
破坏互斥条件
互斥条件:只有对必须互斥使用的资源的争抢才会导致死锁。
如果把只能互斥使用的资源改造为允许共享使用,则系统不会进入死锁状态。比如SPOOLing技术,操作系统可以采用SPOOLing技术把独占设备的罗吉吉上改造为共享设备。
该策略的缺点:并不是所有的资源都可以改造程可共享使用的资源,并且为了系统安全,很多地方还必须保护这种互斥性。因此,很多时候都无法破坏互斥条件。
破坏不剥夺条件
不剥夺条件:进程所获得的资源在未使用完只看,不能由其他进程强行夺走,只能主动释放。
方案一: 当某个进程请求新的资源得不到满足时,它必须立即释放保持的所有资源,待以后需要时,再重新申请。也就是说,即使某些资源尚未使用完,也需要主动释放,从而破坏了不可剥夺条件。
方案二: 当某个进程需要的资源被其他进程所占有的时候,可以由操作系统协助,将想要的资源强行剥夺。这种方式一般需要考虑各进程的优先级(比如:剥夺调度方式,就是将处理机资源强行剥夺给优先级更高的进程使用)
该策略的缺点:
- 实现起来比较复杂。
- 四方已获得的资源可能造成前一阶段工作的失效。因此这种方法一般只适用于易保持和恢复状态的资源,如CPU。
- 反复地申请和释放资源会增加系统开销,降低系统吞吐量。
- 若采用方案一,意味着只要暂时得不到某个资源,之前获得的那些资源就都需要放弃,以后再重新申请。如果一直发生这种情况,就会导致进程饥饿。
破坏请求和保持条件
请求和保持条件:进程已经保持了至少一个资源,但又提出了新的资源请求,而该资源又被其他进程占有,此时请求进程被阻塞,但又对自己已有的资源保持不放。
可以采用静态分配方法,即进程在运行前一次申请完它所需要的全部资源,在它的资源未满足前,不让它投入运行。一旦投入运行后,这些资源就一直归它所有,该进程就不会再请求别的任何资源了。
该策略实现起来简单,但也有明显的缺点:有些资源可能只需要用很短的时间,因此如果进程的整个运行期间都一直保持着所有资源,就会造成严重的资源浪费,资源利用率极低。另外,该策略也有可能导致某些进程饥饿。
破坏循环等待条件
循环等待条件:进程已经保持了至少一个资源,但又提出了新的资源请求,而该资源又被其他进程占有,此时请求进程被阻塞,但又对自己已有的资源保持不放。
可采用顺序资源分配法。首先给系统的资源编号,规定每个进程必须按编号递增的顺序请求资源,同类资源(即编号相同的资源)一次申请完。
原理分析:一个进程只有已占有小编号的资源时,才有资源申请更大编号的资源。按此规则,已有大编号资源的进程不可能逆向地回来申请小编号的资源,从而就不会循环等待的现象。
假设系统中共有10个资源,编号为1, 2, ...10
该策略的缺点:
- 不方便增加新的设备,因为可能需要重新分配所有的编号。
- 进程实际使用资源的顺序可能和编号递增顺序不一致,会导致资源消费。
- 必须按规定次序申请资源,用户编程麻烦。
2.3、避免死锁
为了提高资源利用率,应采用动态分配资源的方法。但是,采用这种方法时又可能产生死锁。为了解决这一问题,在进行资源动态分配时,应采用某种算法来预测是否有可能发生死锁,若存在可能性,就拒绝企图获得资源的请求。
预防死锁和避免死锁的不同在于:前者所采用的分配策略本身就否定了必要条件之一,这样就保证死锁不可能发生;而后者是在动态分配资源的策略下采用某种算法来预防可能发生的死锁,从而拒绝可能引起死锁的某个资源请求。下面介绍一种死锁的避免方法--银行家算法
2.3.1、什么是安全序列
安全序列:如果系统按照这种序列分配资源,则每个进程都能顺利完成。只要找出一个安全序列,系统就是安全状态。当然,安全序列可能有多个。
如果分配了资源之后,系统中找不到任何一个安全序列,系统就进入了不安全状态。这就意味着之后可能所有进程都无法顺利的执行下去。当然,如果有进程提前归还一些资源,系统也有可能重新回到安全状态,不过我们在分配资源之前总是考虑到最坏的情况。
如果系统处于安全状态,就一定不会发生死锁。如果系统进入不安全状态,系统未必发生死锁。但发生死锁移动是在不安全状态。
因此可以在资源分配之前预先判断这次分配是否导致系统进入不安全状态,以此决定是否答应资源分配请求,这就是“银行家算法”的核心思想。
2.3.2、银行家算法原理
定义:银行家算法是荷兰学者Djkstra为银行系统设计的,以确保银行在发放现金贷款时,不会发生不能满足所有客户需要的情况。后来该算法被用在操作系统中,用于避免死锁。
核心思想:在进程提出资源申请时,先预判此次分配是否会导致系统进入不安全状态。如果进入不安全状态,就暂时不答应这次请求,让该进程先阻塞等待。
思考及安全性算法原理: BAT 的例子中,只有一种类型的资源一钱,但是在计算机系统中会有多种多样的资源,应该怎么把算法拓展为多种资源的情况呢?,我们可以可以把单维的数字拓展为多维的向量
比如系统中有5个进程P0-P4,3种资源R0-R2,初始数量(10,5,7),则某一时刻的情况可表示如下: 此时总共已分配(7,2,5),还剩余(3,3,2),可把最大需求、已分配的数据看作矩阵,两矩阵相减,就可算出各进程最多还需要多少资源了。
这时候资源总数(10,5,7),剩余可用资源(7,4,3),此时系统是否处于安全状态?思路:尝试找出一个安全序列....依次检查剩余可用资源(3,3,2)是否能满足各进程的需求
-
P0最多还需要 > (3,3,2)
-
P1最多还需要 <= (3,3,2)可分配,说明如果优先把资源分配给P1,那P1一定是可以顺利执行结束的。等P1结束了就会归还资源。于是,资源数就可以增加到 (2,0,0)+(3,3,2)=(5,3, 2)
-
可满足P1需求,将P1加入安全序列,并更新剩余可用资源值为(5, 3, 2),依次检查剩余可用资源(5,3,2)是否能满足剩余进程(不包括已加入安全序列的进程)的需求。
-
检查剩余可用资源(5,3,2)是否能满足各进程的需求
-
P0最多还需要 > (5,3,2)
-
P2最大还需要 > (5,3,2)
-
P3最大还需要 (2,1,1)<= (5,3,2) 说明如果优先把资源分配给P3,那P3一定是可以顺利执行结束的。等P3结束了就会归还资源。于是,资源数就可以增加到 (2, 1, 1)+(5, 3, 2)=(7,4,3)
-
可满足P3需求,将P3加入安全序列,并更新剩余可用资源值为(7, 4, 3),依次检查剩余可用资源(7,4,3)是否能满足剩余进程(不包括已加入安全序列的进程)的需求。
-
....以此类推,共五次循环检查即可将5个进程都加入安全序列中,最终可得一个安全序列{P1,P3,P0,P2,P4}。该算法称为安全性算法。
-
可以很方便地用代码实现以上流程,每一轮检查都从编号较小的进程开始检查。实际做题时可以更快速的得到安全序列。
2.3.3、算法步骤实现
- 假设系统中有n个进程,m种资源。
- 每个进程在运行前先声明对各种资源的最大需求数,则可用一个nxm的矩阵( 可用二维数组实现)表示所有进程对各种资源的最大需求数。不妨称为最大需求矩阵Max,Max[i, j]=K表示进程Pi最多需要K个资源Rj。
- 同理,系统可以用一个n*m的分配矩阵Allocation表示对所有进程的资源分配情况。Max - Allocation =Need矩阵,表示各进程最多还需要多少各类资源。
- 另外,还要用一个长度为m的一维数组Available表示当前系统中还有多少可用资源。
- 某进程Pi向系统申请资源,可用一个长度为m的一维数组Request表示本次申请的各种资源量。
可用银行家算法预判本次分配是否会导致系统进入不安全状态:
- 如果Request[j] <= Need[i,j] (0 <= j <= m)便转向2;否则认为出错【因为它所需要的资源数已超过它所宣布的最大值】。
- 如果Request[j] <= Available[j] (0 <= j <= m)便转向3;否则表示尚无足够资源,Pi必须等待。
- 系统试探着把资源分配给进程Pi,并修改相应的数据(并非真的分配,修改数值只是为了做预判)
- Available = Available - Request;
- Allocation[i, j] = Allocation[i, j] + Request[j];
- Need[i, j] = Need[i, j] - Request[j]
- 操作系统执行安全性算法,检查此次资源分配后,系统是否处于安全状态。若安全,才正式分配;否则,恢复相同数据,让进程阻塞等待。
2.3.4、算法总结:
数据结构:
- 长度为m的一维数组==Available==表示还有多少可用资源
- n*m矩阵==Max==表示各进程对资源的最大需求数
- n*m矩阵==Allocation== 表示已经给各进程分配了多少资源
- ==Max-Allocation=Need==矩阵表示各进程最多还需要多少资源
- 用长度为m的一位数组==Request==表示进程此次申请的各种资源数
银行家算法步骤:
- 检查此次申请是否超过了之前声明的最大需求数
- 检查此时系统剩余的可用资源是否还能满足这次请求
- 试探着分配,更改各数据结构
- 用安全性算法检查此次分配是否会导致系统进入不安全状态
安全性算法步骤:
- 检查当前的剩余可用资源是否能满足某个进程的最大需求,如果可以,就把该进程加入安全序列,并把该进程持有的资源全部回收。
- 不断重复上述过程,看最终是否能让所有进程都加入安全序列。
2.4、死锁的检测和解除
如果系统中既不采取预防死锁的措施,也不采取避免死锁的措施,系统就很可能发生死锁。在这种情况下,系统应当提供两个算法:
- 死锁检测算法:用于检测系统状态,以确定系统中是否发生了死锁。
- 死锁解除算法:当认定系统中已经发生了死锁,利用该算法可将系统从死锁状态中解脱出来。
死锁的检测
2.4.1、资源分配图综述
用于检测系统状态,以确定系统中是否发生了死锁。
- 用某种数据结构来保存资源的请求和分配信息;
- 提供一种算法,利用上述信息来检测系统是否已进入死锁状态。
系统资源分配的有向图可以更为精确地描述死锁现象。该有向图由一一个节点集合V和一个边集合E组成。节点集合V分为系统活动进程集合和系统所有资源类型集合两种。系统活动进程集合描述为:P={P1, P.,.. pn},系统所有资源类型集合描述为:R={rn, r2, .,r'm}
在系统资源分配有向图中,以矩形框代表资源,用圆圈表示进程。从进程Pi到资源类型rj的有向边记为pi-rj,称为资源的请求边,它表示进程pi已经申请了资源类型rj的一个实例,并正在等待该资源。从资源类型rj到进程pi的有向边记为rj -Pi, 称为资源的分配边,它表示资源类型rj的一个实例已经分配给进程Pi
如果系统剩余的可用资源数满足进程的需求,那么这个进程暂时是不会阻塞的,可以顺利地执行下去【比如P1进程请求R2资源】。如果这个进程执行结束了把资源归还系统,就可能使某些正在等待资源的进程被激活,并顺利地执行下去【比如P2进程】。相应的,这些被激活的进程执行完了之后又会归还一些资源,这些可能又会激活另外一些阻塞的己进程…
因此如果一个进程可以顺利的执行结束,那么当进程对该资源使用完毕后,立即释放资源,因此我们就消除与该进程节点所连接的边,如果按上述过程分析,最终能消除进程节点所有边,就称这个图是可完全简化的。此时一定没有发生死锁(相当于能找到一个安全序列)
如果最终不能消除所有边,那么此时就是发生了死锁,最终还连着边的那些进程就是处于死锁状态的进程。比如下面右图的P1和P2
2.4.2、检测死锁的算法
-
在资源分配图中,找出既不阻塞又不是孤点的进程Pi (即找出一条有向边与它相连,且该有向边对应资源的申请数量小于等于系统中已有空闲资源数量。如下图中,R1没有空闲资源,R2有一个空闲资源。若所有的连接该进程的边均满足上述条件,则这个进程能继续运行直至完成,然后释放它所占有的所有资源)。消去它所有的请求边和分配变,使之称为孤立的结点。在上图中,P1是满足这一条件的进程结点,于是将P1的所有边消去。
-
进程Pi所释放的资源,可以唤醒某些因等待这些资源而阻塞的进程,原来的阻塞进程可能变为非阻塞进程。在下图中,P2 就满足这样的条件。根据1)中的方法进行一系列简化后,若能消去途中所有的边,则称该图是可完全简化的。
-
死锁定理:如果某时刻系统的资源分配图是不可完全简化的,那么此时系统死锁
但是,由于检测死锁的算法比较复杂,所花的检测时间长、系统开销大,因此,也可以选取比较长的时间间隔来进行。只有在可接受的、修复能够实现的前提下,死锁的检测才是有价值的。在死锁现象发生之后,只有在收回一定数目的资源之后,才有可能使系统脱离死锁状态。如果这种收回资源的操作,要扔掉某程序并 且破坏某些信息,例如,撤消那些陷于死锁的全部进程,那么运行时间上的损失是很大的。由于检测死锁的算法太复杂,系统开销大,所以很少使用。
2.4.3、死锁的解除
当认定系统中已经发生了死锁,利用该算法可将系统从死锁状态中解脱出来。一旦检测出死锁的发生,就应该立即解除死锁。
补充:并不是系统中所有的进程都是死锁状态,用死锁检测算法化简资源分配图后,还连着边的那些进程就是死锁进程,解除死锁的主要方法有:
-
资源剥夺法。挂起(暂时放到外存上)某些死锁进程,并抢占它的资源,将这些资源分配给其他的死锁进程。但是应防止被挂起的进程长时间得不到资源而饥饿。
-
撤销进程法(或称终止进程法)。强制撤销部分、甚至全部死锁进程,并剥夺这些进程的资源。这种方式的优点是实现简单,可能导致已经运行很长时间的进程,直接结束。
-
进程回退法。让一个或多个死锁进程回退到足以避免死锁的地步。这就要求系统要记录进程的历史信息,设置还原点。如何决定“对谁动手”
- 进程优先级
- 已执行多长时间
- 还要多久能完成
- 进程已经使用了多少资源
- 进程是交互式的还是批处理式的