1. 进程的概念、组成及特征

1.1 进程的概念

首先了解一下程序的概念：

程序：是静态的，是存放在磁盘里的可执行文件，是一系列指令的集合。

进程：是动态的，是程序的一次执行过程。

注：同一程序多次执行会对应多个进程。

1.2 进程的组成

一个进程实体（进程映像）由 PCB、程序段、数据段组成。

进程是动态的，进程实体（进程映像）是静态的。进程实体反应了进程在某一时刻的状态，进程是进程实体的运行过程。

PCB 是给操作系统用的。程序段、数据段是给进程自己用的。

1.2.1 PCB

PCB（Process Control Block），进程控制块，一个数据结构。操作系统管理进程所需要的信息，都存放在 PCB 中。

PCB 是进程存在的唯一标志，当进程被创建时，操作系统为其创建 PCB，当进程结束时，会回收其 PCB。

PCB 包含：

进程描述信息
- 进程标识符 PID：进程被创建时，OS 会为该进程分配一个唯一的、不重复的 PID（Process ID）。
- 用户标识符 UID
进程控制和管理信息
- CPU、磁盘、网络流量等使用情况的统计
- 进程当前状态：就绪态/阻塞态/运行态
资源分配清单
- 正在使用哪些文件
- 正在使用哪些内存区域
- 正在使用哪些I/O设备
处理机相关信息
- 如 PSW、PC 等等各种寄存器的值(用于实现进程切换)

1.2.2 程序段

程序的代码，指令序列

1.2.3 数据段

运行过程中产生的各种数据，如程序中定义的变量

1.3 进程的特征

动态性：最基本特性。进程是程序的一次执行过程，是动态地产生、变化和消亡的。
并发性：内存中有多个进程实体，各进程可并发执行。
独立性：进程是能独立运行、独立获得资源的基本单位。
异步性：各进程按各自独立的、不可预知的速度向前推进，操作系统要提供进程同步机制来解决异步问题。
结构性：进程由程序段、数据段、PCB 组成。

2. 进程的状态与转换

2.1 进程的状态

创建状态：进程正在被创建时。在这个阶段操作系统会为进程分配资源、初始化 PCB。
就绪状态：当进程创建完成后，便进入就绪态，处于就绪态的进程已经具备运行条件，但由于没有空闲 CPU，此时不能运行。
运行状态：进程正在 CPU 上运行。
阻塞状态：在进程运行的过程中，可能会请求等待某个事件的发生（如等待某种系统资源的分配，或者等待其他进程的响应），进程会进入阻塞状态。
终止状态：一个进程可以执行 exit 系统调用，请求操作系统终止该进程。此时该进程会进入“终止态”，操作系统会让该进程下CPU，并回收内存空间等资源，最后还要回收该进程的PCB。

进程PCB中，会有一个变量 state 来表示进程的当前状态。

2.2 进程状态间的转换

创建态 -> 就绪态：系统完成创建进程的相关工作。
就绪态 -> 运行态：进程被调度。
运行态 -> 就绪态：时间片到，或者 CPU 被其他高优先级的进程抢占。
运行态 -> 阻塞态：等待系统资源分配，或等待某事件发生（主动行为）。
阻塞态 -> 就绪态：资源分配到位，等待的时间发生（被动行为）。
运行态 -> 终止态：进程运行结束，或运行过程中遇到不可修复的错误。

2.3 进程的组织方式

链接方式：按照进程状态将 PCB 分为多个队列，操作系统持有指向各个队列的指针。
索引方式：根据进程状态的不同，建立几张索引表，操作系统持有指向各个索引表的指针。

3. 进程控制

3.1 进程控制是什么

进程控制：进程控制的主要功能是对系统中的所有进程实施有效的管理，它具有创建新进程、撤销已有进程、实现进程状态转换等功能。

如何实现进程控制呢？使用原语实现，因为原语的执行具有原子性，一气呵成。

原语的原子性是如何实现的？原语是使用关中断指令和开中断指令这两个特权指令实现的。

正常情况：CPU每执行完一条指令都会例行检查是否有中断信号需要处理，如果有，则暂停运行当前这段程序，转而执行相应的中断处理程序。

CPU执行了关中断指令之后，就不再例行检查中断信号，直到执行开中断指令之后才会恢复检查。

3.2 进程控制相关的原语

3.2.1 进程的创建

创建原语：

申请空白PCB
为新进程分配所需资源
初始化PCB
将PCB插入就绪队列

引起进程创建的事件：

用户登录：分时系统中，用户登录成功，系统会建立为其建立一个新的进程
作业调度：多道批处理系统中，有新的作业放入内存时，会为其建立一个新的进程
提供服务：用户向操作系统提出某些请求时，会新建一个进程处理该请求
应用请求：由用户进程主动请求创建一个子进程

3.2.2 进程的终止

撤销原语：

从PCB集合中找到终止进程的PCB
若进程正在运行，立即剥夺CPU,将CPU分配给其他进程
终止其所有子进程（进程间的关系是树形结构）
将该进程拥有的所有资源归还给父进程或操作系统
删除PCB

引起进程终止的事件：

正常结束：进程自己请求终止(exit系统调用)
异常结束：整数除以0、非法使用特权指令，然后被操作系统强行杀掉
外界干预：Ctrl+Alt+delete,用户选择杀掉进程

3.2.3 进程的阻塞

阻塞原语：

找到要阻塞的进程对应的PCB
保护进程运行现场，将PCB状态信息设置为“阻塞态”,暂时停止进程运行
将PCB插入相应事件的等待队列

引起进程阻塞的事件：

需要等待系统分配某种资源
需要等待相互合作的其他进程完成工作

3.2.4 进程的唤醒

唤醒原语：

在事件等待队列中找到PCB
将PCB从等待队列移除，设置进程为就绪态
将PCB插入就绪队列，等待被调度

引起进程唤醒的事件：

等待的事件发生（因何事阻塞，就应由何事唤醒）

3.2.5 进程的切换

切换原语：

将运行环境信息存入PCB
PCB移入相应队列
选择另一个进程执行，并更新其PCB
根据PCB恢复新进程所需的运行环境

引起进程切换的事件：

当前进程时间片到
有更高优先级的进程到达
当前进程主动阻塞
当前进程终止

4. 进程通信

进程间通信（Inter-Process Communication， IPC） 是指两个进程之间产生数据交互。

进程是分配系统资源的单位（包括内存地址空间），因此各进程拥有的内存地址空间相互独立。

为了保证安全，一个进程不能直接访问另一个进程的地址空间。进程通信需要操作系统的支持。

4.1 共享存储

设置一个共享内存区域，并映射到进程的虚拟地址空间。

要互斥地访问共享空间(由通信进程自己负责实现互斥)。各个进程可使用操作系统内核提供的同步互斥工具（如P、V操作）。

共享存储的两种方式：

基于存储区的共享：操作系统在内存中划出一块共享存储区，数据的形式、存放位置都由通信进程控制，而不是操作系统。这种共享方式速度很快，是一种高级通信方式。
基于数据结构的共享：比如共享空间里只能放一个长度为10的数组。这种共享方式速度慢、限制多，是一种低级通信方式。

4.2 消息传递

进程间的数据交换以格式化的消息（Message）为单位。进程通过操作系统提供的“发送消息/接收消息”两个原语进行数据交换。

消息包含消息头和消息体。消息头包括：发送进程ID、接收进程ID、消息长度等格式化的信息。

消息传递的两种方式：

直接通信方式：消息发送进程要指明接收进程的ID。消息直接挂到接收进程的消息队列里。
间接通信方式：通过信箱间接地通信。因此又称信箱通信方式。消息先发到中间体(信箱)，可以多个进程往同一个信箱send消息，也可以多个进程从同一个信箱中receive消息。

4.3 管道通信

管道是一个特殊的共享文件，又名 pipe文件。其实就是在内存中开辟一个大小固定的内存缓冲区。

管道只能采用半双工通信，某一时间段内只能实现单向的传输。如果要实现双向同时通信，则需要设置两个管道。
各进程要互斥地访问管道（由操作系统实现）。
当管道写满时，写进程将阻塞，直到读进程将管道中的数据取走，即可唤醒写进程。
当管道读空时，读进程将阻塞，直到写进程往管道中写入数据，即可唤醒读进程。
管道中的数据一旦被读出，就彻底消失。因此，当多个进程读同一个管道时，可能会错乱。对此，通常有两种解决方案：第一种：一个管道允许多个写进程，一个读进程；第二种：允许有多个写进程，多个读进程，但系统会让各个读进程轮流从管道中读数据。
写进程往管道写数据，即便管道没被写满，只要管道没空，读进程就可以从管道读数据。
读进程从管道读数据，即便管道没被读空，只要管道没满，写进程就可以往管道写数据。

5. 线程概念

进程是程序的一次执行。有的进程可能需要同时做很多事，而传统的进程只能串行地执行一系列程序。为此，引入了线程，来增加并发度。

引入线程后，线程成为了程序执行流的最小单位。

对计算机来说每一个任务就是一个进程，在每一个进程内部至少要有一个线程是在运行中的，可以把线程理解为轻量级进程。线程是一个基本的CPU执行单元，也是程序执行流的最小单位。

引入线程之后，不仅是进程之间可以并发，进程内的各线程之间也可以并发，从而进一步提升了系统的并发度，使得一个进程内也可以并发处理各种任务（如QQ视频、文字聊天、传文件）。如果是同一进程内的线程切换，则不需要切换进程环境，系统开销小。

引入线程后，进程只作为除CPU之外的系统资源的分配单元（如打印机、内存地址空间等都是分配给进程的）。线程则作为处理机的分配单元。进程是资源分配的基本单位，线程是调度的基本单位。

每个线程都有一个线程ID、线程控制块（TCB）。
线程也有就绪、阻塞、运行三种基本状态。
线程几乎不拥有系统资源。同一进程的不同线程间共享进程的资源。由于共享内存地址空间，同一进程中的线程间通信甚至无需系统干预。
同一进程中的线程切换，不会引起进程的切换。不同进程中的线程切换，会引起进程切换。

6. 线程的实现方式

6.1 用户级线程（User-Level Thread, ULT）

早期的操作系统（如：早期Unix）只支持进程，不支持线程。当时的“线程”是由线程库实现的。

public void test(){
    int i = 0;
    while(true){
        if (i == 0){//处理视频聊天的代码}
        if (i == 1){//处理文字聊天的代码}
        if (i == 2){//处理文件传输的代码}
        i = (i + 1) % 3;
    }
}

用户级线程由应用程序通过线程库实现，所有的线程管理工作都由应用程序负责（包括线程切换）。
用户级线程中，线程切换可以在用户态下即可完成，无需操作系统干预。
在用户看来，是有多个线程。但是在操作系统内核看来，并意识不到线程的存在。用户级线程就是从用户视角看能看到的线程。

用户级线程的优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高。

用户级线程的缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并行运行。

6.2 内核级线程（Kernel-Level Thread, KLT）

内核级线程是由操作系统支持的线程。

内核级线程的管理工作由操作系统内核完成。
线程调度、切换等工作都由内核负责，因此内核级线程的切换必然需要在核心态下才能完成。
操作系统会为每个内核级线程建立相应的 TCB（Thread Control Block，线程控制块），通过 TCB 对线程进行管理。内核级线程就是从操作系统内核视角看能看到的线程。

内核级线程的优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多线程可在多核处理机上并行执行。

内核级线程的缺点：一个用户进程会占用多个内核级线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销大。

7. 多线程模型

在支持内核级线程的系统中，根据用户级线程和内核级线程的映射关系，可以划分为几种多线程模型。

7.1 一对一模型

一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程。

优点：当一个线程被阻塞后，别的线程还可以继续执行，并发能力强。多线程可在多核处理机上并行执行。

缺点：一个用户进程会占用多个内核级线程，线程切换由操作系统内核完成，需要切换到核心态，因此线程管理的成本高，开销大。

7.2 多对一模型

多个用户级线程映射到一个内核级线程。且一个进程只被分配一个内核级线程。

优点：用户级线程的切换在用户空间即可完成，不需要切换到核心态，线程管理的系统开销小，效率高

缺点：当一个用户级线程被阻塞后，整个进程都会被阻塞，并发度不高。多个线程不可在多核处理机上并行运行

7.3 多对多模型

n 用户及线程映射到 m 个内核级线程（n >= m）。每个用户进程对应 m 个内核级线程。

克服了多对一模型并发度不高的缺点（一个阻塞全体阻塞），又克服了一对一模型中一个用户进程占用太多内核级线程，开销太大的缺点。

8. 线程的状态与转换

与进程相似，主要为以下三个状态：

9. 线程的组织与控制

点击阅读：操作系统系列文章

进程与线程