一、典型的网络请求过程
服务端并发设计的两个关键点:
- 如何处理连接,获取输入数据
- 如何处理请求
以上两个点与系统的IO模型和线程模型有关。
二、IO模型
IO模型相关的几个概念
- 阻塞:阻塞调用是指调用结果返回之前,当前线程会被挂起,调用线程只有在得到结果之后才会返回
- 非阻塞:非阻塞调用指在不能立刻得到结果之前,该调用不会阻塞当前线程
- 同步:指被调用方得到最终结果之后才返回给调用方
- 异步:指被调用方先返回应答,然后再计算调用结果,计算完最终结果后再通知并返回给调用方
阻塞、非阻塞的讨论对象是调用者; 同步、异步的讨论对象是被调用者。
-
阻塞式I/O(blocking I/O)
在阻塞式 I/O 模型中,应用程序在从调用 recvfrom 开始到它返回有数据报准备好这段时间是阻塞的,recvfrom 返回成功后,应用进程开始处理数据报。
- 优点:程序简单,在阻塞等待数据期间进程/线程挂起,基本不会占用 CPU 资源。
- 缺点:每个连接需要独立的进程/线程单独处理,当并发请求量大时为了维护程序,内存、线程切换开销较大,这种模型在实际生产中很少使用。
-
非阻塞式I/O(non-blocking I/O)
在非阻塞式 I/O 模型中,应用程序把一个套接字设置为非阻塞,就是告诉内核,当所请求的 I/O 操作无法完成时,不要将线程睡眠。
而是返回一个错误,应用程序基于 I/O 操作函数将不断的轮询数据是否已经准备好,如果没有准备好,继续轮询,直到数据准备好为止。
- 优点:不会阻塞在内核的等待数据过程,每次发起的 I/O 请求可以立即返回,不用阻塞等待,实时性较好。
- 缺点:轮询将会不断地询问内核,这将占用大量的 CPU 时间,系统资源利用率较低,所以一般 Web 服务器不使用这种 I/O 模型。
-
I/O复用模型(I/O multiplexing)
在 I/O 复用模型中,会用到 Select 或 Poll 函数或 Epoll 函数(Linux 2.6 以后的内核开始支持),这两个函数也会使进程阻塞,但是和阻塞 I/O 有所不同。
这两个函数可以同时阻塞多个 I/O 操作,而且可以同时对多个读操作,多个写操作的 I/O 函数进行检测,直到有数据可读或可写时,才真正调用 I/O 操作函数。
- 优点:可以基于一个阻塞对象,同时在多个描述符上等待就绪,而不是使用多个线程(每个文件描述符一个线程),这样可以大大节省系统资源。
- 缺点:当连接数较少时效率相比多线程+阻塞 I/O 模型效率较低,可能延迟更大,因为单个连接处理需要 2 次系统调用,占用时间会有增加。
-
信号驱动式I/O模型(signal driven I/O)
在信号驱动式 I/O 模型中,应用程序使用套接口进行信号驱动 I/O,并安装一个信号处理函数,进程继续运行并不阻塞。
当数据准备好时,进程会收到一个 SIGIO 信号,可以在信号处理函数中调用 I/O 操作函数处理数据。
- 优点:线程并没有在等待数据时被阻塞,可以提高资源的利用率。
- 缺点:信号 I/O 在大量 IO 操作时可能会因为信号队列溢出导致没法通知。
-
异步I/O模型(asynchronous I/O)
由 POSIX 规范定义,应用程序告知内核启动某个操作,并让内核在整个操作(包括将数据从内核拷贝到应用程序的缓冲区)完成后通知应用程序。
这种模型与信号驱动模型的主要区别在于:信号驱动 I/O 是由内核通知应用程序何时启动一个 I/O 操作,而异步 I/O 模型是由内核通知应用程序 I/O 操作何时完成。
- 优点:异步 I/O 能够充分利用 DMA 特性,让 I/O 操作与计算重叠。
- 缺点:要实现真正的异步 I/O,操作系统需要做大量的工作。目前 Windows 下通过 IOCP 实现了真正的异步 I/O。
三、线程模型
-
阻塞IO服务模型
特点:
-
采用阻塞式 I/O 模型获取输入数据;
-
每个连接都需要独立的线程完成数据输入,业务处理,数据返回的完整操作。
缺点:
-
当并发数较大时,需要创建大量线程来处理连接,系统资源占用较大;
-
连接建立后,如果当前线程暂时没有数据可读,则线程就阻塞在 Read 操作上,造成线程资源浪费。
-
-
Reactor线程模型
Reactor 模式,是指一个或多个输入同时传递给服务器请求的事件驱动处理模式。 服务端处理传入多路请求,并将它们同步分派给请求对应的处理线程,Reactor 模式也叫 Dispatcher 模式。即 I/O 多了复用统一监听事件,收到事件后分发(Dispatch 给某进程),是编写高性能网络服务器的必备技术之一。
特点:
- 基于 I/O 复用模型:多个连接共用一个阻塞对象,应用程序只需要在一个阻塞对象上等待,无需阻塞等待所有连接。当某条连接有新的数据可以处理时,操作系统通知应用程序,线程从阻塞状态返回,开始进行业务处理;
- 2)基于线程池复用线程资源:不必再为每个连接创建线程,将连接完成后的业务处理任务分配给线程进行处理,一个线程可以处理多个连接的业务。
Reactor 模式中有 2 个关键组成:
-
Reactor:Reactor 在一个单独的线程中运行,负责监听和分发事件,分发给适当的处理线程来对 IO 事件做出处理。
-
2)Handlers:处理线程执行 I/O 事件要完成的实际事件,Reactor 通过调度适当的处理线程来响应 I/O 事件,处理程序执行非阻塞操作。
单 Reactor 单线程
**优点:**模型简单,没有多线程、进程通信、竞争的问题,全部都在一个线程中完成。 **缺点:**性能问题,只有一个线程,无法完全发挥多核 CPU 的性能。Handler 在处理某个连接上的业务时,整个进程无法处理其他连接事件,很容易导致性能瓶颈。
单 Reactor 多线程
**优点:**可以充分利用多核 CPU 的处理能力。 **缺点:**多线程数据共享和访问比较复杂;Reactor 承担所有事件的监听和响应,在单线程中运行,高并发场景下容易成为性能瓶颈。
主从 Reactor 多线程
**优点:**父线程与子线程的数据交互简单职责明确,父线程只需要接收新连接,子线程完成后续的业务处理。
父线程与子线程的数据交互简单,Reactor 主线程只需要把新连接传给子线程,子线程无需返回数据。
这种模型在许多项目中广泛使用,包括 Nginx 主从 Reactor 多进程模型,Memcached 主从多线程,Netty 主从多线程模型的支持。