零拷贝内核态和用户态是怎么控制数据传输的？举个例子：当计算机A上a进程要把一个文件传送到计算机B上的b进程空间里面去，

内核态和用户态是怎么控制数据传输的？

举个例子：当计算机A上a进程要把一个文件传送到计算机B上的b进程空间里面去，它是怎么做的呢？在当前的计算机系统架构下，它的I/O路径如下图所示：

计算机A的进程a先要通过系统调用Read（内核态）打开一个磁盘上的文件，这个时候就要把数据copy一次到内核态的PageCache中，进入了内核态；
进程a负责将数据从内核空间的 Page Cache 搬运到用户空间的缓冲区，进入用户态；
进程a负责将数据从用户空间的缓冲区搬运到内核空间的 Socket(资源由内核管控) 缓冲区中，进入内核态。
进程a负责将数据从内核空间的 Socket 缓冲区搬运到的网络中，进入用户态；

从以上4个步骤我们可以发现，正是因为用户态没法控制磁盘和网络资源，所以需要来回的在内核态切换。这样一个发送文件的过程就产生了4 次上下文切换：

read 系统调用读磁盘上的文件时：用户态切换到内核态；
read 系统调用完毕：内核态切换回用户态；
write 系统调用写到socket时：用户态切换到内核态；
write 系统调用完毕：内核态切换回用户态。

DMA（Direct memory access)

没有 DMA ，计算机程序访问磁盘上的数据I/O 的过程是这样的：

CPU 先发出读指令给磁盘控制器（发出一个系统调用），然后返回；
磁盘控制器接受到指令，开始准备数据，把数据拷贝到磁盘控制器的内部缓冲区中，然后产生一个中断；
CPU 收到中断信号后，让出CPU资源，把磁盘控制器的缓冲区的数据一次一个字节地拷贝进自己的寄存器，然后再把寄存器里的数据拷贝到内存，而在数据传输的期间 CPU 是无法执行其他任务的。

可以看到，整个数据的传输有几个问题：一是数据在不同的介质之间被拷贝了多次；二是每个过程都要需要 CPU 亲自参与（搬运数据的过程），在这个过程，在数据拷贝没有完成前，CPU 是不能做额外事情的，被IO独占。

如果I/O操作能比较快的完成，比如简单的字符数据，那没问题。如果我们用万兆网卡或者硬盘传输大量数据，CPU就会一直被占用，其他服务无法使用，对单核系统是致命的。

为了解决上面的CPU被持续占用的问题，大佬们就提出了 DMA 技术，即直接内存访问（Direct Memory Access） 技术。

那到底什么是 DMA 技术？

所谓的 DMA（Direct Memory Access，即直接存储器访问）其实是一个硬件技术，其主要目的是减少大数据量传输时的 CPU 消耗，从而提高 CPU 利用效率。其本质上是一个主板和 IO 设备上的 DMAC 芯片。CPU 通过调度 DMAC 可以不参与磁盘缓冲区到内核缓冲区的数据传输消耗，从而提高效率。

那有了DMA，数据读取过程是怎么样的呢？下面我们来具体看看。

详细过程：

用户进程a调用系统调用read 方法，向OS内核（资源总管）发出 I/O 请求，请求读取数据到自己的内存缓冲区中，进程进入阻塞状态；
OS内核收到请求后，进一步将 I/O 请求发送 DMA，然后让 CPU 执行其他任务；
DMA 再将 I/O 请求发送给磁盘控制器；
磁盘控制器收到 DMA 的 I/O 请求，把数据从磁盘拷贝到磁盘控制器的缓冲区中，当磁盘控制器的缓冲区被写满后，它向 DMA 发起中断信号，告知自己缓冲区已满；
DMA 收到磁盘的中断信号后，将磁盘控制器缓冲区中的数据拷贝到内核缓冲区中，此时不占用 CPU，CPU 可以执行其他任务；
当 DMA 读取了一个固定buffer的数据，就会发送中断信号给 CPU；
CPU 收到 DMA 的信号，知道数据已经Ready，于是将数据从内核拷贝到用户空间，结束系统调用；

DMA技术就是释放了CPU的占用时间，它只做事件通知，数据拷贝完全由DMA完成。虽然DMA优化了CPU的利用率，但是并没有提高数据读取的性能。为了减少数据在2种状态之间的切换次数，因为状态切换是一个非常、非常、非常繁重的工作。为此，大佬们就提了零拷贝技术。

零拷贝技术实现的方式

常见的有2种，而今引入持久化内存后，还有APP直接访问内存数据的方式，这里先不展开。下面介绍常用的2种方案，它们的目的减少“上下文切换”和“数据拷贝”的次数。

mmap + write（系统调用）
sendfile

mmap + write

主要目的，减少数据的拷贝

read() 系统调用：把内核缓冲区的数据拷贝到用户的缓冲区里，用 mmap() 替换 read() ，mmap() 直接把内核缓冲区里的数据映射到用户空间，减少这一次拷贝。

buf = mmap(file, len);
write(sockfd, buf, len);

具体过程如下：

应用进程调用了 mmap() 后，DMA 会把磁盘的数据拷贝到内核的缓冲区里。因为建立了这个内存的mapping，所以用户态的数据可以直接访问了；
应用进程再调用 write()，CPU将内核缓冲区的数据拷贝到 socket 缓冲区中，这一切都发生在内核态
DMA把内核的 socket 缓冲区里的数据，拷贝到网卡的缓冲区里

由上可知，系统调用mmap() 来代替 read()，可以减少一次数据拷贝。那我们是否还有优化的空间呢？毕竟用户态和内核态仍然需要 4 次上下文切换，系统调用还是 2 次。那继续研究下是否还能继续减少切换和数据拷贝呢？答案是确定的：可以

sendfile

Linux 内核版本 2.1 提供了一个专门发送文件的系统调用函数 sendfile()，函数形式如下：

#include <sys/socket.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

参数说明：

前2个参数分别是目的端和源端的文件描述符，
后2个参数是源端的偏移量和复制数据的长度，返回值是实际复制数据的长度。

首先，使用sendfile()可以替代前面的 read() 和 write() 这两个系统调用，减少一次系统调用和 2 次上下文切换。

其次，sendfile可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里，不再拷贝到用户态，优化后只有 2 次上下文切换，和 3 次数据拷贝。如下图：

尽管如此，我们还是又数据拷贝，这不符合我们的标题目标。如果网卡支持 SG-DMA（The Scatter-Gather Direct Memory Access）技术，我们就可以进一步减少通过 CPU 把内核缓冲区里的数据拷贝到 socket 缓冲区的过程。

我们可以在 Linux 系统下通过下面的命令，查看网卡是否支持 scatter-gather 特性：

$ ethtool -k eth0 | grep scatter-gather
scatter-gather: on

于是，从 Linux 内核 2.4 版本开始起，对于支持网卡支持 SG-DMA 技术的情况下， sendfile() 系统调用的过程发生了点变化，具体过程如下：

通过 DMA 将磁盘上的数据拷贝到内核缓冲区里；
缓冲区描述符和数据长度传到 socket 缓冲区，这样网卡的 SG-DMA 控制器就可以直接将内核缓存中的数据拷贝到网卡的缓冲区里；

在这个过程之中，实际上只进行了 2 次数据拷贝，如下图：

这就是零拷贝（ Zero-copy ）技术，因为我们没有在内存层面去拷贝数据，也就是说全程没有通过 CPU 来搬运数据，所有的数据都是通过 DMA 来进行传输的。

零拷贝技术的文件传输方式相比传统文件传输的方式，只需要 2 次上下文切换和数据拷贝次数，就可以完成文件的传输，而且 2 次的数据拷贝过程，都不需要通过 CPU，2 次都是由 DMA 来搬运。

所以，零拷贝技术可以把文件传输的性能提高至少一倍。

参考

一文读懂计算机内核态、用户态和零拷贝技术-今日头条