【云计算摩尔狮】硬核追踪！Linux 内核进程创建的全链路解析在 Linux 操作系统的世界里，进程是程序运行的基本单位

在 Linux 操作系统的世界里，进程是程序运行的基本单位，它们如同一个个活跃的 “生命体”，承载着各种任务与功能。当我们运行一个新的应用程序，或是在终端中执行一个命令时，背后都涉及到新进程的创建。那么，Linux 内核究竟是如何像 “分裂” 细胞一样，创造出一个全新的进程呢？接下来，我们将深入内核代码，一探究竟。

一、系统调用的触发

在用户空间中，我们通常使用fork、vfork或clone函数来创建新进程。以最常用的fork函数为例，它最终会通过系统调用陷入内核空间。在 x86 架构下，系统调用会触发int 0x80指令或使用syscall指令（64 位系统常用），这会导致 CPU 切换到内核态，执行内核中对应的系统调用处理程序。

在 Linux 内核源代码中，系统调用表定义了每个系统调用对应的处理函数。对于fork系统调用，它在内核中的入口函数是sys_fork。在arch/x86/entry/syscalls/syscall_64.tbl文件中，可以找到fork系统调用的定义，它对应着sys_fork函数：

# x86_64
  33  common  fork    sys_fork

二、sys_fork函数：进程创建的起点

sys_fork函数位于kernel/fork.c文件中，它的主要作用是调用do_fork函数，并传递一系列参数，这些参数用于指定新进程的特性，如是否共享地址空间、文件描述符等：

SYSCALL_DEFINE0(fork)
{
    #ifdef CONFIG_MMU
    return do_fork(SIGCHLD, 0, 0, NULL, NULL, 0);
    #else
    /* can not support in nommu mode */
    return -EINVAL;
    #endif
}

从上述代码可以看出，在支持内存管理单元（MMU）的系统中，sys_fork直接调用do_fork，并传递SIGCHLD标志，该标志表示子进程终止时，父进程会收到SIGCHLD信号。

三、do_fork函数：核心创建逻辑

do_fork函数是进程创建过程中的核心函数，它完成了大量关键的工作：

复制进程描述符：每个进程在内核中都有一个对应的task_struct结构体，用于描述进程的各种属性和状态。do_fork首先调用copy_process函数，复制当前进程的task_struct结构体，为新进程创建一个副本。

p = copy_process(NULL, trace, NUMA_NO_NODE, flags, NULL, args, NULL);

设置进程状态：将新进程的状态设置为TASK_NEW，表示进程刚刚被创建，还未开始执行。

处理信号：根据传递的参数，处理与信号相关的设置，例如是否向父进程发送特定信号。

唤醒新进程：通过wake_up_new_task函数将新进程加入到调度队列中，使其有机会被调度执行。

if (!IS_ERR(p)) {
    struct completion vfork;
    trace_sched_process_fork(current, p);
    wake_up_new_task(p);
    /* forking complete and child started to run, tell ptracer */
    if (unlikely(ptrace_event_enabled(current, PTRACE_EVENT_FORK))) {
        ptrace_report_fork(p);
    }
    if (flags & CLONE_VFORK) {
        p->vfork_done = &vfork;
        init_completion(&vfork);
        get_task_struct(p);
    }
}

四、copy_process函数：细致的资源复制

copy_process函数负责复制当前进程的各种资源，为新进程做好运行前的准备：

检查创建限制：检查系统是否允许创建新进程，例如是否达到了进程数量的上限等。

if (nr_threads >= max_threads)
    return ERR_PTR(-EAGAIN);

复制进程描述符：使用dup_task_struct函数复制task_struct结构体及其相关数据结构。

p = dup_task_struct(current);

初始化新进程：对新进程的各种属性进行初始化，包括进程 ID、进程组 ID、会话 ID 等。

p->pid = get_next_pid(ns);
p->tgid = p->pid;
if (thread_group_leader(p)) {
    p->group_leader = p;
    p->tgid = p->pid;
} else {
    p->group_leader = current->group_leader;
}

资源复制：

- 复制内存空间：根据传递的参数，决定是否与父进程共享地址空间。如果不共享，则调用copy_mm函数为新进程创建独立的内存描述符和页表。

- 复制文件描述符：调用copy_files函数复制父进程的文件描述符表，使得新进程可以继承父进程打开的文件。

- 复制信号处理：调用copy_sighand和copy_signal函数复制信号处理相关的数据结构。

- 复制其他资源：还会复制线程组信息、命名空间等其他资源。

五、父子进程的 “分道扬镳”

在do_fork函数执行完毕后，父子进程就拥有了各自独立（或部分共享）的资源。从内核调度的角度来看，父子进程都有机会被 CPU 执行。fork函数在父子进程中会返回不同的值：在父进程中，fork返回子进程的 PID；在子进程中，fork返回 0。通过这个返回值，父子进程可以在用户空间的代码中区分彼此，执行不同的逻辑：

#include <stdio.h>
#include <unistd.h>
int main() {
    pid_t pid = fork();
    if (pid < 0) {
        perror("fork");
        return 1;
    } else if (pid == 0) {
        printf("I am the child process, my PID is %d\n", getpid());
    } else {
        printf("I am the parent process, my child's PID is %d\n", pid);
    }
    return 0;
}

通过对 Linux 内核代码的追踪，我们了解了从用户空间调用fork函数到内核创建出一个新进程的完整过程。这个过程涉及到系统调用、进程描述符复制、资源分配与复制以及调度等多个关键环节。深入理解进程创建的内核机制，不仅有助于我们编写更高效、稳定的程序，还能在系统性能调优和故障排查时提供有力的理论支持。

希望本文能让你对 Linux 进程创建的底层原理有更清晰的认识。如果你在探索内核代码的过程中有任何新的发现或疑问，欢迎在评论区留言交流！

上述内容从代码层面拆解了 Linux 新进程创建流程。你对哪个部分还想深入了解，或有其他修改需求，都能随时和我说。

【摩尔狮教育】的独特优势助力解决问题摩尔狮教育的课程不仅有理论知识和实践方法，还有强大的师资团队和教学服务。在我学习解决 Linux 新进程创建流程问题的过程中，老师会结合实际的企业案例进行讲解，让我了解到在真实的工作场景中可能遇到的各种复杂情况。而且，当我在实践中遇到问题时，无论是在学习群里提问，还是预约老师一对一辅导，都能得到及时、专业的解答。

当遇到Linux新进程创建流程问题时，不要慌张。借助在摩尔狮教育学到的知识和技能，从理论分析到实践排查，多维度入手，就能精准定位并解决问题。如果你也想掌握这些实用的网络技术，不妨来摩尔狮教育学习，开启你的技术提升之旅！