golang源码分析(三) netpoll前序之epollNetpoll前序之epoll 概述 epoll 是 Linu

Netpoll前序之epoll

概述

epoll 是 Linux 特有的 I/O 事件通知机制，全称为 event poll。它允许进程监控多个文件描述符，并在这些文件描述符可进行 I/O 操作时获得通知。epoll 支持边缘触发（edge-triggered）和水平触发（level-triggered）两种通知模式。

与传统的 select 和 poll 相比，epoll 在处理大量文件描述符时具有显著的性能优势，是高性能网络服务器的首选 I/O 多路复用机制。

Epoll 核心架构图

graph TD
    subgraph "用户态 (User Space)"
        A1["应用进程 A<br/>epfd_1 = 7"]
        A2["应用进程 B<br/>epfd_2 = 12"]
        A3["应用进程 C<br/>epfd_3 = 15"]
    end
    
    subgraph "内核态 (Kernel Space)"
        subgraph "epoll 实例 #1"
            B1["epoll 核心"]
            B1_1["红黑树<br/>(Interest List)"]
            B1_2["就绪链表<br/>(Ready List)"]
            B1 --- B1_1
            B1 --- B1_2
            B1_1 -.-> B1_2
        end
        
        subgraph "epoll 实例 #2"
            B2["epoll 核心"]
            B2_1["红黑树<br/>(Interest List)"]
            B2_2["就绪链表<br/>(Ready List)"]
            B2 --- B2_1
            B2 --- B2_2
            B2_1 -.-> B2_2
        end
        
        subgraph "epoll 实例 #3"
            B3["epoll 核心"]
            B3_1["红黑树<br/>(Interest List)"]
            B3_2["就绪链表<br/>(Ready List)"]
            B3 --- B3_1
            B3 --- B3_2
            B3_1 -.-> B3_2
        end
        
        D["内核 I/O 子系统"]
    end
    
    A1 --> |"系统调用"| B1
    A2 --> |"系统调用"| B2
    A3 --> |"系统调用"| B3
    
    D --> B1_2
    D --> B2_2
    D --> B3_2
    
    style B1 fill:#e3f2fd
    style B2 fill:#e3f2fd
    style B3 fill:#e3f2fd
    style B1_1 fill:#c8e6c9
    style B2_1 fill:#c8e6c9
    style B3_1 fill:#c8e6c9
    style B1_2 fill:#ffecb3
    style B2_2 fill:#ffecb3
    style B3_2 fill:#ffecb3

架构说明：

用户态进程：每个应用进程都可以通过系统调用创建独立的 epoll 实例
内核态管理：所有 epoll 核心、红黑树、就绪链表都在内核空间中维护
系统调用桥接：用户态通过 epoll_create/epoll_ctl/epoll_wait 系统调用与内核态通信
epoll 核心：每个 epoll 实例的控制中心，管理红黑树和就绪链表
数据结构层次：
- 🌳 红黑树(Interest List)：存储所有监控的文件描述符
- 📋 就绪链表(Ready List)：存储已就绪的文件描述符
事件流转：内核 I/O 子系统检测到事件后，直接将就绪的文件描述符加入就绪链表

epoll 的语法结构

与 poll 不同，epoll 本身不是一个系统调用，而是一个内核数据结构，允许进程在多个文件描述符上复用 I/O 操作。

这个数据结构可以通过三个系统调用来创建、修改和删除：

1. epoll_create - 创建 epoll 实例

epoll 实例通过 epoll_create 系统调用创建，该调用返回指向 epoll 实例的文件描述符。

#include <sys/epoll.h>
int epoll_create(int size);

参数说明：

size：向内核指示进程想要监控的文件描述符数量，帮助内核决定 epoll 实例的大小
从 Linux 2.6.8 开始，此参数被忽略，因为 epoll 数据结构会动态调整大小

返回值：

成功时返回新创建的 epoll 内核数据结构的文件描述符
失败时返回 -1

epoll_create1 变体

int epoll_create1(int flags);

flags 参数可以是：

0：行为与 epoll_create 相同
EPOLL_CLOEXEC：子进程在 exec 前会关闭 epoll 描述符

重要提示：

epoll 实例的文件描述符需要通过 close() 系统调用释放
当所有持有 epoll 实例描述符的进程都释放了描述符时，内核会销毁 epoll 实例

epoll_create 用户态与内核态交互图

sequenceDiagram
    participant APP as 应用程序
    participant USER as 用户态
    participant SYS as 系统调用接口
    participant KERNEL as 内核态
    participant EPOLL as epoll子系统
    
    APP->>USER: epfd = epoll_create(5)
    USER->>SYS: 系统调用
    SYS->>KERNEL: 进入内核态
    KERNEL->>EPOLL: 创建epoll实例
    
    Note over EPOLL: 初始化红黑树<br/>初始化就绪链表
    
    EPOLL-->>KERNEL: epoll实例创建完成
    KERNEL-->>SYS: 返回文件描述符
    SYS-->>USER: 返回epfd
    USER-->>APP: epfd可用
    
    Note over APP: 应用程序可以使用epfd<br/>进行后续的epoll_ctl<br/>和epoll_wait操作

状态图说明：

用户态进程：
- 应用程序调用 epoll_create(5) 系统调用
- 进程的文件描述符表中分配一个新的 fd 条目
- 该 fd 指向内核中新创建的 epoll 实例
内核态操作：
- 内核的 epoll 子系统创建新的 epoll 实例
- 初始化红黑树结构（用于存储监控的文件描述符）
- 初始化就绪链表（用于存储就绪的文件描述符）
- 返回 epoll 文件描述符给用户进程
关键连接：
- 用户进程通过文件描述符 epfd 与内核中的 epoll 实例建立连接
- 后续的 epoll_ctl 和 epoll_wait 都将使用这个 epfd 来操作对应的 epoll 实例

2. epoll_ctl - 控制 epoll 实例

进程可以通过调用 epoll_ctl 将要监控的文件描述符添加到 epoll 实例中。

#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

参数说明：

epfd：由 epoll_create 返回的文件描述符，标识内核中的 epoll 实例
fd：要添加到 epoll 监控列表中的文件描述符
op：对文件描述符 fd 执行的操作：
- EPOLL_CTL_ADD：注册 fd 到 epoll 实例并监听事件
- EPOLL_CTL_DEL：从 epoll 实例中删除/注销 fd
- EPOLL_CTL_MOD：修改 fd 正在监控的事件
event：指向 epoll_event 结构的指针，存储要监控的事件

epoll_event 结构

struct epoll_event {
    uint32_t events;    // epoll 事件
    epoll_data_t data;  // 用户数据变量
};

typedef union epoll_data {
    void *ptr;
    int fd;
    uint32_t u32;
    uint64_t u64;
} epoll_data_t;

epoll 事件标志详解

epoll 提供了丰富的事件标志，用于精确控制监控的事件类型和行为模式。这些标志可以通过位运算组合使用，以满足不同的应用需求。

基础 I/O 事件标志

EPOLLIN - 文件描述符可读事件

含义：表示文件描述符上有数据可读，或者处于可读状态
适用场景：
- 套接字接收缓冲区有数据到达
- 普通文件或管道有数据可读
- 监听套接字有新的连接请求
- 连接被对端关闭（会触发可读事件，read() 返回 0）
代码示例：

struct epoll_event ev;
ev.events = EPOLLIN;        // 监听可读事件
ev.data.fd = socket_fd;
epoll_ctl(epfd, EPOLL_CTL_ADD, socket_fd, &ev);

// 处理可读事件
if (events[i].events & EPOLLIN) {
    ssize_t n = read(fd, buffer, sizeof(buffer));
    if (n > 0) {
        // 处理接收到的数据
        process_data(buffer, n);
    } else if (n == 0) {
        // 连接关闭
        handle_connection_close(fd);
    }
}

EPOLLOUT - 文件描述符可写事件

含义：表示文件描述符的发送缓冲区有空闲空间，可以进行写操作
适用场景：
- 套接字发送缓冲区有可用空间
- 管道或 FIFO 可以写入数据
- 普通文件可以写入（通常总是就绪）
注意事项：通常在需要发送数据时才注册，发送完成后应及时移除
代码示例：

// 当需要发送数据时注册 EPOLLOUT
struct epoll_event ev;
ev.events = EPOLLOUT;
ev.data.fd = socket_fd;
epoll_ctl(epfd, EPOLL_CTL_ADD, socket_fd, &ev);

// 处理可写事件
if (events[i].events & EPOLLOUT) {
    ssize_t n = write(fd, send_buffer, send_len);
    if (n > 0) {
        // 更新发送缓冲区
        update_send_buffer(n);
        if (send_complete()) {
            // 发送完成，移除 EPOLLOUT 监听
            epoll_ctl(epfd, EPOLL_CTL_DEL, fd, NULL);
        }
    }
}

连接状态事件标志

EPOLLRDHUP - 对端关闭连接或关闭写操作 (Linux 2.6.17+)

含义：对端关闭了连接，或者关闭了写半连接（half-close）
适用场景：
- 检测 TCP 连接的对端关闭
- 优雅地处理连接断开
- 区分正常关闭和异常断开
代码示例：

ev.events = EPOLLIN | EPOLLRDHUP;  // 同时监听可读和对端关闭

if (events[i].events & EPOLLRDHUP) {
    // 对端关闭了连接或写操作
    printf("Peer closed connection\n");
    close_connection(fd);
} else if (events[i].events & EPOLLIN) {
    // 正常的数据到达
    handle_read(fd);
}

EPOLLHUP - 文件描述符挂起

含义：文件描述符被挂起，通常表示连接已断开
适用场景：
- 连接异常关闭
- 设备断开连接
- 管道的写端关闭
自动包含：当注册 EPOLLIN 或 EPOLLOUT 时自动包含
代码示例：

if (events[i].events & EPOLLHUP) {
    printf("Connection hung up\n");
    cleanup_connection(fd);
    close(fd);
}

错误和优先级事件

EPOLLERR - 文件描述符发生错误

含义：文件描述符上发生了错误条件
适用场景：
- 套接字错误（连接被拒绝、网络不可达等）
- 文件系统错误
- 其他 I/O 错误
自动包含：当注册 EPOLLIN 或 EPOLLOUT 时自动包含
代码示例：

if (events[i].events & EPOLLERR) {
    int error;
    socklen_t len = sizeof(error);
    getsockopt(fd, SOL_SOCKET, SO_ERROR, &error, &len);
    printf("Socket error: %s\n", strerror(error));
    handle_socket_error(fd, error);
}

EPOLLPRI - 有紧急数据可读

含义：文件描述符有带外数据（out-of-band data）或其他优先级数据
适用场景：
- TCP 紧急数据（MSG_OOB）
- 某些特殊设备的优先级数据
代码示例：

ev.events = EPOLLIN | EPOLLPRI;  // 监听普通数据和紧急数据

if (events[i].events & EPOLLPRI) {
    char urgent_data;
    recv(fd, &urgent_data, 1, MSG_OOB);  // 接收带外数据
    handle_urgent_data(urgent_data);
}

高级控制标志

EPOLLET - 启用边缘触发模式

含义：只在状态发生变化时触发事件（默认为水平触发）
适用场景：
- 高性能网络服务器
- 需要减少系统调用开销的场景
- 精确控制事件通知时机
使用要求：
- 必须使用非阻塞 I/O
- 需要循环读取/写入直到 EAGAIN
代码示例：

// 设置非阻塞模式
int flags = fcntl(fd, F_GETFL, 0);
fcntl(fd, F_SETFL, flags | O_NONBLOCK);

// 注册边缘触发事件
ev.events = EPOLLIN | EPOLLET;
epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev);

// 边缘触发的读取处理
if (events[i].events & EPOLLIN) {
    while (1) {
        ssize_t n = read(fd, buffer, sizeof(buffer));
        if (n < 0) {
            if (errno == EAGAIN || errno == EWOULDBLOCK) {
                break;  // 数据读完
            } else {
                perror("read error");
                break;
            }
        } else if (n == 0) {
            break;  // 连接关闭
        }
        process_data(buffer, n);
    }
}

EPOLLONESHOT - 一次性事件

含义：事件触发后自动禁用该文件描述符，需要重新注册才能继续监听
适用场景：
- 多线程环境下避免同一个 fd 被多个线程同时处理
- 确保事件只被处理一次
- 实现复杂的状态机逻辑
代码示例：

ev.events = EPOLLIN | EPOLLONESHOT;
epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev);

// 处理事件后需要重新注册
if (events[i].events & EPOLLIN) {
    handle_read(fd);
    
    // 重新注册以继续监听
    ev.events = EPOLLIN | EPOLLONESHOT;
    epoll_ctl(epfd, EPOLL_CTL_MOD, fd, &ev);
}

系统级控制标志

EPOLLWAKEUP - 防止系统休眠 (Linux 3.5+)

含义：在事件处理期间防止系统进入休眠状态
适用场景：
- 移动设备或嵌入式系统
- 需要保证关键事件处理不被休眠中断
- 电源管理敏感的应用
权限要求：需要 CAP_BLOCK_SUSPEND 能力或以 root 运行
代码示例：

ev.events = EPOLLIN | EPOLLWAKEUP;
epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev);

EPOLLEXCLUSIVE - 独占模式，避免惊群效应 (Linux 4.5+)

含义：当多个 epoll 实例监听同一个文件描述符时，只唤醒其中一个
适用场景：
- 多进程服务器架构
- 避免惊群问题提高性能
- 负载均衡场景
代码示例：

// 多个进程监听同一个 listen socket
ev.events = EPOLLIN | EPOLLEXCLUSIVE;
ev.data.fd = listen_fd;
epoll_ctl(epfd, EPOLL_CTL_ADD, listen_fd, &ev);

事件标志组合示例

// 常见的组合模式

// 1. 基础 TCP 服务器
ev.events = EPOLLIN | EPOLLRDHUP;

// 2. 高性能边缘触发
ev.events = EPOLLIN | EPOLLOUT | EPOLLET;

// 3. 多线程安全的一次性处理
ev.events = EPOLLIN | EPOLLONESHOT | EPOLLRDHUP;

// 4. 完整的事件监听（推荐）
ev.events = EPOLLIN | EPOLLRDHUP | EPOLLERR | EPOLLHUP;

// 5. 避免惊群的监听套接字
ev.events = EPOLLIN | EPOLLEXCLUSIVE;

事件处理最佳实践

void handle_epoll_events(struct epoll_event *events, int nfds) {
    for (int i = 0; i < nfds; i++) {
        int fd = events[i].data.fd;
        uint32_t ev = events[i].events;
        
        // 优先处理错误和关闭事件
        if (ev & (EPOLLERR | EPOLLHUP)) {
            handle_error_or_hangup(fd);
            continue;
        }
        
        // 处理对端关闭
        if (ev & EPOLLRDHUP) {
            handle_peer_close(fd);
            continue;
        }
        
        // 处理紧急数据
        if (ev & EPOLLPRI) {
            handle_urgent_data(fd);
        }
        
        // 处理普通读事件
        if (ev & EPOLLIN) {
            handle_read(fd);
        }
        
        // 处理写事件
        if (ev & EPOLLOUT) {
            handle_write(fd);
        }
    }
}

通过合理使用这些事件标志，可以构建高效、稳定的网络应用程序，精确控制事件处理逻辑，并优化系统性能。

epoll_ctl 操作流程图

flowchart TD
    A["用户调用 epoll_ctl(epfd, op, fd, event)"] --> B["系统调用接口"]
    B --> C["内核参数验证"]
    C --> D["操作类型判断"]
    
    D --> E["EPOLL_CTL_ADD"]
    D --> F["EPOLL_CTL_DEL"]
    D --> G["EPOLL_CTL_MOD"]
    D --> H["其他操作"]
    
    E --> I["在红黑树中添加节点"]
    F --> J["从红黑树中删除节点"]
    G --> K["修改红黑树中的节点"]
    H --> L["返回错误"]
    
    I --> M["注册I/O回调函数"]
    J --> M
    K --> M
    
    M --> N["返回操作结果"]
    L --> N
    
    style A fill:#e1f5fe
    style E fill:#c8e6c9
    style F fill:#ffcdd2
    style G fill:#fff3e0
    style H fill:#f3e5f5

操作说明：

EPOLL_CTL_ADD：将新的文件描述符插入红黑树，注册事件回调
EPOLL_CTL_DEL：从红黑树中删除文件描述符，注销事件回调
EPOLL_CTL_MOD：修改红黑树中已存在文件描述符的事件掩码
I/O回调机制：一旦注册，当文件描述符状态变化时，内核会自动将其加入就绪链表

3. epoll_wait - 等待事件

线程可以通过调用 epoll_wait 系统调用获得 epoll 实例监控集合上发生的事件通知。

#include <sys/epoll.h>
int epoll_wait(int epfd, struct epoll_event *evlist, int maxevents, int timeout);

参数说明：

epfd：由 epoll_create 返回的文件描述符
evlist：epoll_event 结构数组，由调用进程分配，用于返回就绪的文件描述符信息
maxevents：evlist 数组的长度
timeout：超时时间：
- 0：立即返回，不阻塞
- -1：无限期阻塞，直到有事件发生或被信号中断
- > 0：阻塞指定的毫秒数

epoll_wait 工作时序图

sequenceDiagram
    participant PROC as 用户进程
    participant KERNEL as 内核态epoll
    participant IO as I/O设备
    
    PROC->>KERNEL: epoll_wait(epfd, evlist, maxevents, -1)
    KERNEL->>KERNEL: 检查就绪链表(Ready List)
    
    alt 就绪链表为空
        KERNEL->>KERNEL: 进程进入睡眠状态
        Note over PROC: 进程阻塞等待 💤
        
        IO->>KERNEL: I/O事件发生
        KERNEL->>KERNEL: 将fd加入就绪链表
        KERNEL->>KERNEL: 唤醒等待的进程
    else 就绪链表非空
        Note over KERNEL: 立即返回就绪事件
    end
    
    KERNEL-->>PROC: 返回就绪的文件描述符数量<br/>填充evlist[]数组
    
    Note over PROC: 处理返回的事件...

时序说明：

调用阶段：用户进程调用 epoll_wait，传入事件数组
检查阶段：内核检查就绪链表是否有就绪的文件描述符
等待阶段：如果没有就绪事件，进程进入睡眠状态
唤醒阶段：当 I/O 事件发生时，内核将对应的文件描述符加入就绪链表并唤醒进程
返回阶段：内核将就绪的事件信息复制到用户空间的事件数组中

epoll 核心概念图解

graph LR
    subgraph "epoll 实例"
        subgraph "Interest List (监控列表)"
            A["红黑树结构"]
            A1["fd1: EPOLLIN"]
            A2["fd2: EPOLLIN ✓"]
            A3["fd3: EPOLLOUT"]
            A4["fd4: EPOLLIN|EPOLLOUT ✓"]
            A5["fd5: EPOLLIN|EPOLLET"]
            A6["fd6: EPOLLOUT"]
            A7["fd7: EPOLLIN"]
            A8["fd8: EPOLLOUT"]
            
            A --- A1
            A --- A2
            A --- A3
            A --- A4
            A --- A5
            A --- A6
            A --- A7
            A --- A8
        end
        
        subgraph "Ready List (就绪列表)"
            B["双向链表结构"]
            B1["fd2 (就绪)"]
            B2["fd4 (就绪)"]
            
            B --- B1
            B1 --- B2
        end
    end
    
    A2 -.->|"I/O事件发生"| B1
    A4 -.->|"I/O事件发生"| B2
    
    style A2 fill:#c8e6c9
    style A4 fill:#c8e6c9
    style B1 fill:#ffecb3
    style B2 fill:#ffecb3

Interest List 和 Ready List

在上图中，我们可以看到 epoll 的两个核心概念：

Interest List（监控列表）：向 epoll 实例注册的所有文件描述符的集合，也称为 epoll set
Ready List（就绪列表）：Interest List 的子集，包含已经准备好进行 I/O 操作的文件描述符

graph TB
    subgraph "epoll 实例示例"
        subgraph "Interest List (监控列表)"
            A1["fd1 (socket)"]
            A2["fd2 (socket) ✓"]
            A3["fd3 (file)"]
            A4["fd4 (pipe) ✓"]
            A5["fd5 (socket)"]
        end
        
        subgraph "Ready List (就绪列表)"
            B1["fd2 - 可读"]
            B2["fd4 - 可写"]
        end
        
        A2 --> |"数据到达"| B1
        A4 --> |"缓冲区可写"| B2
    end
    
    subgraph "进程 483"
        C["应用程序<br/>监控 5 个文件描述符"]
    end
    
    C --> A1
    C --> A2  
    C --> A3
    C --> A4
    C --> A5
    
    style A2 fill:#c8e6c9
    style A4 fill:#c8e6c9
    style B1 fill:#ffecb3
    style B2 fill:#ffecb3
    style C fill:#e1f5fe

在示例中，进程 483 向 epoll 实例注册了文件描述符 fd1, fd2, fd3, fd4 和 fd5，这些构成了 Interest List。当 fd2 和 fd4 准备好进行 I/O 时，它们就会被加入到 Ready List 中。

Ready List 是 Interest List 的子集。

实际使用示例

// 创建 epoll 实例
int epfd = epoll_create(5);

// 设置事件
struct epoll_event ev;
ev.events = EPOLLIN | EPOLLET;  // 读事件 + 边缘触发
ev.data.fd = socket_fd;

// 添加文件描述符到监控列表
epoll_ctl(epfd, EPOLL_CTL_ADD, socket_fd, &ev);

// 等待事件
struct epoll_event events[10];
int nfds = epoll_wait(epfd, events, 10, -1);

// 处理就绪的文件描述符
for (int i = 0; i < nfds; i++) {
    if (events[i].events & EPOLLIN) {
        // 处理可读事件
        handle_read(events[i].data.fd);
    }
}

为什么 epoll 比 select 和 poll 性能更好

select/poll 的性能问题

传统的 select 和 poll 的时间复杂度是 O(N)，其中 N 是被监控的文件描述符数量。当 N 非常大时（比如 Web 服务器处理数万个大多处于睡眠状态的客户端连接），即使只有少量事件实际发生，内核仍然需要扫描列表中的每个描述符。

// select 和 poll 的函数签名
int poll(struct pollfd *fds, nfds_t nfds, int timeout);
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

从函数签名可以看出：

每次调用都需要向内核传递要监控的描述符信息
内核返回所有传入描述符的信息，进程需要再次扫描以找出哪些是就绪的

epoll 的性能优势

epoll 监控的是底层的文件描述（open file description），每当文件描述变为可进行 I/O 时，内核会将其添加到就绪列表中，而不需要等待进程调用 epoll_wait 才开始这个工作。

当进程调用 epoll_wait 时，内核不需要做任何额外工作，而是直接返回一直在维护的就绪列表信息。

性能对比

机制	时间复杂度	每次调用成本	内核返回信息
select/poll	O(N)	需要传递所有监控的 fd	所有传入的 fd 信息
epoll	O(已发生的事件数)	无需重复传递 fd	仅就绪的 fd 信息

epoll 优势总结

事件驱动：epoll 使用事件驱动模型，只在事件发生时通知应用程序
无需重复拷贝：一旦将文件描述符添加到 epoll 的 Interest List，后续的 epoll_wait 调用无需重复传递文件描述符
仅返回活跃连接：内核只返回就绪的文件描述符信息，而不是所有监控的描述符
高效的内存使用：通过内核维护的红黑树和链表结构，实现高效的添加、删除和查找操作

水平触发 vs 边缘触发

边缘触发的工作机制

边缘触发模式：只有当监控的文件描述符从不可读变为可读（或从不可写变为可写）时，才会触发事件通知。

水平触发模式：只要文件描述符处于可读或可写状态，就会持续触发事件通知。

实际示例分析

为了更好地理解两种触发模式的差异，我们通过一个具体的时间线场景来分析 epoll 的行为。

场景设置

假设我们有一个 socket 文件描述符 fd3，以及一个 epoll 实例监控着多个文件描述符。

完整时间线：

t0 时刻：应用程序注册 fd3 到 epoll 监控列表
t1 时刻：fd3 socket 上有 1024 字节数据到达
t2 时刻：epoll 将 fd3 标记为就绪状态
t3 时刻：应用程序调用 epoll_wait()
t4 时刻：应用程序读取 fd3 上的 512 字节数据（部分读取）
t5 时刻：应用程序再次调用 epoll_wait()
t6 时刻：应用程序处理返回的事件

水平触发模式 (Level-Triggered) 行为分析

// t0 时刻：注册 fd3 为水平触发（默认模式）
struct epoll_event ev;
ev.events = EPOLLIN;  // 只设置读事件，默认水平触发
ev.data.fd = fd3;
epoll_ctl(epfd, EPOLL_CTL_ADD, fd3, &ev);

时刻分析：

t1 时刻：1024 字节数据到达 fd3 的接收缓冲区
t2 时刻：epoll 检测到 fd3 可读，将其加入就绪列表
t3 时刻：epoll_wait() 返回 fd3（以及其他就绪的文件描述符）
t4 时刻：应用程序只读取 512 字节，缓冲区还剩余 512 字节
t5 时刻：epoll_wait() 立即返回 fd3，因为缓冲区仍有数据
t6 时刻：应用程序可以继续读取剩余的 512 字节数据

水平触发的注意事项

使用水平触发模式时，需要注意以下几点：

避免重复通知：如果不完全读取数据，下次 epoll_wait 仍会返回该文件描述符
可以使用阻塞 I/O：因为只要有数据就会持续通知，不容易丢失事件
适合简单场景：编程相对简单，适合大多数应用场景

// 水平触发模式的读取方式（可以不一次性读完）
ssize_t n = read(fd, buffer, sizeof(buffer));
if (n > 0) {
    // 处理读取的数据
    process_data(buffer, n);
    // 如果没有读完，下次epoll_wait会再次通知
} else if (n == 0) {
    // 连接关闭
    close_connection(fd);
} else {
    if (errno != EAGAIN && errno != EWOULDBLOCK) {
        perror("read error");
    }
}

sequenceDiagram
    participant APP as 应用程序
    participant EPOLL as epoll (水平触发)
    participant SOCKET as Socket缓冲区
    
    Note over APP: t0: 注册fd3到epoll
    Note over SOCKET: t1: 1024字节数据到达
    SOCKET->>EPOLL: t2: fd3变为可读状态
    EPOLL->>EPOLL: 将fd3加入就绪列表
    
    APP->>EPOLL: t3: epoll_wait()
    EPOLL-->>APP: 返回fd3可读事件
    
    APP->>SOCKET: t4: read(fd3, 512字节)
    SOCKET-->>APP: 返回512字节数据
    Note over SOCKET: 缓冲区还剩512字节
    
    APP->>EPOLL: t5: epoll_wait()
    Note over EPOLL: fd3仍在就绪列表<br/>因为缓冲区还有数据
    EPOLL-->>APP: t6: 立即返回fd3可读
    
    Note over APP: 水平触发：持续通知<br/>直到数据完全读取

边缘触发模式 (Edge-Triggered) 行为分析

// t0 时刻：注册 fd3 为边缘触发
struct epoll_event ev;
ev.events = EPOLLIN | EPOLLET;  // 读事件 + 边缘触发
ev.data.fd = fd3;
epoll_ctl(epfd, EPOLL_CTL_ADD, fd3, &ev);

时刻分析：

t1 时刻：1024 字节数据到达 fd3 的接收缓冲区（状态变化）
t2 时刻：epoll 检测到 fd3 状态变化，将其加入就绪列表
t3 时刻：epoll_wait() 返回 fd3，随即清除就绪状态
t4 时刻：应用程序只读取 512 字节，缓冲区还剩余 512 字节
t5 时刻：epoll_wait() 阻塞等待，因为 fd3 没有新的状态变化
t6 时刻：除非有新数据到达，否则 fd3 不会再次被返回

sequenceDiagram
    participant APP as 应用程序
    participant EPOLL as epoll (边缘触发)
    participant SOCKET as Socket缓冲区
    
    Note over APP: t0: 注册fd3到epoll
    Note over SOCKET: t1: 1024字节数据到达 (状态变化)
    SOCKET->>EPOLL: t2: fd3状态变化通知
    EPOLL->>EPOLL: 将fd3加入就绪列表
    
    APP->>EPOLL: t3: epoll_wait()
    EPOLL-->>APP: 返回fd3可读事件
    EPOLL->>EPOLL: 清除fd3就绪状态
    
    APP->>SOCKET: t4: read(fd3, 512字节)
    SOCKET-->>APP: 返回512字节数据
    Note over SOCKET: 缓冲区还剩512字节<br/>但没有新的状态变化
    
    APP->>EPOLL: t5: epoll_wait()
    Note over EPOLL: fd3不在就绪列表中<br/>因为没有新的状态变化
    Note over APP: t6: 阻塞等待新事件
    
    Note over APP: 边缘触发：只在状态变化时通知<br/>必须一次性读取所有数据

边缘触发的注意事项

使用边缘触发模式时，必须注意以下几点：

必须使用非阻塞 I/O：因为可能需要在一次通知中读取所有可用数据
循环读取直到 EAGAIN：确保读取所有可用数据
小心处理 EPOLLOUT：写事件的边缘触发可能导致问题

// 边缘触发模式的正确读取方式
while (1) {
    ssize_t n = read(fd, buffer, sizeof(buffer));
    if (n < 0) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            break;  // 没有更多数据
        } else {
            perror("read error");
            break;
        }
    } else if (n == 0) {
        // 连接关闭
        break;
    } else {
        // 处理读取的数据
        process_data(buffer, n);
    }
}

两种模式对比总结

基于上述时间线分析，我们可以清楚地看到两种触发模式的关键差异：

时刻	事件描述	水平触发 (LT)	边缘触发 (ET)
t0	注册 fd3 到 epoll	✅ 注册成功	✅ 注册成功
t1	1024 字节数据到达	📥 数据到达缓冲区	📥 数据到达缓冲区
t2	epoll 状态更新	🔔 标记为就绪	🔔 标记为就绪
t3	第一次 epoll_wait()	✅ 返回 fd3	✅ 返回 fd3
t4	读取 512 字节数据	📖 部分读取	📖 部分读取
t5	第二次 epoll_wait()	✅ 立即返回 fd3	❌ 阻塞等待
t6	处理结果	📖 可继续读取	⏳ 等待新事件

关键区别：

水平触发 (LT)：
- t5 时刻会立即返回 fd3，因为缓冲区仍有数据
- 状态持续性：只要文件描述符可读/可写就持续通知
- 编程简单：不要求一次性处理完所有数据
- 容错性好：不容易丢失事件
边缘触发 (ET)：
- t5 时刻会阻塞，因为没有新的状态变化
- 状态变化性：只在状态发生变化时通知一次
- 性能更高：减少系统调用次数
- 编程复杂：必须一次性处理完所有数据

实际编程建议：

// 水平触发 - 简单读取
if (events & EPOLLIN) {
    char buffer[1024];
    ssize_t n = read(fd, buffer, sizeof(buffer));
    if (n > 0) {
        process_data(buffer, n);
        // 如果没读完，下次epoll_wait还会通知
    }
}

// 边缘触发 - 循环读取直到完成
if (events & EPOLLIN) {
    char buffer[1024];
    while (1) {
        ssize_t n = read(fd, buffer, sizeof(buffer));
        if (n > 0) {
            process_data(buffer, n);
        } else if (n == 0) {
            break; // 连接关闭
        } else {
            if (errno == EAGAIN || errno == EWOULDBLOCK) {
                break; // 数据读完
            } else {
                handle_error();
                break;
            }
        }
    }
}

graph LR
    subgraph "水平触发 (Level-Triggered)"
        A1["数据到达"] --> A2["fd变为可读"]
        A2 --> A3["加入就绪列表"]
        A3 --> A4["epoll_wait返回"]
        A4 --> A5["应用读取部分数据"]
        A5 --> A6{"缓冲区还有数据?"}
        A6 -->|"是"| A7["fd保持在就绪列表"]
        A6 -->|"否"| A8["fd移出就绪列表"]
        A7 --> A4
    end
    
    subgraph "边缘触发 (Edge-Triggered)"
        B1["数据到达"] --> B2["fd状态发生变化"]
        B2 --> B3["加入就绪列表"]
        B3 --> B4["epoll_wait返回"]
        B4 --> B5["清除就绪状态"]
        B5 --> B6["应用必须读取所有数据"]
        B6 --> B7["等待下次状态变化"]
    end
    
    style A4 fill:#c8e6c9
    style A7 fill:#ffecb3
    style B4 fill:#c8e6c9
    style B5 fill:#ffcdd2
    style B6 fill:#fff3e0

epoll 的内部实现原理

数据结构

epoll 在内核中主要使用两种数据结构：

红黑树（rbtree）：存储所有被监控的文件描述符（Interest List）
双向链表（linked list）：存储就绪的文件描述符（Ready List）

工作流程

epoll_create：创建 epoll 实例，初始化红黑树和就绪链表
epoll_ctl：
- EPOLL_CTL_ADD：将文件描述符插入红黑树
- EPOLL_CTL_DEL：从红黑树中删除文件描述符
- EPOLL_CTL_MOD：修改红黑树中文件描述符的事件掩码
epoll_wait：检查就绪链表，返回就绪的文件描述符

事件通知机制

当文件描述符状态发生变化时：

内核检测到 I/O 事件
调用注册的回调函数
将文件描述符添加到就绪链表
唤醒等待中的 epoll_wait 调用

总结

epoll 是 Linux 下高性能网络编程的基石，它解决了传统 select 和 poll 在处理大量并发连接时的性能问题。通过理解 epoll 的核心概念和工作原理，我们可以更好地构建高性能的网络应用程序。

关键要点

核心概念：
- Interest List（监控列表）：所有注册的文件描述符
- Ready List（就绪列表）：准备好进行 I/O 的文件描述符
性能优势：
- 时间复杂度从 O(N) 降低到 O(活跃连接数)
- 避免重复的文件描述符拷贝
- 内核维护就绪状态，无需轮询
触发模式：
- 水平触发（LT）：状态触发，持续通知
- 边缘触发（ET）：变化触发，仅通知一次
适用场景：
- 高并发服务器
- 大量长连接的应用
- 对性能要求严格的网络程序

epoll 的设计体现了 Linux 内核对高性能网络编程的深度支持，掌握其原理对于开发高性能网络应用至关重要。