epoll接上一篇select和poll的区别文章中，介绍了select和poll，它们有几个明显的缺点，比如selec

接上一篇select和poll的区别文章中，介绍了select和poll，它们有几个明显的缺点，比如select每次调用都要把用户关心的文件描述符重新设置一遍，并且它能处理的文件描述符数量有限，而且无论是select还是poll，函数返回时我们都要遍历一遍事件集，找到就绪的文件描述符，效率比较低。而epoll正好可以用来解决这些问题。epoll是Linux特有的IO复用函数，它是一组函数：

#include <sys/epoll.h>

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

epoll把用户关心的文件描述符上的事件放在内核的一个事件表中，通过epoll_create返回一个文件描述符epollfd，该描述符用来唯一标识内核中的这个事件表。epoll_create中的size参数无关紧要，但要给一个大于0的值。
epoll_ctl第一个参数传入epollfd，op表示操作类型，fd是要操作的文件描述符，event是事件类型。
操作类型op有3种：

EPOLL_CTL_ADD 往事件表中注册fd上的事件
EPOLL_CTL_MOD 修改fd上的注册事件
EPOLL_CTL_DEL 删除fd上的注册事件

epoll_event的定义：

The struct epoll_event is defined as :

typedef union epoll_data {
    void    *ptr;
    int      fd;
    uint32_t u32;
    uint64_t u64;
} epoll_data_t;

struct epoll_event {
    uint32_t     events;    /* Epoll events */
    epoll_data_t data;      /* User data variable */
};

epoll_event中的events用来描述事件类型，epoll支持的事件类型和poll基本相同。表示epoll事件类型的宏是在poll对应的宏前加上“E”，比如epoll的数据可读事件是EPOLLIN。data用来存放用户数据，epoll_data_t中fd可以存放用户fd，ptr用来指定与fd相关的用户数据，但由于epoll_data是一个联合体，所以不能同时使用ptr和fd，因此我们可以在ptr指向的用户数据中包含fd。

epoll_wait在一段超时时间内等待一组文件描述符上的事件，函数成功时返回就绪的文件描述符的个数。events是传出参数，epoll_wait函数如果检测到事件，就将所有就绪的事件从内核事件表中复制到它的第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到的就绪事件，因此，当epoll_wait返回时，我们只需要遍历这个数组就好了，大大提高了效率。
来看一下poll和epoll的区别：

int ret = poll(fds, MAX_EVENT_NUMBER, -1);
//遍历所有sockfd
for (int i = 0; i < MAX_EVENT_NUMBER; i++) {
    if (fds[i].revents & POLLIN) {
        int sockfd = fds[i].fd;
        //处理事件
    }
}

int ret = epoll_wait(epollfd, events, MAX_EVENT_NUMBER, -1);
//遍历就绪sockfd
for (int i = 0; i < ret; i++) {
    int sockfd = events[i].data.fd;
    //处理事件
}

可以看到，当sockfd较多时，epoll较poll效率提升还是很高的。
现在把上一篇中select的例子改写一下：

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <string.h>
#include <vector>
#include <sys/epoll.h>

using namespace std;

#define MAX_EVENT_NUMBER 1024

int main(void)
{
    //初始化套接字
    int listenfd = socket(AF_INET, SOCK_STREAM, 0);
    if (listenfd < 0)
    {
        perror("socket");
        return -1;
    }

    struct sockaddr_in address;
    bzero(&address, sizeof(address));
    address.sin_family = AF_INET;
    address.sin_addr.s_addr = htonl(INADDR_ANY);
    address.sin_port = htons(8080);

    int ret = bind(listenfd, (struct sockaddr *)&address, sizeof(address));
    if (ret < 0)
    {
        perror("bind");
        return -1;
    }

    ret = listen(listenfd, 5);
    if (ret < 0)
    {
        perror("listen");
        return -1;
    }

    int epollfd = epoll_create(5);
    if (epollfd < 0)
    {
        perror("epoll_create");
        return -1;
    }

    struct epoll_event event;
    event.data.fd = listenfd;
    event.events = EPOLLIN;

    //将listenfd加入epoll内核事件表
    epoll_ctl(epollfd, EPOLL_CTL_ADD, listenfd, &event);

    epoll_event events[MAX_EVENT_NUMBER];

    vector<int> vecClientfd;

    while (1)
    {
        ret = epoll_wait(epollfd, events, 1024, -1);
        for (int i = 0; i < ret; i++)
        {
            int sockfd = events[i].data.fd;
            if (sockfd == listenfd)
            {
                struct sockaddr_in client_address;
                socklen_t client_addrlength = sizeof(client_address);
                int clientfd = accept(listenfd, (struct sockaddr *)&client_address, &client_addrlength);

                //如果有新客户端连接
                printf("The connection is successful : %d\n", clientfd);

                struct epoll_event event;
                event.data.fd = clientfd;
                event.events = EPOLLIN;

                //将clientfd加入epoll内核事件表
                epoll_ctl(epollfd, EPOLL_CTL_ADD, clientfd, &event);

                vecClientfd.push_back(clientfd);
            }
            else if (events[i].events & EPOLLIN)
            {
                //如果有客户端的读事件
                char buf[1024];
                ret = recv(events[i].data.fd, buf, sizeof(buf) - 1, 0);
                if (ret <= 0)
                {
                    perror("recv");
                }
                printf("client: %d recv: %s\n", events[i].data.fd, buf);
            }
        }
    }

    for (int i = 0; i < vecClientfd.size(); i++)
    {
        close(vecClientfd[i]);
    }

    close(listenfd);
    return 0;
}

epoll比较高效的原因还有一个是它对文件描述符的操作有两种模式：LT（水平触发）和ET（边缘触发）。select和poll都只能工作在相对低效的LT模式。epoll默认是水平触发，这种模式下epoll相当于一个效率较高的poll。当往epoll内核事件表中注册一个文件描述符上的EPOLLET事件时，epoll将以ET模式来操作该文件描述符。ET模式是epoll的高效工作模式。
对于采用LT工作模式的文件描述符，当epoll_wait检测到其上有事件发生并将此事件通知应用程序后，应用程序可以不立即处理该事件。这样，当应用程序下一次调用epoll_wait时，epoll_wait还会再次向应用程序通告此事件，直到该事件被处理。而对于采用ET工作模式的文件描述符，当epoll_wait检测到其上有事件发生并将此事件通知应用程序后，应用程序必须立即处理该事件，因为后续的epoll_wait调用将不再向应用程序通知这一事件。可见，ET模式在很大程度上降低了同一个epoll事件被重复触发的次数，因此效率要比LT模式高。
关于水平触发和边缘触发在我脑海中一直有一个电信号的图：

微信图片_20230415194432.png

水平触发在于看当前状态，比如当前状态是高电平就会一直触发，而边沿触发在于看状态变化，比如从低电平变为高电平，这个过程只会触发一次，想要再次触发，只能状态发生改变。
所以，ET模式效率高的原因就在于同一事件（比如可读或可写事件）只会触发一次，而LT只要状态不变就会一直触发。同时这也引出了一个问题，对于ET模式，当有事件来时，就要一次把这个事件处理完，因为之后不会再触发该事件，即使上一次该事件没处理完。
说了这么多epoll的优点，难道他没有缺点吗？有，比如活动连接比较多的时候，epoll_wait的效率未必比select和poll高，因为epoll_wait采用的是回调的方式，内核检测到就绪的文件描述符时，触发回调函数，回调函数将该文件描述符上对应的事件插入内核就绪事件队列，内核最后在适当的时机将该就绪队列中的内容拷贝到用户空间。而连接较多时回调函数被触发过于频繁，开销较大，所以epoll_wait适用于连接数量多，但活动连接较少的情况。

参考资料
[1] 游双.Linux高性能服务器编程[M].北京：机械工业出版社，2013.