当前位置：首页 > news >正文

epoll设计实现

news 来源：原创 2025/4/20 22:26:29

epoll设计实现

没有epoll之前，Linux只能做嵌入式

数据结构设计

fd总集：以查找为主，为啥以查找为主（往下看）
- 哈希表：初始化内存占用太大，比如只有100个fd，也得初始化一个1k长的哈希数组，造成空间浪费（现在有那种可扩展的哈希，也许能套用）
- B树和B+树：查找速度较慢，采用划分分区的思想就行搜索，虽然树矮，但key比较次数较多
  - 一般根据上个节点查找下个节点的这种功能用B树
  - 一般用在磁盘查找上
  - 修改一个节点时只用刷新局部
- 红黑树：维护难度较高，修改一个节点可能需要修改整棵树，但综合查找速度和存储开销，是一个较优选择
就绪fd集合：不涉及查找，只用来存储，就队列就好
- 双向链表：链表用双向的，删除一个节点方便

协议栈如何与epoll模块通信

借助linux文件系统vfs：

协议栈会通过API回调epoll，epoll才知道哪些fd就绪了：

三次握手后，内核协议栈accept()通知epoll：epollin
接收到数据与确认包后，recv()通知：epollin
内核协议栈tcb sendbuff发送数据后，收到ack将清空sendbuff，这时send()通知epoll：epollout
接收到fin包，close() 也会通知：epollin
接收到rst包：通知epollerr

epoll如何加锁

就绪队列和红黑树的节点是一个节点：

struct epitem {
	RB_ENTRY(epitem) rbn;
	LIST_ENTRY(epitem) rdlink;
	int rdy; //exist in list 
	
	int sockfd;
	struct epoll_event event; 
};

// epoll_create
struct eventpoll {
	ep_rb_tree rbr;
	int rbcnt;
	
	LIST_HEAD( ,epitem) rdlist;
	int rdnum;

	int waiting;

	pthread_mutex_t mtx; //rbtree update
	pthread_spinlock_t lock; //rdlist update
	
	pthread_cond_t cond; //block for event
	pthread_mutex_t cdmtx; //mutex for cond
	
#if ENABLE_MUL_EPOLL
	struct eventpoll *prev;
	struct eventpoll *next;
#endif
};

多个线程操作epoll：

epoll_ctrl：对红黑树加锁
- 锁整棵树
- 锁子树
- 锁类型：互斥锁 =》没有获取到锁，让出cpu资源
epoll_wait：对就绪队列加锁
- 是协议栈回调后操作就绪队列，用户态只是读队列，这个锁是为协议栈设置的
- 锁类型：自旋锁 =》没有获取到锁，cpu资源不让出，就等着有资源释放锁
- 队列为啥用自旋锁：因为队列操作简单，占着cpu资源并等待的开销，小于让出cpu资源再重新获取cpu资源的
- 还得设置条件等待：因为队列可能为空0，抢到锁了还要等到队列不为空才能取数据（线程池同理）
epoll_create:不加锁
- 锁是epoll的一部分，锁也需要通过epoll_create进行初始化（也就是初始化eventpoll），即使多个线程创建多个epoll，那也不会造成数据错误

et与lt如何实现

比如客户端发4k的数据，服务器只接收1k，recv先读1k，调用回调，如果是边缘触发，后面的3k是不会触发的（如果客户端再发1k，这次也是会触发的），但水平触发还会触发3次

只要没读完，就会一直recv，每次调用recv都会触发

et：接收数据，调用一次回调，就是一次要把缓存区的数据全部读完

lt: recvbuffer里面有数据，就回调（如果节点已经在就绪队列里了，就不用管）

在接收缓冲区数据的时候，协议栈如果一次接收完就循环接收，接收一次就回调一次epoll：

// 可以这么理解
for(length = 0;Pay_loadLen != 0;length += recvlen){
    recvlen = recv(remote_fd, ReceiveBuff, Pay_loadLen, 0);
    Pay_loadLen = Pay_loadLen - recvlen;
    memcpy(RxBuffer+length, ReceiveBuff, recvlen);
    memset(ReceiveBuff, 0, sizeof(ReceiveBuff));
    // epoll_cb();	    // 在这里回调是水平触发
}
// 在这里回调是边缘触发

tip:

epoll中并没用mmap（磁盘与内存的映射），有的文章说会将就绪队列映射到用户态，使得就绪队列也无需从内核态拷贝到用户态，但代码中并没有。
aio并不是适合做网络IO（网络IO最高效的还是reactor模型），更适合做磁盘IO
内核协议栈本身也是支持mba实现共享内存的，只是有些网卡不支持
共享内存：
- 一般用来做进程间通信(IPC)，是一块物理内存，多进程通过页表将各自的虚拟地址映射到这块物理内存，实现内存共享，但共享内存没有做进程间同步和互斥机制，需要结合信号量使用
- 这里主要是用来实现零拷贝，将磁盘映射到内存。（严格来说应该都不叫共享内存。只是进行了内存映射）
用户态协议栈也得设计用户态epoll，因为用户态协议栈中的 fd 是用户态的，没法调内核态的epoll