名稱
epoll - I/O 事件通知設施概要
#include <sys/epoll.h>
說明
epoll API 的任務與 poll(2) 類似:監控多個檔案描述符,找出其中可以進行I/O 的檔案描述符。 epoll API 既可以作為邊緣觸發(edge-triggered)的介面使用,也可以作為水平觸發(level-triggered)的介面使用,並能很好地擴充套件,監視大量檔案描述符。 epoll API 的核心概念是 epoll 例項(epoll instance),這是核心的一個內部資料結構,從使用者空間的角度看,它可以被看作一個內含兩個列表的容器:- •
- 興趣列表(interest list,有時也稱為 epoll 集( epoll set)):程序註冊了“監控興趣”的檔案描述符的集合。
- •
- 就緒列表(ready list):“準備好”進行 I/O 的檔案描述符的集合。就緒列表是興趣列表中的檔案描述符的子集(或者更準確地說,是其引用的集合)。核心會根據這些檔案描述符上的 I/O 活動動態地填充就緒列表。
- •
- epoll_create(2) 會建立一個新的 epoll 例項,並返回一個指向該例項的檔案描述符。(最新的 epoll_create1(2) 擴充套件了 epoll_create(2) 的功能。)
- •
- epoll_ctl(2) 能向 epoll 例項的興趣列表中新增專案,註冊對特定檔案描述符的興趣。
- •
- epoll_wait(2) 會等待 I/O 事件,如果當前沒有事件可用,則阻塞呼叫它的執行緒。(此係統呼叫可被看作從 epoll 例項的就緒列表中獲取專案。)
水平觸發與邊緣觸發
epoll 事件的分發介面既可以表現為邊緣觸發(ET),也可以表現為水平觸發(LT)。這兩種機制的區別描述如下。假設發生下列情況:- 1.
- 讀取方在 epoll 例項中註冊代表管道讀取端( rfd)的檔案描述符。
- 2.
- 寫入方在管道的寫入端寫入 2 kB 的資料。
- 3.
- 讀取方呼叫 epoll_wait(2), rfd 作為一個就緒的檔案描述符被返回。
- 4.
- 讀取方只從 rfd 中讀取 1 kB 的資料。
- 5.
- 讀取方再次呼叫 epoll_wait(2)。
- a)
- 使用非阻塞的檔案描述符;
系統自動睡眠的處理
如果系統透過 /sys/power/autosleep 處於 autosleep 模式,那麼當某個事件的發生將裝置從睡眠中喚醒時,裝置驅動程式僅會保持裝置喚醒直到該事件入隊為止。若想保持裝置喚醒直到事件被處理完畢,則需使用 epoll_ctl(2) 的 EPOLLWAKEUP標誌位。 當在 struct epoll_event 結構體的 events 段中設定 EPOLLWAKEUP標誌位時,從事件入隊的那一刻起,到 epoll_wait(2) 呼叫返回事件,再一直到下一次 epoll_wait(2) 呼叫之前,系統會一直保持喚醒。若要讓事件保持系統喚醒的時間超過這個時間,那麼在第二次 epoll_wait(2) 呼叫之前,應當設定一個單獨的 wake_lock。/proc 介面
以下介面可以用來限制 epoll 消耗的核心記憶體的量。- /proc/sys/fs/epoll/max_user_watches (從 Linux 2.6.28 開始)
- 此介面指定了單個使用者在系統內所有 epoll 例項中可以註冊的檔案描述符的總數限制。這個限制是針對每個真實使用者ID的。每個註冊的檔案描述符在32位核心上大約需要90個位元組,在64位核心上大約需要160個位元組。目前, max_user_watches 的預設值是可用低記憶體的1/25(4%)除以註冊的空間成本(以位元組計)。
示例:建議的使用 epoll 的方式
epoll 作為水平觸發介面的用法與 poll(2) 具有相同的語義,但邊緣觸發的用法需要更多的說明,以避免應用程式事件迴圈的停滯。在下面的例子中,呼叫了 listen(2)來監聽 listener,一個非阻塞的套接字。函式 do_use_fd() 使用新就緒的檔案描述符,直到 read(2) 或 write(2) 返回 EAGAIN。一個事件驅動的狀態機應用程式在接收到 EAGAIN 後,應該記錄它的當前狀態,這樣在下一次呼叫 do_use_fd() 時,它就能從之前停下的地方繼續 read(2) 或 write(2)。#define MAX_EVENTS 10 struct epoll_event ev, events[MAX_EVENTS]; int listen_sock, conn_sock, nfds, epollfd; /* Code to set up listening socket, 'listen_sock', (socket(), bind(), listen()) omitted. */ epollfd = epoll_create1(0); if (epollfd == -1) { perror("epoll_create1"); exit(EXIT_FAILURE); } ev.events = EPOLLIN; ev.data.fd = listen_sock; if (epoll_ctl(epollfd, EPOLL_CTL_ADD, listen_sock, &ev) == -1) { perror("epoll_ctl: listen_sock"); exit(EXIT_FAILURE); } for (;;) { nfds = epoll_wait(epollfd, events, MAX_EVENTS, -1); if (nfds == -1) { perror("epoll_wait"); exit(EXIT_FAILURE); } for (n = 0; n < nfds; ++n) { if (events[n].data.fd == listen_sock) { conn_sock = accept(listen_sock, (struct sockaddr *) &addr, &addrlen); if (conn_sock == -1) { perror("accept"); exit(EXIT_FAILURE); } setnonblocking(conn_sock); ev.events = EPOLLIN | EPOLLET; ev.data.fd = conn_sock; if (epoll_ctl(epollfd, EPOLL_CTL_ADD, conn_sock, &ev) == -1) { perror("epoll_ctl: conn_sock"); exit(EXIT_FAILURE); } } else { do_use_fd(events[n].data.fd); } } }
當作為邊緣觸發的介面使用時,出於效能考慮,可在新增檔案描述符( EPOLL_CTL_ADD)時指定 ( EPOLLIN|EPOLLOUT)。這樣可以避免反覆呼叫 epoll_ctl(2) 與EPOLL_CTL_MOD 在 EPOLLIN 和 EPOLLOUT 之間來回切換。
epoll 十問
- 0.
- 用什麼區分興趣列表中註冊的檔案描述符?
- 檔案描述符的數值和開啟檔案描述(open file description,又稱“open file handle”,核心對開啟的檔案的內部表示)的組合。
- 1.
- 如果在同一個 epoll 例項上多次註冊相同的檔案描述符會怎樣?
- 你可能會得到 EEXIST。然而,在同一個epoll例項上新增重複的( dup(2),dup2(2), fcntl(2) F_DUPFD)檔案描述符是可能的。如果重複的檔案描述符是用不同的事件掩碼( events mask)註冊的,那麼這會成為過濾事件的一個實用技巧。
- 2.
- 多個 epoll 例項能等待同一個檔案描述符嗎?如果可以,事件會被報告給所有的這些 epoll 檔案描述符嗎?
- 能,而且事件會被報告給所有的例項。但你可能需要小心仔細地程式設計才能正確地實現這一點。
- 3.
- epoll 檔案描述符本身 poll/epoll/selectable 嗎?
- 是的,如果一個 epoll 檔案描述符有事件在等待,那麼它將顯示為可讀。
- 4.
- 如果試圖把 epoll 檔案描述符放到它自己的檔案描述符集合中會發生什麼?
- epoll_ctl(2) 呼叫會失敗( EINVAL)。但你可以將一個 epoll 檔案描述符新增到另一個 epoll 檔案描述符集合中。
- 5.
- 我可以透過 UNIX 域套接字傳送一個 epoll 檔案描述符到另一個程序嗎?
- 可以,但這樣做是沒有意義的,因為接收程序不會得到興趣列表中檔案描述符的副本。
- 6.
- 關閉一個檔案描述符會將它從所有 epoll 興趣列表中移除嗎?
- 會,但要注意幾點。檔案描述符是對開啟檔案描述(open file description)的引用(見 open(2))。每當透過 dup(2), dup2(2), fcntl(2) F_DUPFD,或 fork(2) 複製某個檔案描述符時,都會建立一個新的檔案描述符,引用同一個開啟檔案描述。一個開啟檔案描述會在所有引用它的檔案描述符被關閉之前一直存在。
- 一個檔案描述符只有在所有指向其依賴的開啟檔案描述的檔案描述符都被關閉後才會從興趣列表中移除。這意味著,即使興趣列表內的某個檔案描述符被關閉了,如果引用同一檔案描述的其他檔案描述符仍然開著,則該檔案描述符的事件仍可能會通知。為了防止這種情況發生,在複製檔案描述符前,必須顯式地將其從興趣列表中移除(使用epoll_ctl(2) EPOLL_CTL_DEL)。或者應用程式必須能確保所有的檔案描述符都被關閉(如果檔案描述符是被使用 dup(2) 或 fork(2) 的庫函式隱式複製的,這一點可能會很難保證)。
- 7.
- 如果在兩次 epoll_wait(2) 呼叫之間發生了不止一個事件,它們是會一起報告還是會分開報告?
- 它們會一起報告。
- 8.
- 對檔案描述符的操作會影響已經收集到但尚未報告的事件嗎?
- 你可以對某個現有的檔案描述符做刪除和修改兩種操作:刪除,對這種情況沒有意義;修改,將重新讀取可用的 I/O。
- 9.
- 當使用 EPOLLET 標誌位(邊緣觸發行為)時,我需要持續讀/寫檔案描述符,直到 EAGAIN 嗎?
- 從 epoll_wait(2) 收到的事件會提示你,對應的檔案描述符已經準備好進行所要求的I/O 操作。直到下一次(非阻塞的)讀/寫產生 EAGAIN 之前,此檔案描述符都應被認為是就緒的。何時及如何使用該檔案描述符完全取決於你。
- 對於面向資料包/令牌的檔案(如資料報套接字、典型模式(canonical mode)下的終端),感知讀/寫 I/O 空間盡頭的唯一方法是持續讀/寫直到 EAGAIN。
- 對於面向流的檔案(如管道、FIFO、流套接字),也可透過檢查從目標檔案描述符讀/寫的資料量來檢測讀/寫 I/O 空間消費完的情況。例如,如果你在呼叫 read(2) 時指定了期望讀取的位元組數,但 read(2) 返回的實際讀取位元組數較少,你就可以確定檔案描述符的讀 I/O 空間已經消費完了。在使用 write(2) 寫入時同理。(但如果你不能保證被監視的檔案描述符總是指向一個面向流的檔案,那麼就應當避免使用這一技巧)
可能的陷阱和避免的方法
- o 邊緣觸發下的飢餓
- o 如果使用了事件快取...
版本
epoll API 在 Linux 核心2.5.44中引入。2.3.2版本的 glibc 加入了對其的支援。適用於
epoll API 是 Linux 特有的。其他的一些系統也提供類似的機制,例如 FreeBSD有 kqueue, Solaris 有 /dev/poll。注
可以透過程序對應的 /proc/[pid]/fdinfo 目錄下的 epoll 檔案描述符條目檢視epoll 檔案描述符所監視的檔案描述符的集合。詳情見 proc(5)。 kcmp(2) 的 KCMP_EPOLL_TFD 操作可以用來檢查一個 epoll 例項中是否存在某個檔案描述符。另請參閱
epoll_create(2), epoll_create1(2), epoll_ctl(2), epoll_wait(2), poll(2), select(2)跋
本頁面中文版由中文 man 手冊頁計劃提供。2021-03-22 | Linux |