名前

socket - Linux のソケットインターフェース

書式

#include <sys/socket.h>
sockfd = socket(int socket_family, int socket_type , int protocol);

説明

このマニュアルページは Linux ネットワークのソケット層に対する ユーザーインターフェースを記述するものである。 BSD 互換ソケットは、ユーザープロセスとカーネル内部の ネットワークプロトコルスタック群との間に、 統一的なインターフェースを提供するものである。 プロトコルモジュールは プロトコルファミリー (protocol familiy) (例: AF_INET, AF_IPX, AF_PACKET) と ソケットタイプ (socket types) (例: SOCK_STREAM, SOCK_DGRAM) に分類できる。 これらに関するより詳しい情報は socket(2) を参照のこと。

ソケット層の関数群

これらの関数はユーザープロセスがパケットを送受信したり、その他のソケット操作を 行ったりするために用いられる。詳細はそれぞれのマニュアルページを 見てほしい。
socket(2) はソケットを生成する。 connect(2) はソケットをリモートのソケットアドレスに接続する。 bind(2) はソケットをローカルのソケットアドレスにバインドする。 listen(2) はソケットに新しい接続が来たら受信するように伝え、 accept(2) は外部からやってきた接続に対して新しいソケットを得るために用いられる。 socketpair(2) は互いに接続された二つの名前無しソケット (anonymous socket) を返す ( AF_UNIX のような、いくつかのローカルなファミリーでしか実装されていない)。
send(2), sendto(2), sendmsg(2) はソケットを通してデータを送信し、 recv(2) recvfrom(2), recvmsg(2) はソケットからデータを受信する。 poll(2)select(2) はデータの到着を待ったり、データ送信の準備ができるまで待ったりする。 さらに、 write(2), writev(2), sendfile(2), read(2), readv(2) のような標準的な I/O 操作もデータの読み書きに用いることができる。
getsockbyname(2) はローカルのソケットアドレスを返し、 getpeername(2) はリモートのソケットアドレスを返す。 getsockopt(2)setsockopt(2) はソケット層のオプションやプロトコルオプションの取得・設定に用いられる。 他のいくつかのオプションの取得・設定には ioctl(2) を使うことができる。
close(2) はソケットをクローズする。 shutdown(2) は全二重なソケット接続を部分的にクローズする。
シーク動作や、 0 以外の位置に対する pread(2)pwrite(2) はソケットではサポートされていない。
非ブロッキングな I/O をソケットで行うことは可能で、 fcntl(2) を使ってソケットのファイルディスクリプターに O_NONBLOCK フラグをセットすれば良い。 こうするとブロックされる操作は、 (通常) EAGAIN エラーで戻ることになる (後で処理が再試行されることが期待されている)。 connect(2) では EINPROGRESS エラーが返される。 この場合、ユーザーはさまざまなイベントを poll(2)select(2) を使って待つことができる。
I/O イベント
イベント poll フラグ 内容
Read POLLIN 新しいデータが到着した。
Read POLLIN (接続志向のソケットで) 接続の設定が終了した。
Read POLLHUP 接続先で切断要求が生成された。
Read POLLHUP 接続が壊れた (接続志向のプロトコルのみ)。 この場合、ソケットに書き込みが行われると SIGPIPE も送信される。
Write POLLOUT ソケットには新しいデータを書き込むのに十分なバッファーがある。
Read/Write POLLIN | POLLOUT 外部向けの connect(2) が終了した。
Read/Write POLLERR 非同期的 (asynchronous) なエラーが起こった。
Read/Write POLLHUP 接続先が片方向を切断した。
Exception POLLPRI 緊急データ (urgent data) が到着した。この場合は SIGURG が送信される。
.
.
.
.
.
.
poll(2)select(2) を使う代わりに、カーネルからアプリケーションに イベントを通知させるのに SIGIO シグナルを使う方法もある。 この方法を使うには、 fcntl(2) を用いてソケットのファイルディスクリプターに O_ASYNC フラグをセットし、 SIGIO に対する有効なシグナルハンドラーを sigaction(2) によって設定しておく必要がある。 後述の シグナル に関する議論も参考にすること。

ソケットアドレス構造体

各ソケットドメインにはそれぞれ独自のソケットアドレス形式があり、ドメイン固有のアドレス構造体を持っている。 これらの構造体の先頭には、アドレス構造体の種類を示す整数の "family" フィールド (型は sa_family_t) がある。 このフィールドにより、 すべてのソケットドメインで汎用的に使用されるシステムコール (例えば、 connect(2), bind(2), accept(2), getsockname(2), getpeername(2) など) が、特定のソケットアドレスのドメインを判定することができる。
任意の種類のソケットアドレスをソケット API のインターフェースに渡せるように、 struct sockaddr 型が定義されている。 この型の目的は、 純粋に、 ドメイン固有のソケットアドレスを 「汎用的な」型にキャストできるようにする点にある。 これにより、 ソケット API 呼び出しにおいて、 コンパイラが型の不一致の警告を出すのを避けることができる。
これに加えて、ソケット API ではデータ型 struct sockaddr_storage が提供されている。 サポートしているすべてのドメイン固有のソケットアドレス構造体を収容するのに、この型を使うことができる。 この型は十分な大きさがあり、(メモリー境界への) アラインも適切に行われている (特に、 IPv6 ソケットアドレスを収容するのにも十分な大きさである)。 この構造体には次のフィールドがあり、 このフィールドを使って、 この構造体に実際に格納されているソケットアドレスの型を特定することができる。

    sa_family_t ss_family;

sockaddr_storage 構造体は、 ソケットアドレスを汎用的な方法で扱う必要があるプログラム (例えば、 IPv4 と IPv6 の両方のソケットアドレスを扱う必要があるプログラム) で有用である。

ソケットオプション

これらのソケットオプションは、 setsockopt(2) を用いれば設定でき、 getsockopt(2) を用いれば取得できる。 但し、どのソケットの場合も ソケットレベルには SOL_SOCKET を指定すること。 注釈がない限り、 optvalint へのポインターである。
SO_ACCEPTCONN
このソケットが listen(2) によって接続待ち受け状態に設定されているかどうかを示す値を返す。 値 0 は listen 状態のソケットでないことを、 値 1 は listen 状態のソケットであることを示す。このソケットオプションは読み込み専用である。
SO_ATTACH_FILTER (since Linux 2.2), SO_ATTACH_BPF (since Linux 3.19)
Attach a classic BPF (SO_ATTACH_FILTER) or an extended BPF ( SO_ATTACH_BPF) program to the socket for use as a filter of incoming packets. A packet will be dropped if the filter program returns zero. If the filter program returns a nonzero value which is less than the packet's data length, the packet will be truncated to the length returned. If the value returned by the filter is greater than or equal to the packet's data length, the packet is allowed to proceed unmodified.
The argument for SO_ATTACH_FILTER is a sock_fprog structure, defined in <linux/filter.h>:

struct sock_fprog {
    unsigned short      len;
    struct sock_filter *filter;
};
    

The argument for SO_ATTACH_BPF is a file descriptor returned by the bpf(2) system call and must refer to a program of type BPF_PROG_TYPE_SOCKET_FILTER.
These options may be set multiple times for a given socket, each time replacing the previous filter program. The classic and extended versions may be called on the same socket, but the previous filter will always be replaced such that a socket never has more than one filter defined.
Both classic and extended BPF are explained in the kernel source file Documentation/networking/filter.txt
SO_ATTACH_REUSEPORT_CBPF, SO_ATTACH_REUSEPORT_EBPF
For use with the SO_REUSEPORT option, these options allow the user to set a classic BPF ( SO_ATTACH_REUSEPORT_CBPF) or an extended BPF ( SO_ATTACH_REUSEPORT_EBPF) program which defines how packets are assigned to the sockets in the reuseport group (that is, all sockets which have SO_REUSEPORT set and are using the same local address to receive packets).
The BPF program must return an index between 0 and N-1 representing the socket which should receive the packet (where N is the number of sockets in the group). If the BPF program returns an invalid index, socket selection will fall back to the plain SO_REUSEPORT mechanism.
Sockets are numbered in the order in which they are added to the group (that is, the order of bind(2) calls for UDP sockets or the order of listen(2) calls for TCP sockets). New sockets added to a reuseport group will inherit the BPF program. When a socket is removed from a reuseport group (via close(2)), the last socket in the group will be moved into the closed socket's position.
These options may be set repeatedly at any time on any socket in the group to replace the current BPF program used by all sockets in the group.
SO_ATTACH_REUSEPORT_CBPF takes the same argument type as SO_ATTACH_FILTER and SO_ATTACH_REUSEPORT_EBPF takes the same argument type as SO_ATTACH_BPF.
UDP support for this feature is available since Linux 4.5; TCP support is available since Linux 4.6.
SO_BINDTODEVICE
このソケットを、引数で渡したインターフェース名で指定される (“eth0” のような) 特定のデバイスにバインドする。 名前が空文字列だったり、オプションの長さ (optlen) が 0 の場合には、 ソケットのバインドが削除される。 渡すオプションは、インターフェース名が 入ったヌル文字で終端された可変長の文字列である。 文字列の最大のサイズは IFNAMSIX である。 ソケットがインターフェースにバインドされると、 その特定のインターフェースから受信されたパケットだけを処理する。 このオプションはいくつかのソケットタイプ、 特に AF_INET に対してのみ動作する点に注意すること。 パケットソケットではサポートされていない (通常の bind(2) を使うこと)。
Linux 3.8 より前のバージョンでは、このソケットオプションは getsockname(2) で設定することはできたが、取得することができなかった。 Linux 3.8 以降では、読み出すことができる。 optlen 引数には、 デバイス名を格納するのに十分なバッファーサイズを渡すべきであり、 IFNAMSIZ バイトにすることを推奨する。 実際のデバイス名の長さは optlen 引数に格納されて返される。
SO_BROADCAST
ブロードキャストフラグを設定・取得する。有効になっていると、データグラ ムソケットはブロードキャストアドレスにパケットを送信できるようになる。 ストリーム指向のソケットには何の効果もない。
SO_BSDCOMPAT
BSD のバグに対して互換性を取るための機能を有効にする。 この機能は Linux 2.0 と 2.2 の UDP プロトコルモジュールで使用されている。 有効になっていると、 UDP ソケットで受信された ICMP エラーは ユーザープログラムに渡されない。 これ以降のバージョンのカーネルでは、このオプションのサポートは 段階的に廃止されてきた。 Linux 2.4 ではこのオプションは黙って無視され、 Linux 2.6 ではプログラムがこのオプションを使用すると (printk() を使って) カーネルの警告メッセージが出力される。 Linux 2.0 では、このオプションを指定すると、 raw ソケットにおいても BSD のバグ (ランダムヘッダー変更、 ブロードキャストフラグのスキップ) に対する互換機能が有効になっていた。 しかし、こちらは Linux 2.2 で削除された。
SO_DEBUG
ソケットのデバッグ機能を有効にする。 CAP_NET_ADMIN 権限を持つプロセスか、実効ユーザー ID が 0 のプロセスでしか 利用できない。
SO_DETACH_FILTER (Linux 2.2 以降), SO_DETACH_BPF (Linux 3.19 以降)
These two options, which are synonyms, may be used to remove the classic or extended BPF program attached to a socket with either SO_ATTACH_FILTER or SO_ATTACH_BPF. The option value is ignored.
SO_DOMAIN (Linux 2.6.32 以降)
ソケットドメインを整数で取得する。 AF_INET6 のような値が返される。 詳細は socket(2) を参照。このソケットオプションは読み込み専用である。
SO_ERROR
保留になっていたソケットエラーを取得してクリアする。 このソケットオプションは読み込み専用である。整数値をとる。
SO_DONTROUTE
ゲートウェイを経由せず、直接接続されているホストにのみ送信する。 send(2) 操作で MSG_DONTROUTE フラグをセットした場合も同じ効果が得られる。 ブール整数のフラグを取る。
SO_INCOMING_CPU (gettable since Linux 3.19, settable since Linux 4.4)
Sets or gets the CPU affinity of a socket. Expects an integer flag.

int cpu = 1;
setsockopt(fd, SOL_SOCKET, SO_INCOMING_CPU, &cpu,
           sizeof(cpu));
    

Because all of the packets for a single stream (i.e., all packets for the same 4-tuple) arrive on the single RX queue that is associated with a particular CPU, the typical use case is to employ one listening process per RX queue, with the incoming flow being handled by a listener on the same CPU that is handling the RX queue. This provides optimal NUMA behavior and keeps CPU caches hot.
SO_INCOMING_NAPI_ID (gettable since Linux 4.12)
Returns a system-level unique ID called NAPI ID that is associated with a RX queue on which the last packet associated with that socket is received.
This can be used by an application to split the incoming flows among worker threads based on the RX queue on which the packets associated with the flows are received. It allows each worker thread to be associated with a NIC HW receive queue and service all the connection requests received on that RX queue. This mapping between a app thread and a HW NIC queue streamlines the flow of data from the NIC to the application.
SO_KEEPALIVE
接続志向のソケットに対する keep-alive メッセージの送信を有効にする。 ブール値の整数フラグをとる。
SO_LINGER
SO_LINGER オプションを取得・設定する。引数には linger 構造体を取る。

struct linger {
    int l_onoff;    /* linger active */
    int l_linger;   /* how many seconds to linger for */
};
    

有効になっていると、 close(2)shutdown(2) は、そのソケットにキューイングされたメッセージがすべて送信完了するか、 linger (居残り) タイムアウトになるまで返らない。無効になっていると、 これらのコールはただちに戻り、クローズ動作はバックグラウンドで行われる。 ソケットのクローズを exit(2) の一部として行った場合には、残っているソケットの クローズ動作は必ずバックグラウンドに送られる。
SO_LOCK_FILTER
When set, this option will prevent changing the filters associated with the socket. These filters include any set using the socket options SO_ATTACH_FILTER, SO_ATTACH_BPF, SO_ATTACH_REUSEPORT_CBPF, and SO_ATTACH_REUSEPORT_EBPF.
The typical use case is for a privileged process to set up a raw socket (an operation that requires the CAP_NET_RAW capability), apply a restrictive filter, set the SO_LOCK_FILTER option, and then either drop its privileges or pass the socket file descriptor to an unprivileged process via a UNIX domain socket.
Once the SO_LOCK_FILTER option has been enabled, attempts to change or remove the filter attached to a socket, or to disable the SO_LOCK_FILTER option will fail with the error EPERM.
SO_MARK (Linux 2.6.25 以降)
このソケットから送信される各パケットにマークをセットする (netfilter の MARK ターゲットと似ているが、ソケット単位である点が異なる)。 マークの変更は、 netfilter なしでのマークに基づいてのルーティングや、 パケットフィルタリングに使うことができる。 このオプションを変更するには CAP_NET_ADMIN ケーパビリティが必要である。
SO_OOBINLINE
このオプションを有効にすると、帯域外データ (out-of-band data) は 受信データストリーム中に置かれる。有効にしなければ、 帯域外データは受信時に MSG_OOB フラグがセットされている場合に限って渡される。
SO_PASSCRED
SCM_CREDENTIALS 制御メッセージの受信を有効/無効にする。詳細は unix(7) を参照のこと。
SO_PASSSEC
SCM_SECURITY 制御メッセージの受信を有効/無効にする。詳細は unix(7) を参照のこと。
SO_PEEK_OFF (Linux 3.4 以降)
MSG_PEEK フラグと一緒に使用された場合 recv(2) システムコールの "peek offset" にこのオプションの値が設定される。現在のところ、このオプションは unix(7) ソケットでのみサポートされている。
このオプションが負の値に設定された場合、従来の動作となる。 つまり MSG_PEEK フラグが指定された recv(2) は、キューの先頭のデータに対して peek 処理を行う (データを読み出すが、キューからデータの削除を行わない)。 新規のソケットではこのオプションの値は必ず -1 に設定される。
このオプションに 0 以上の値が設定されると、 そのソケットのキュー上のオプション値で指定されたバイトオフセットにあるデータが次の peek 処理で返される。 同時に、 "peek offset" がキューから peek 処理されたバイト数だけ加算される。したがって、次の peek 処理ではキューのその次にあるデータが返される。
recv(2) (や同様のシステムコール) の MSG_PEEK フラグなしの呼び出しでキューの先頭のデータが削除された場合、 "peek offset" は削除されたバイト数だけ減算される。 言い換えると、 MSG_PEEK フラグなしでデータを受信すると、 "peek offset" が指すキュー内の相対的な位置が狂わないように調整され、この後の peek では、 データ削除が行われなかった場合に返されたのと同じ値が返されるということである。
データグラムソケットでは、 "peek offset" がパケットの途中を指している場合には、 返されるデータには MSG_TRUNC フラグが付与される。
以下の例は SO_PEEK_OFF の利用例を示している。ストリームソケットのキューに以下の入力データが入っているものとする。

aabbccddeeff
以下の順序で recv(2) の呼び出しを行うと、コメントに書かれた結果となる。

int ov = 4;                  // Set peek offset to 4
setsockopt(fd, SOL_SOCKET, SO_PEEK_OFF, &ov, sizeof(ov));
recv(fd, buf, 2, MSG_PEEK); // Peeks "cc"; offset set to 6 recv(fd, buf, 2, MSG_PEEK); // Peeks "dd"; offset set to 8 recv(fd, buf, 2, 0); // Reads "aa"; offset set to 6 recv(fd, buf, 2, MSG_PEEK); // Peeks "ee"; offset set to 8

SO_PEERCRED
Return the credentials of the peer process connected to this socket. For further details, see unix(7).
SO_PEERSEC (Linux 2.6.2 以降)
Return the security context of the peer socket connected to this socket. For further details, see unix(7) and ip(7).
SO_PRIORITY
プロトコルで定義された優先度を、このソケットから 送信される全てのパケットにセットする。 Linux はネットワークキュー内部の 整列にこの値を用いる。高い優先度を持っているパケットは先に処理される。 ただしそのデバイスのキュー処理のやり方に依存する。 0 から 6 以外の優先度をセットするには CAP_NET_ADMIN ケーパビリティが必要である。
SO_PROTOCOL (Linux 2.6.32 以降)
ソケットのプロトコルを整数で取得する。 IPPROTO_SCTP のような値が返される。 詳細は socket(2) を参照。このソケットオプションは読み込み専用である。
SO_RCVBUF
ソケットの受信バッファーの最大サイズを設定・取得する (バイト単位)。 setsockopt(2) を使って値が設定されたときに (管理オーバヘッド用の領域を確保するために) カーネルはこの値を 2倍し、 getsockopt(2) はこの 2倍された値を返す。 デフォルトの値は /proc/sys/net/core/rmem_default ファイルで設定され、許容される最大の値は /proc/sys/net/core/rmem_max ファイルで設定される。 このオプションの最小値は (2倍した値で) 256 である。
SO_RCVBUFFORCE (Linux 2.6.14 以降)
このソケットオプションを使うと、特権プロセス ( CAP_NET_ADMIN を持つプロセス) は SO_RCVBUF と同じことを実行できる。 ただし、上限 rmem_max を上書きすることができる。
SO_RCVLOWATSO_SNDLOWAT
Specify the minimum number of bytes in the buffer until the socket layer will pass the data to the protocol ( SO_SNDLOWAT) or the user on receiving ( SO_RCVLOWAT). These two values are initialized to 1. SO_SNDLOWAT is not changeable on Linux (setsockopt(2) fails with the error ENOPROTOOPT). SO_RCVLOWAT is changeable only since Linux 2.4.
Before Linux 2.6.28 select(2), poll(2), and epoll(7) did not respect the SO_RCVLOWAT setting on Linux, and indicated a socket as readable when even a single byte of data was available. A subsequent read from the socket would then block until SO_RCVLOWAT bytes are available. Since Linux 2.6.28, select(2), poll(2), and epoll(7) indicate a socket as readable only if at least SO_RCVLOWAT bytes are available.
SO_RCVTIMEOSO_SNDTIMEO
送信・受信のタイムアウトを指定する。これを越えるとエラーを報告する。 引数は struct timeval である。 入出力関数がタイムアウト時間の間ブロックされ、かつデータの送信または 受信が行われていた場合は、転送されたデータ量が関数の返り値となる。 何もデータが転送されずにタイムアウトに達した場合は、 -1 を返し、 errnoEAGAINEWOULDBLOCKEINPROGRESS (connect(2) の場合) が設定され、 あたかもソケットに非ブロッキングが指定されたように見える。 タイムアウト値に (デフォルト値である) 0 に設定すると、 操作は決してタイムアウトしなくなる。 タイムアウトが影響を及ぼすのは、 ソケット I/O を実行するシステムコールだけ (例えば read(2), recvmsg(2), send(2), sendmsg(2)) である。 select(2), poll(2), epoll_wait(2) などにはタイムアウトは影響を及ぼさない。
SO_REUSEADDR
bind(2) コールに与えられたアドレスが正しいかを判断するルールで、 ローカルアドレスの再利用を可能にする。 つまり AF_INET ソケットなら、そのアドレスにバインドされたアクティブな listen 状態のソケットが存在しない限り、バインドが行える。 listen 状態のソケットがアドレス INADDR_ANY で特定のポートにバインドされている場合には、 このポートに対しては、どんなローカルアドレスでもバインドできない。 引数はブール整数のフラグである。
SO_REUSEPORT (Linux 3.9 以降)
Permits multiple AF_INET or AF_INET6 sockets to be bound to an identical socket address. This option must be set on each socket (including the first socket) prior to calling bind(2) on the socket. To prevent port hijacking, all of the processes binding to the same address must have the same effective UID. This option can be employed with both TCP and UDP sockets.
For TCP sockets, this option allows accept(2) load distribution in a multi-threaded server to be improved by using a distinct listener socket for each thread. This provides improved load distribution as compared to traditional techniques such using a single accept(2)ing thread that distributes connections, or having multiple threads that compete to accept(2) from the same socket.
For UDP sockets, the use of this option can provide better distribution of incoming datagrams to multiple processes (or threads) as compared to the traditional technique of having multiple processes compete to receive datagrams on the same socket.
SO_RXQ_OVFL (Linux 2.6.33 以降)
Indicates that an unsigned 32-bit value ancillary message (cmsg) should be attached to received skbs indicating the number of packets dropped by the socket since its creation.
SO_SELECT_ERR_QUEUE (Linux 3.10 以降)
When this option is set on a socket, an error condition on a socket causes notification not only via the exceptfds set of select(2). Similarly, poll(2) also returns a POLLPRI whenever an POLLERR event is returned.
Background: this option was added when waking up on an error condition occurred only via the readfds and writefds sets of select(2). The option was added to allow monitoring for error conditions via the exceptfds argument without simultaneously having to receive notifications (via readfds) for regular data that can be read from the socket. After changes in Linux 4.16, the use of this flag to achieve the desired notifications is no longer necessary. This option is nevertheless retained for backwards compatibility.
SO_SNDBUF
ソケットの送信バッファーの最大サイズを設定・取得する (バイト単位)。 setsockopt(2) を使って値が設定されたときに (管理オーバヘッド用の領域を確保するために) カーネルはこの値を 2倍し、 getsockopt(2) はこの 2倍された値を返す。 デフォルトの値は /proc/sys/net/core/wmem_default ファイルで設定され、許容される最大の値は /proc/sys/net/core/wmem_max ファイルで設定される。 このオプションの最小値は (2倍した値で) 2048 である。
SO_SNDBUFFORCE (Linux 2.6.14 以降)
このソケットオプションを使うと、特権プロセス ( CAP_NET_ADMIN を持つプロセス) は SO_SNDBUF と同じことを実行できる。 ただし、上限 wmem_max を上書きすることができる。
SO_TIMESTAMP
Enable or disable the receiving of the SO_TIMESTAMP control message. The timestamp control message is sent with level SOL_SOCKET and a cmsg_type of SCM_TIMESTAMP. The cmsg_data field is a struct timeval indicating the reception time of the last packet passed to the user in this call. See cmsg(3) for details on control messages.
SO_TIMESTAMPNS (Linux 2.6.22 以降)
Enable or disable the receiving of the SO_TIMESTAMPNS control message. The timestamp control message is sent with level SOL_SOCKET and a cmsg_type of SCM_TIMESTAMPNS. The cmsg_data field is a struct timespec indicating the reception time of the last packet passed to the user in this call. The clock used for the timestamp is CLOCK_REALTIME. See cmsg(3) for details on control messages.
A socket cannot mix SO_TIMESTAMP and SO_TIMESTAMPNS: the two modes are mutually exclusive.
SO_TYPE
ソケットのタイプを整数で取得する (例: SOCK_STREAM)。 このソケットオプションは読み出し専用である。
SO_BUSY_POLL (Linux 3.11 以降)
データがなかった際にブロッキング受信での busy polling のおおよその時間をマイクロ秒単位で設定する。 この値を増やすには CAP_NET_ADMIN ケーパビリティが必要である。 このオプションのデフォルト値は /proc/sys/net/core/busy_read で制御できる。
/proc/sys/net/core/busy_poll の値により、 SO_BUSY_POLL がセットされたソケットに対して select(2)poll(2) を行い、報告すべきイベントがない場合に、 select(2)poll(2) が busy polling をどのくらいの時間行うかが決まる。
どちらの場合も、busy polling は、そのソケットが最後にデータを受信したネットワークデバイスがこのオプションに対応している場合のみ行われる。
busy polling により遅延が改善されるはアプリケーションもあるが、 busy polling は CPU 使用率と電力使用量をともに増加させることになるので、使用する際は注意して行うこと。

シグナル

(ローカルもしくはリモート側で) 切断された 接続指向 (connection-oriented) のソケットに対して 書き込みを行うと、その書き込みを行ったプロセスに SIGPIPE が送られ、 EPIPE が返される。 write 呼び出しに MSG_NOSIGNAL フラグを指定していた場合はシグナルは送られない。
FIOSETOWN fcntl(2)SIOCSPGRP ioctl(2) をプロセスまたはプロセスグループに指定しておくと、 I/O イベントが起きたときに SIGIO が送られる。 poll(2)select(2) をシグナルハンドラー内で用いれば、どのソケットでイベントが起こったかを 知ることができる。 (Linux 2.2 における) 別の方法としては、 F_SETSIG fcntl(2) を用いてリアルタイムシグナルを設定するやり方もある。 リアルタイムシグナルのハンドラーは、 siginfo_tsi_fd フィールドにファイルディスクリプターが入った状態で呼び出される。 詳細は fcntl(2) を参照のこと。
状況によっては (例えば複数のプロセスが一つのソケットにアクセスしているなど)、 SIGIO の原因となった状態は、プロセスがそのシグナルへの対応を行ったときには 消えてしまっているかもしれない。 この場合は、プロセスは再び待つようにすべきである。 Linux は同じシグナルを後で再送するからである。

/proc インターフェース

core のソケットのネットワーキングパラメーターには、 /proc/sys/net/core/ ディレクトリ内のファイルを通してアクセスできる。
rmem_default
ソケットの受信バッファーサイズのデフォルト値 (バイト単位)。
rmem_max
SO_RCVBUF ソケットオプションを用いてユーザーが設定できる ソケットの受信バッファーサイズの最大値 (バイト単位)。
wmem_default
ソケットの送信バッファーサイズのデフォルト値 (バイト単位)。
wmem_max
SO_SNDBUF ソケットオプションを用いてユーザーが設定できる ソケットの送信バッファーサイズの最大値 (バイト単位)。
message_costmessage_burst
トークンバケットフィルターを設定する。 これは外部のネットワークイベントによって引き起こされた 負荷限界の警告メッセージに用いられる。
netdev_max_backlog
グローバルな入力キューにおける最大のパケット数。
optmem_max
ソケットあたりの、補助データ (ancillary data) とユーザー制御データ (iovecs のようなもの) との和の最大長。

ioctl

以下に示す操作には ioctl(2) を用いてアクセスできる。

error = ioctl(ip_socket, ioctl_type, &value_result);

SIOCGSTAMP
Return a struct timeval with the receive timestamp of the last packet passed to the user. This is useful for accurate round trip time measurements. See setitimer(2) for a description of struct timeval. This ioctl should be used only if the socket options SO_TIMESTAMP and SO_TIMESTAMPNS are not set on the socket. Otherwise, it returns the timestamp of the last packet that was received while SO_TIMESTAMP and SO_TIMESTAMPNS were not set, or it fails if no such packet has been received, (i.e., ioctl(2) returns -1 with errno set to ENOENT).
SIOCSPGRP
Set the process or process group that is to receive SIGIO or SIGURG signals when I/O becomes possible or urgent data is available. The argument is a pointer to a pid_t. For further details, see the description of F_SETOWN in fcntl(2).
FIOASYNC
O_ASYNC フラグを変更し、ソケットの非同期 (asynchronous) I/O モードを 有効/無効にする。非同期 I/O モードでは、 新しい I/O イベントが起きたときに、 SIGIO シグナルや F_SETSIG で設定されたシグナルセットが発行される。
引数はブール整数のフラグである。 (この操作は fcntl(2) を使って O_ASYNC フラグをセットするのと同じ意味である。)
SIOCGPGRP
SIGIOSIGURG を受信したカレントプロセスかプロセスグループを取得する。 ない場合は 0 が返る。
有効な fcntl(2) 操作:
FIOGETOWN
SIOCGPGRP ioctl(2) と同じ。
FIOSETOWN
SIOCSPGRP ioctl(2) と同じ。

バージョン

SO_BINDTODEVICE は Linux 2.0.30 で導入された。 SO_PASSCRED は Linux 2.2 で登場した。 /proc インターフェースは Linux 2.2 で導入された。 SO_RCVTIMEOSO_SNDTIMEO は Linux 2.3.41 以降でサポートされている。 それ以前は、タイムアウトはプロトコル固有の固定の設定値で、 読み書きをすることはできなかった。

注意

Linux は、送受信バッファーの半分を内部のカーネル構造体で用いると仮定している。 したがって、対応する /proc ファイルはネットワーク回線上での大きさの 2 倍になる。
Linux では、 SO_REUSEADDR オプションでポートの再利用が許可されるのは、 そのポートに対して bind(2) を前に実行したプログラムとそのポートを再利用 しようとするプログラムの両方で SO_REUSEADDR がセットされた場合のみである。 この動作は (FreeBSD などの) いくつかの実装とは異なる。これらでは、 後でポートを再利用しようとするプログラムで SO_REUSEADDR オプションをセットするだけでよい。 たいていはこの違いは見えない。なぜなら、例えばサーバプログラムは 常にこのオプションをセットするように設計されるからである。

関連項目

wireshark(1), bpf(2), connect(2), getsockopt(2), setsockopt(2), socket(2), pcap(3), address_families(7), capabilities(7), ddp(7), ip(7), ipv6(7), packet(7), tcp(7), udp(7), unix(7), tcpdump(8)

この文書について

この man ページは Linux man-pages プロジェクトのリリース 5.10 の一部である。プロジェクトの説明とバグ報告に関する情報は https://www.kernel.org/doc/man-pages/ に書かれている。