#define _GNU_SOURCE #include <sched.h> int clone(int (*fn)(void *), void *child_stack, int flags, void *arg, ... /* pid_t *pid, struct user_desc *tls, pid_t *ctid */ );
fork(2) とは異なり、これらのコールでは、子プロセス (child process) と呼び出し元のプロセスとが、メモリ空間、 ファイルディスクリプタのテーブル、シグナル・ハンドラのテーブルなどの 実行コンテキストの一部を共有できる。 (このマニュアルにおける「呼び出し元のプロセス」は、通常は 「親プロセス」と一致する。但し、後述の CLONE_PARENT の項も参照のこと)
clone() の主要な使用法はスレッド (threads) を実装することである: 一つのプログラムの中の複数のスレッドは共有されたメモリ空間で 同時に実行される。
clone() で子プロセスが作成された時に、作成された子プロセスは関数 fn(arg) を実行する。 (この点が fork(2) とは異なる。 fork(2) の場合、子プロセスは fork(2) が呼び出された場所から実行を続ける。) fn 引き数は、子プロセスが実行を始める時に子プロセスが呼び出す 関数へのポインタである。 arg 引き数はそのまま fn 関数へと渡される。
fn(arg) 関数が終了すると、子プロセスは終了する。 fn によって返された整数が子プロセスの終了コードとなる。 子プロセスは、 exit(2) を呼んで明示的に終了することもあるし、致命的なシグナルを受信した 場合に終了することもある。
child_stack 引き数は、子プロセスによって使用されるスタックの位置を指定する。 子プロセスと呼び出し元のプロセスはメモリを共有することがあるため、 子プロセスは呼び出し元のプロセスと同じスタックで実行することができない。 このため、呼び出し元のプロセスは子プロセスのスタックのためのメモリ空間を 用意して、この空間へのポインタを clone() へ渡さなければならない。 (HP PA プロセッサ以外の) Linux が動作する全てのプロセッサでは、 スタックは下方 (アドレスが小さい方向) へと伸びる。このため、普通は child_stack は子プロセスのスタックのために用意したメモリ空間の一番大きい アドレスを指すようにする。
flags の下位 1 バイトは子プロセスが死んだ場合に親プロセスへと送られる 終了シグナル (termination signal) の番号を指定する。このシグナルとして SIGCHLD 以外が指定された場合、親プロセスは、 wait(2) で子プロセスを待つ際に、オプションとして __WALL または __WCLONE を指定しなければならない。 どのシグナルも指定されなかった場合、子プロセスが終了した時に親プロセス にシグナルは送られない。
flags には、以下の定数のうち 0個以上をビット毎の論理和 (bitwise-or) をとったものを指定できる。これらの定数は呼び出し元のプロセスと 子プロセスの間で何を共有するかを指定する:
CLONE_PARENT が設定されていない場合、 (fork(2) と同様に) 呼び出し元のプロセスがその子供の親になる。
子供が終了した時にシグナルが送られるのは getppid(2) が返す親プロセスである点に注意すること。このため CLONE_PARENT が設定された場合、呼び出し元のプロセスではなく呼び出し元のプロセスの 親プロセスにシグナルが送られる。
CLONE_FS が設定されていない場合、子プロセスは、 clone() が実行された時点での、呼び出し元のプロセスのファイル・システム情報のコピーを 使用する。 これ以降は、呼び出し元のプロセスと子プロセスの一方が chroot(2), chdir(2), umask(2) を呼び出しても、もう一方のプロセスには影響を与えない。
CLONE_FILES が設定されていない場合、子プロセスは、 clone() が実行された時点で、呼び出し元のプロセスがオープンしている全ての ファイルディスクリプタのコピーを継承する (子プロセスの複製されたファイルディスクリプタは、 対応する呼び出し元のプロセスのファイルディスクリプタと 同じファイル記述 (open(2) 参照) を参照する)。 これ以降に、呼び出し元のプロセスと子プロセスの一方が ファイルディスクリプタの操作 (ファイルディスクリプタの オープン・クローズや、ファイルディスクリプタ・フラグの変更) を行っても、もう一方のプロセスには影響を与えない。
各々のプロセスは一つの名前空間中に存在する。プロセスの 名前空間 (namespace) は、そのプロセスから見えるファイル階層を表すデータ (mount の集合) である。 CLONE_NEWNS フラグがセットされずに fork(2) か clone(2) が呼ばれると、子プロセスは親プロセスと同じ名前空間に作成される。 システムコール mount(2)、 umount(2) が呼ばれると呼び出し元のプロセスの名前空間が変更され、この結果 呼び出し元のプロセスと同じ名前空間にいるプロセスはすべて影響を受けるが、 異なる名前空間にいるプロセスは影響を受けない。
CLONE_NEWNS フラグがセットされて clone(2) が呼ばれると、clone で作成された子プロセスは新しい名前空間で開始される。 新しい名前空間は親プロセスの名前空間のコピーで初期化される。
特権プロセス (CAP_SYS_ADMIN ケーパビリティを持つプロセス) のみが CLONE_NEWNS フラグを指定することができる。 一つの clone() 呼び出しで、 CLONE_NEWNS と CLONE_FS の両方を指定することはできない。
CLONE_SIGHAND が設定されていない場合、子プロセスは clone() が実行された時点での、呼び出し元のプロセスのシグナル・ハンドラの コピーを継承する。これ以降は、一方のプロセスが sigaction(2) を呼び出しても、もう一方のプロセスには影響を与えない。
Linux 2.6.0-test6 以降では、 CLONE_SIGHAND を指定する場合、 CLONE_VM も flags に含めなければならない。
CLONE_VFORK が設定されていない場合、 clone() 呼び出し後は、呼び出し元のプロセスと子プロセスの 両方がスケジュール対象となり、アプリケーションはこれらのプロセスの 実行順序に依存しないようにすべきである。
CLONE_VM が設定されていない場合、子プロセスは clone() が実行された時点での、親プロセスのメモリ空間をコピーした 別のメモリ空間で実行される。 一方のプロセスが行ったメモリへの書き込みや ファイルのマップ/アンマップは、 fork(2) の場合と同様、もう一方のプロセスには影響しない。
スレッド・グループは、 スレッド集合で一つの PID を共有するという POSIX スレッドの概念をサポートするために Linux 2.4 に加えられた機能であった。 内部的には、この共有 PID はいわゆるそのスレッドグループの スレッド・グループ識別子 (TGID) である。 Linux 2.4 以降では、 getpid(2) の呼び出しではそのプロセスのスレッド・グループ ID を返す。
あるグループに属するスレッドは (システム全体で) 一意なスレッド ID (TID) で区別できる。新しいスレッドの TID は clone() の呼び出し元へ関数の結果として返され、 スレッドは自分自身の TID を gettid(2) で取得できる。
CLONE_THREAD を指定せずに clone() の呼び出しが行われると、 生成されたスレッドはそのスレッドの TID と同じ値の TGID を持つ 新しいスレッド・グループに置かれる。このスレッドは 新しいスレッド・グループの「リーダー」である。
CLONE_THREAD を指定して作成された新しいスレッドは、 (CLONE_PARENT の場合と同様に) clone() を呼び出し元と同じ親プロセスを持つ。 そのため、 getppid(2) を呼ぶと、一つのスレッド・グループに属すスレッドは全て同じ値を返す。 CLONE_THREAD で作られたスレッドが終了した際に、 そのスレッドを clone(2) を使って生成したスレッドには SIGCHLD (もしくは他の終了シグナル) は送信されない。 また、 wait(2) を使って終了したスレッドの状態を取得することもできない (そのようなスレッドは detached (分離された) といわれる)。
スレッド・グループに属す全てのスレッドが終了した後、 そのスレッド・グループの親プロセスに SIGCHLD (もしくは他の終了シグナル) が送られる。
スレッド・グループに属すいずれかのスレッドが execve(2) を実行すると、スレッド・グループ・リーダー以外の全てのスレッドは 終了され、新しいプロセスがそのスレッド・グループ・リーダーの下で 実行される。
スレッド・グループに属すスレッドの一つが fork(2) を使って子プロセスを作成した場合、 スレッド・グループのどのスレッドであっても その子供を wait(2) できる。
Linux 2.5.35 以降では、 CLONE_THREAD を指定する場合、 flags に CLONE_SIGHAND も含まれていなければならない。
kill(2) を使ってスレッド・グループ全体 (つまり TGID) にシグナルを送ることもできれば、 tgkill(2) を使って特定のスレッド (つまり TID) にシグナルを送ることもできる。
シグナルの配送と処理はプロセス全体に影響する: ハンドラを設定していないシグナルがあるスレッドに配送されると、 そのシグナルはスレッド・グループの全メンバーに影響を及ぼす (終了したり、停止したり、動作を継続したり、無視されたりする)。
各々のスレッドは独自のシグナルマスクを持っており、 sigprocmask(2) で設定できる。 だが、処理待ちのシグナルには、 kill(2) で送信されるプロセス全体に対するもの (つまり、スレッド・グループの どのメンバーにも配送できるもの) と、 tgkill(2) で送信される個々のスレッドに対するものがありえる。 sigpending(2) を呼び出すと、プロセス全体に対する処理待ちシグナルと呼び出し元の スレッドに対する処理待ちシグナルを結合したシグナル集合が返される。
kill(2) を使ってスレッド・グループにシグナルが送られた場合で、 そのスレッド・グループがそのシグナルに対するシグナル・ハンドラが 登録されていたときには、シグナル・ハンドラはスレッド・グループの メンバーのうち、ただ一つのスレッドでだけ起動される。ハンドラが 起動されるスレッドは、そのシグナルを禁止 (block) していない メンバーの中から一つだけが勝手に (arbitrarily) 選ばれる。 スレッド・グループに属す複数のスレッドが sigwaitinfo(2) を使って同じシグナルを待っている場合、 これらのスレッドの中から一つをカーネルが勝手に選択し、 そのスレッドが kill (2) を使って送信されたシグナルを受信する。
sys_clone のもう一つの違いは、 child_stack 引き数がゼロでも良いことである。この場合には、どちらかのプロセスが スタックを変更した時に、書き込み時コピー (copy-on-write) 方式により 子プロセスがスタック・ページの独立したコピーを得られることが保証される。 この場合、正常に動作させるためには、 CLONE_VM オプションを指定してはならない。
Linux 2.5.49 以降では、 sys_clone システムコールは 5つの引き数をとる。 新たに追加された 2つの引き数は、 parent_tidptr と child_tidptr である。 parent_tidptr は、 CLONE_PARENT_SETTID が指定された場合に、子プロセスのスレッドIDが 書き込まれる (親プロセスと子プロセスのメモリ内の) 場所を指す。 child_tidptr は、 CLONE_CHILD_SETTID が指定された場合に、子プロセスのスレッドIDが 書き込まれる (子プロセスのメモリ内の) 場所を指す。
CLONE_DETACHED というフラグが、2.5.32 で導入されて以来しばらくの間存在した。 このフラグは親プロセスが子プロセス終了のシグナルを必要としないことを 表すものである。 2.6.2 で、 CLONE_DETATCHED を CLONE_THREAD と一緒に指定する必要はなくなった。 このフラグはまだ定義されているが、何の効果もない。
x86 上では、 clone() は vsyscall 経由ではなく、直接 int $0x80 経由で呼び出すべきである。
ia64 では、別のシステムコールが使用される:
int __clone2(int (*fn)(void *), void *child_stack_base, size_t stack_size, int flags, void *arg, ... /* pid_t *pid, struct user_desc *tls, pid_t *ctid */ );
__clone2() システムコールは clone() と同じように動作するが、以下の点が異なる: child_stack_base は子プロセスのスタックエリアの最小のアドレスを指し、 stack_size は child_stack_base が指し示すスタックエリアの大きさを示す。
#include <syscall.h> pid_t mypid; mypid = syscall(SYS_getpid);