UCS は現実的に知られている全ての言語を表現するのに必要な文字を含んでいる。 これにはラテン文字、ギリシャ文字、キリル文字、ヘブライ文字、アラビア文字、 アルメニア文字、グルジア文字だけでなく、中国・日本・韓国で使われている漢字、 さらには、平仮名、片仮名、ハングル文字、 デーヴァナーガリー文字、ベンガル文字、グルムキー文字、グジャラート文字、 オリヤー文字、タミール文字、テルグ文字、カナラ文字、マラヤーラム文字、 タイ文字、ラオス文字、クメール文字、ボポモフォ文字 (注音字母)、 チベット文字、ルーン文字、エチオピア文字、カナダ音節文字、 チェロキー文字、モンゴル文字、 オガム文字、ミャンマー文字、シンハラ文字、 ターナ文字、イ (彝) 文字などが含まれる。 まだカバーされていない文字に付いても、 コンピュータで使用するために どのようなエンコードがもっとも良いかという研究が進められており、 最終的には追加されるだろう。 ヒエログリフや歴史的ないろいろなインド=ヨーロッパ言語だけでなく、 テングワール文字、キアス文字、クリンゴン文字などの人工的な言語も選ばれている。 UCS は、これらの文字に加えて、TeX, PostScript, APL, MS-DOS, MS-Windows, Macintosh, OCR フォント、数多くのワードプロセッサーや 出版システム、などが提供する 図形記号・印字記号・数学記号・科学記号などの多くを含むようになった。
UCS 規格 (ISO 10646) は 31ビットの文字集合アーキテクチャー を記述しており、128 個の 24 ビット 群 (group) から構成されている。 各群は 256 個の 16 ビット 面 (plane) に分割されており、各文字は 256 個の 8 ビット 区 (row) の 256 点 (column) の中に位置する。 この規格の Part 1 (ISO 10646-1) では、最初の 65534 個のコード位置 (0x0000 〜 0xfffd) を定義している。 これは第 0 群の第 0 面である 基本多言語面 (Basic Multilingual Plane (BMP)) を構成する。 この規格の Part 2 (ISO 10646-2) では、第 0 群の BMP の外部である 0x10000 〜 0x10ffff の範囲にある 補助面 に文字を追加した。 この規格では 0x10ffff を越えた位置に文字を追加する予定はないので、 予想できる将来においては、 全コード空間のうちグループ 0 の一部分は実際には使われることはない。 BMP には他の文字集合で一般に使われる全ての文字が含まれている。 ISO 10646-2 で追加された補助面は、 特定の科学分野・辞書出版・印刷産業・高次プロトコル・ 何かのファンの間などで使われる特殊な文字だけをカバーする。
UCS 文字を 2 バイトのワードで表現するのが UCS-2 形式である (BMP 文字のみ)。 また、 UCS-4 では文字を 4 バイトのワードで表現する。 さらに、ASCII を処理するソフトウェアへの下位互換のために UTF-8 エンコード形式がある。 また、0x10ffff までの非 BMP 文字を扱う UCS-2 対応ソフトウェアとの互換のために UTF-16 エンコード形式がある。
UCS 文字集合の 0x0000 から 0x007f は、古典的な US-ASCII 文字集合の文字と同じである。 また 0x0000 から 0x00ff の範囲では、 ISO 8859-1 Latin-1 文字集合の文字と同じである。
合成文字は、タイ文字や数学植字のエンコード・ 国際音声字母を使うユーザーなどには必須である。
ユニコード・コンソーシアム (Unicode Consortium) から発行された Unicode 3.0 Standard は、ISO 10646-1:2000 に記述された UCS Basic Multilingual Plane の level 3 実装と全く同じである。 Unicode 3.1 では ISO 10646-2 の補助面が追加されている。 Unicode Consortium から発行される Unicode 規格と技術レポートにより、 いろいろな文字の意味と推奨される使用法についての更なる情報が得られる。 これらの規格書や技術レポートで、Unicode 文字列を 編集・並べ替え・比較・正規化・変換・表示するための ガイドラインとアルゴリズムが分かる。
ASCII 互換の UTF-8 マルチバイトエンコードでは、入出力ストリーム・端末通信・ プレーンテキストファイル・ファイル名・環境変数において、 UCS/Unicode を ASCII のように使うことができる。 UTF-8 を文字エンコードとして使うことを 全てのアプリケーションに知らせるためには、 ("LANG=en_GB.UTF-8" のように) 環境変数を使って適切な ロケール (locale) を選択しなければならない。
nl_langinfo(CODESET) 関数は選択されたエンコードの名前を返す。 内部的な wchar_t 文字や文字列をシステム文字列エンコードに変換 (逆変換) するのに使われる wctomb(3) や mbsrtowcs(3)、 さらには wcwidth(3) といったライブラリ関数は、 文字出力でどれだけカーソルが進んだか (0-2) を返す。
一般的に言うと、Linux では現在のところ BMP の level 1 実装のみを使うべきである。 ある言語の文字 (とくにタイ文字) では、 ベース文字当たり 2 つまでの合成文字を使うことが UTF-8 端末エミュレータと ISO 10646 フォント (level 2) でサポートされている。 しかし一般的に言えば、もし可能ならばあらかじめ合成した文字を使うべきである (Unicode では、これを Normalization Form C (合成文字の正規化形式) という)。
これは UCS の公式な仕様である。 http://www.iso.ch/ から注文できる CD-ROM で PDF ファイルとして入手できる。
C プログラム言語についてのとても良い参考書である。 第四版では、ワイド文字やマルチバイト文字エンコードを扱うための 多くの新しい C ライブラリ関数が 加えられた ISO C 90 規格の 1994 Amendment 1 をカバーしている。 しかし、ワイド文字やマルチバイト文字のサポートを 更に改善した ISO C 99 は、まだカバーしていない。
linux-utf8 メーリングリストを購読するための情報がある。 Linux で Unicode を使う場合のアドバイスを探すのに一番良い場所である。