テキスト
歴史

メインメニューを開くUnicode曖昧さ回避「サロゲート」はこの項目

メインメニューを開く

Unicode
曖昧さ回避「サロゲート」はこの項目へ転送されています。2009年の映画については「サロゲート (映画)」をご覧ください。
この項目には、JIS X 0213:2004 で規定されている文字が含まれています（詳細）。
Unicode logo.svg
Unicode（ユニコード）とは、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。

1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね[1]互換のISO/IEC 10646が制定された。

概要
Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、Mac OS X、Plan 9[2]、Javaなどで利用されている。

Unicodeでは、文字集合中の文字をあらわす符号位置（コードポイント、符号点を参照）に、「Unicodeスカラ値」という非負整数値が割り振られている。Unicodeスカラ値は "U+" の後に十六進法でその値を続けることで表す。BMP（Basic Multilingual Plane, 基本多言語面）内の符号位置は U+0000 〜 U+FFFF の4桁で表すことができ、SMP（Supplementary Multilingual Plane, 追加多言語面もしくは補助多言語面）以降は5桁または6桁を必要とする。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初より JIS X 0201、JIS X 0208 と補助漢字を、Unicode 3.1 では JIS X 0213 の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国、日本、韓国の各規格の漢字を統合（英語版）しCJK統合漢字としたことは大きな議論となった。

Unicodeでは文字符号化方式も標準化したため、従来見られたShift JISとEUC-JPとの間の混乱のようなものは回避されている。

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換（ラウンドトリップ変換）において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在したり、Shift JISの実態であるCP932やEUC-JPの亜種であるCP51932とeucJP-MSなど、対応が違うために文字化けを起こすことがある。

文字集合
Unicodeに収録されている文字については、下に記載した#一覧の「コード順分類一覧」を参照。

文字符号化スキーム
「ISO/IEC 10646#文字符号化方式」も参照
Unicodeでは文字符号化方式を「文字符号化スキーム」(Character Encoding Scheme) と言う。

UTF-7
詳細は「UTF-7」を参照
UTF-16（後述）で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化スキームを行う。RFC 2152で定められており、Unicode標準及びUnicodeの関連仕様には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。
UTF-8
詳細は「UTF-8」を参照
可変長（1-4バイト）の8ビット符号単位で表現する文字符号化形式及び文字符号化スキーム。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化スキームやUTF-32符号化スキームとの変換・逆変換に際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。
UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF（U+FEFFのUTF-8での表現）の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと（日本語版の場合）Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
UTF-16
詳細は「UTF-16」を参照
BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア（代用対）という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。
UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF, 0xFEならリトルエンディアン、0xFE, 0xFFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BE、リトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている（→ エンディアン）。
UTF-32
詳細は「UTF-32」を参照
Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット（Unicodeの符号空間がU+10FFFFまでであるため）。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため（全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる）使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものが存在する。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式（あるいはUCS-4）で扱うこともある。
UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF, 0xFE, 0x00, 0x00ならリトルエンディアン、0x00, 0x00, 0xFE, 0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。

UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット（オクテット）ではなく9ビット（ノネット）であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ（PDP-10やACOS-6など）であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面を余った2ビットで識別するため、代用符号位置は使わない。
以下はドラフト段階で破棄された規格案。

UTF-5
国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長コード（1-5バイト）の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。
拡張領域
サロゲートペア
1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 65,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としたシステム（たとえばJavaのchar型）をなるべくそのままに、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペアは16ビットUnicodeの領域1024文字分を2つ使い（前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF）、各々1個ずつからなるペアで1024 × 1024 = 1,048,576文字を表す。これは丁度16面ぶんであり、第1面〜第16面（U+10000 〜 U+10FFFF）の文字をこれで表すこととした。加えて第0面（基本多言語面）も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字ぶんの空間が確保されたことになる。

サロゲートはUnicodeの符号位置の U+10000..U+10FFFF の範囲を16ビットユニットのペア（2つ）で表現する集合で、最初の16ビットユニットは high surrogate で、二番目は low surrogate となる。high surrogates は U+D800..U+DBFF の範囲、low surrogates は U+DC00..U+DFFF の範囲である。

サロゲートのエンコーディングは、

$hi = ($uni - 0x10000) / 0x400 + 0xD800;
$lo = ($un

メインメニューを開く

Unicode
曖昧さ回避 「サロゲート」はこの項目へ転送されています。2009年の映画については「サロゲート (映画)」をご覧ください。
この項目には、JIS X 0213:2004 で規定されている文字が含まれています（詳細）。
Unicode logo.svg
Unicode（ユニコード）とは、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。

1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね[1]互換のISO/IEC 10646が制定された。

概要
Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、Mac OS X、Plan 9[2]、Javaなどで利用されている。

Unicodeでは、文字集合中の文字をあらわす符号位置（コードポイント、符号点を参照）に、「Unicodeスカラ値」という非負整数値が割り振られている。Unicodeスカラ値は "U+" の後に十六進法でその値を続けることで表す。BMP（Basic Multilingual Plane, 基本多言語面）内の符号位置は U+0000 〜 U+FFFF の4桁で表すことができ、SMP（Supplementary Multilingual Plane, 追加多言語面もしくは補助多言語面）以降は5桁または6桁を必要とする。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初より JIS X 0201、JIS X 0208 と補助漢字を、Unicode 3.1 では JIS X 0213 の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国、日本、韓国の各規格の漢字を統合（英語版）しCJK統合漢字としたことは大きな議論となった。

Unicodeでは文字符号化方式も標準化したため、従来見られたShift JISとEUC-JPとの間の混乱のようなものは回避されている。

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換（ラウンドトリップ変換）において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在したり、Shift JISの実態であるCP932やEUC-JPの亜種であるCP51932とeucJP-MSなど、対応が違うために文字化けを起こすことがある。

文字集合
Unicodeに収録されている文字については、下に記載した#一覧の「コード順分類一覧」を参照。

文字符号化スキーム
「ISO/IEC 10646#文字符号化方式」も参照
Unicodeでは文字符号化方式を「文字符号化スキーム」(Character Encoding Scheme) と言う。

UTF-7
詳細は「UTF-7」を参照
UTF-16（後述）で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化スキームを行う。RFC 2152で定められており、Unicode標準及びUnicodeの関連仕様には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。
UTF-8
詳細は「UTF-8」を参照
可変長（1-4バイト）の8ビット符号単位で表現する文字符号化形式及び文字符号化スキーム。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化スキームやUTF-32符号化スキームとの変換・逆変換に際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。
UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF（U+FEFFのUTF-8での表現）の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと（日本語版の場合）Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
UTF-16
詳細は「UTF-16」を参照
BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア（代用対）という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。
UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF, 0xFEならリトルエンディアン、0xFE, 0xFFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BE、リトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている（→ エンディアン）。
UTF-32
詳細は「UTF-32」を参照
Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット（Unicodeの符号空間がU+10FFFFまでであるため）。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため（全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる）使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものが存在する。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式（あるいはUCS-4）で扱うこともある。
UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF, 0xFE, 0x00, 0x00ならリトルエンディアン、0x00, 0x00, 0xFE, 0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。

UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット（オクテット）ではなく9ビット（ノネット）であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ（PDP-10やACOS-6など）であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面を余った2ビットで識別するため、代用符号位置は使わない。
以下はドラフト段階で破棄された規格案。

UTF-5
国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長コード（1-5バイト）の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。
拡張領域
サロゲートペア 
1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 65,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としたシステム（たとえばJavaのchar型）をなるべくそのままに、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペアは16ビットUnicodeの領域1024文字分を2つ使い（前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF）、各々1個ずつからなるペアで1024 × 1024 = 1,048,576文字を表す。これは丁度16面ぶんであり、第1面〜第16面（U+10000 〜 U+10FFFF）の文字をこれで表すこととした。加えて第0面（基本多言語面）も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字ぶんの空間が確保されたことになる。

サロゲートはUnicodeの符号位置の U+10000..U+10FFFF の範囲を16ビットユニットのペア（2つ）で表現する集合で、最初の16ビットユニットは high surrogate で、二番目は low surrogate となる。high surrogates は U+D800..U+DBFF の範囲、low surrogates は U+DC00..U+DFFF の範囲である。

サロゲートのエンコーディングは、

$hi = ($uni - 0x10000) / 0x400 + 0xD800;
 $lo = ($un

0/5000

ソース言語: -

ターゲット言語: -

結果 (アラビア語) 1: [コピー]

コピーしました！

لفتح القائمة الرئيسيةيونيكودتوضيح "الأمهات البديلات" قد أحيل إلى هذا البند. مشاهدة فيلم 2009 الأمهات البديلات (فيلم).هذا البند، JIS X 0213: تتضمن الأحرف المذكورة في عام 2004 (مزيد من المعلومات).Unicode logo.svgضمن مجموعة الأحرف Unicode (Unicode) التي ترميز مجموعة الأحرف وحرف الترميز المخطط، مثل معيار الصناعة. تميزت بمجموعات كبيرة من الأحرف في مجموعة أحرف واحدة (charset) (اسم "يوني" مشتق من ذلك)، إلخ.تم إنشاؤها بواسطة Unicode Consortium وتنادي بمحطة "ستار زيروكس" اليابان (J نجوم) على سبيل المثال، تم في الثمانينات، ومايكروسوفت، أبل، وشركة أي بي أم، Sun Microsystems، هيوليت باكارد، JustSystems، ستشارك. المباراة في عام 1993، وضع معيار دولي، ديس 10646 قد تغيرت إلى حد كبير من الأولى سنت عموما [1] متوافق مع ISO/IEC 10646 و Unicode.نظرة عامةمع فكرة محاولة Unicode تعيين كافة الأحرف في العالم التي أتيحت في الحرف المشتركة، المستخدمة في يونيكس، ويندوز، Mac OS X، وخطة 9 [2]، جافا، إلخ.نقطة رمز Unicode عددا صحيحاً غير سالب تمثل الأحرف في مجموعة الأحرف، (انظر التعليمات البرمجية يشير، التعليمات البرمجية) إلى Unicode هي تنسب القيم العددية. ويمثل قيمة Unicode مفردة "U +" متبوعة قيمة 16. نقاط الرمز في BMP (طائرة متعدد اللغات الأساسية، طائرة متعدد اللغات الأساسية) U + 0000، يمكن أن تكون ممثلة بأربعة أرقام من U + FFFF و SMP (طائرة متعدد اللغات التكميلية، مشيراً إلى طائرة متعددة اللغات أو تكميليا طائرة متعددة اللغات) منذ 5 أو 6 أرقام المطلوبة.يتم تعريف الأحرف كمعيار في مجموعات الأحرف الدولية والأحرف حقاً، باللجنة بالتحديد. حول طبيعة اليابان منذ JIS X 0201، JIS X 0208 وكانجي التكميلية في محتويات Unicode 3.1 JIS X 0213 تشمل واحدة.أيضا باتخاذ السياسات تم تعيينها إلى نفس المواقف تعتبر احترام مختلف يتم فصل الرسالة في دفتر اليومية بكل حرف في مجموعة الأحرف الأصلية يحتوي على أحرف من نفس. لأن هذا المجموعة ضخمة في المعايير المتكاملة الصينية من الصين واليابان وكوريا على كانجي (النسخة الإنكليزية) و CJK الموحدة إيديوغرام أصبح نقاشاً كبيرا.الخلط بين المشاهدة سابقا للتوحيد في حرف Unicode ترميز JIS Shift، EUC-جي بي وأن كان تجنبها.إمكانية التشغيل المتداخل مع كبار السن رمز حرف Unicode، يجري النظر في بعض التاريخ هناك أحرف حيث أنه غالباً ما تتطلب تحديد من التوافق أكثر واتخذت المنطقة ← مصدر التعليمات البرمجية ← رمز Unicode وفقا للمصدر التحول (ترجمة ذهابا وإيابا)، العودة إلى الوراء. ومع ذلك، قد يتسبب أحرف مشوشة للاحتياجات المختلفة، مثل مرض التصلب العصبي المتعدد--يوكجب و CP51932 CP932 أو خلط مجموعات أحرف متعددة في داخل نطاق X JIS 0208 حقيقية إذا كان أقل من المتاعب، Shift JIS و EUC-جي بي.مجموعة الأحرفوصف تحت # قائمة "قائمة النظام" مرجع أحرف Unicode.نظام ترميز الأحرفكما ترى "ISO/IEC 10646 # أحرف مخطط الترميز"في مخطط الترميز Unicode حرف يسمى حرف ترميز المخططات (نظام ترميز الأحرف).UTF-7لمزيد من المعلومات، راجع [UTF-7]الترميز، والذي يمثل base64 تحويل Unicode UTF-16 (انظر أدناه). القيام به، ومع ذلك، لا تقم بتحويل الأبجدية Base64 النطاق ASCII فيما يتعلق بنظام ترميز خاص. يتم توفيرها في RFC 2152، لم تدرج في معيار Unicode والمواصفات المتعلقة ب Unicode. تتوقع لاستخدام، وليس البيانات في 7 بتات فقط، لذا، مرة اتصال SMTP، قد بذلت. سبب جليل الترميز، وهناك مسائل تنفيذية، لا ينصح بهذا الأسلوب من الحالي. يفضل أن يكون ذلك، مثل Unicode أحرف 7 بت وحدة يجب أن تذهب من خلال انتقال الاتصالات بجميع الوسائل، بدلاً من إلى UTF-8 في quoted-للطباعة أو Base64.UTF-8للحصول على مزيد من المعلومات راجع "UTF-8"حرف ترميز في وحدات التعليمات البرمجية 8 بت من طول متغير (1-4 بايت) ونظام ترميز أحرف. مع ميزات مثل أما ASCII ومتوافق مع حدود الحرف الذي لا مكلفة، مثل الضرب، وتجهيز المطلوب عند التحويل من نظام ترميز UTF-16، ومخطط الترميز UTF-32 والعكس بالعكس، والذي الأكثر عموما المتاحة على شبكة الإنترنت.UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF（U+FEFFのUTF-8での表現）の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと（日本語版の場合）Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。UTF-16詳細は「UTF-16」を参照BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア（代用対）という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF, 0xFEならリトルエンディアン、0xFE, 0xFFならビッグエンディアンとして後に続く文書を処理する。RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BE、リトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている（→ エンディアン）。UTF-32詳細は「UTF-32」を参照Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット（Unicodeの符号空間がU+10FFFFまでであるため）。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない（ZERO WIDTH NON-BREAKING SPACEとして扱う）。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため（全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる）使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものが存在する。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式（あるいはUCS-4）で扱うこともある。UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF, 0xFE, 0x00, 0x00ならリトルエンディアン、0x00, 0x00, 0xFE, 0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。UTF-9可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット（オクテット）ではなく9ビット（ノネット）であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ（PDP-10やACOS-6など）であれば計算コストも低い。UTF-18Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面を余った2ビットで識別するため、代用符号位置は使わない。以下はドラフト段階で破棄された規格案。UTF-5国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。UTF-9可変長コード（1-5バイト）の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。拡張領域サロゲートペア 1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 65,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としたシステム（たとえばJavaのchar型）をなるべくそのままに、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。
サロゲートペアは16ビットUnicodeの領域1024文字分を2つ使い（前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF）、各々1個ずつからなるペアで1024 × 1024 = 1,048,576文字を表す。これは丁度16面ぶんであり、第1面〜第16面（U+10000 〜 U+10FFFF）の文字をこれで表すこととした。加えて第0面（基本多言語面）も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字ぶんの空間が確保されたことになる。

サロゲートはUnicodeの符号位置の U+10000..U+10FFFF の範囲を16ビットユニットのペア（2つ）で表現する集合で、最初の16ビットユニットは high surrogate で、二番目は low surrogate となる。high surrogates は U+D800..U+DBFF の範囲、low surrogates は U+DC00..U+DFFF の範囲である。

サロゲートのエンコーディングは、

$hi = ($uni - 0x10000) / 0x400 + 0xD800;
$lo = ($un

翻訳されて、しばらくお待ちください..

結果 (アラビア語) 2:[コピー]

コピーしました！

لفتح القائمة الرئيسية يونيكود تجنب الغموض "بديل" تم نقلها إلى هذا البند. يرجى الرجوع إلى "بديل (فيلم)" للفيلم 2009. في هذا المجال، JIS X 0213: يحتوي على أحرف التي تم تعريفها في عام 2004 (التفاصيل). يونيكود logo.svg يونيكود (يونيكود)، الذي يعرف وترميز مجموعة أحرف وترميز الأحرف، وهو معيار الصناعة من رمز الحرف. أن مجموعة الأحرف (مجموعة الأحرف) هو مجموعة أحرف واسعة النطاق واحد (يسمى "يوني" مشتق من ذلك) هي ميزة مثل. في 1980s، دعا اليابانية من محطة ستار (J-ستار) شركة زيروكس أن كان مثل، مايكروسوفت، وأبل، آي بي إم، شركة صن مايكروسيستمز وهيوليت باكارد، من قبل اتحاد يونيكود، مثل المشاركة JUSTSYSTEM للعمل كان عليه. في عام 1993، بما يتفق مع المعايير الدولية يتحقق، يتم تغييره بشكل كبير عن الاقتراح الأصلي للDIS 10646، يونيكود وعموما [1] صدر متوافق ISO / IEC 10646. لمحة يرصد Unicode في فكرة تحاول أن تكون قادرا على استخدام كل من الأحرف التي يتم استخدامها في العالم من خلال مجموعة أحرف المشترك، ويونيكس، ويندوز، ماك OS X، خطة 9 [2]، وتستخدم في مثل جافا. في Unicode، نقطة رمز يمثل الحرف في مجموعة (نقطة الرمز، في اشارة الى نقطة رمز)، قيمة عدد صحيح غير سالب "القيمة العددية يونيكود" تم تخصيص. يتم التعبير عن يونيكود القيمة العددية من خلال الاستمرار القيمة في عرافة تليها "U +". BMP (الأساسية طائرة متعددة اللغات، والأساسية طائرة متعددة اللغات) موقف التعليمات البرمجية في أن تكون ممثلة من قبل أربعة أرقام من U + 0000 ~ U + FFFF، SMP (التكميلي طائرة متعددي اللغات، مضيفا طائرة متعددة اللغات أو طائرة متعددة اللغات المساعدة) أو في وقت لاحق فإنه يحتاج خمسة أو ستة أرقام. من الذي كان شخصية، الطعام المتوفر تم تعريف الأحرف التي تستخدم مجموعة أحرف وفعلا كمعيار في كل بلد، كان من خلال التدقيق من قبل اللجنة. وJIS X 0201، JIS X 0208 وكانجي المساعدة من محتويات البداية حول الأحرف اليابانية، وتسجل أيضا من يونيكود 3.1 في JIS X 0213. أيضا في التسجيل، تم تسجيل الأحرف التي تكون مفصولة الأصلي من كل حرف في المجموعة، ولكن باحترام، ما يعتبر نفس الحرف في مجموعة أحرف مختلفة، لديها سياسة التي تريد تعيين على وظيفة نفس رمز. على أساس أن مجموعة هائلة في هذه الحالة، لالأحرف الصينية، والصين، واليابان، ويجمع بين الطابع الصيني من كل معيار من كوريا (الإنجليزية) وكان أن لديها CJK الحروف الصينية الموحدة مناقشة كبيرة. تم ترتيب موحدة أيضا ترميز الأحرف في Unicode، تم تجنب مثل هذا الشيء من الارتباك بين JIS العالي وEUC-JP ينظر تقليديا. وكانت قابلية التشغيل البيني مع يونيكود رمز الحرف السابق أيضا إلى حد ما تؤخذ في الاعتبار، يؤخذ المنطقة متوافقة في حالة من التاريخ، ويلزم تقديم إثبات شخصية العملي، مثل أن الرمز الأصلي → → يونيكود تحويل الشفرة الأصلية ( ذهابا وإيابا في المحول)، وبعض الشخصيات التي تعتبر بحيث يعود لاستعادة. ومع ذلك، فإن مشكلة طالما أنه ضمن نطاق JIS الشرعي تختلط X 0208 هي مجموعات الأحرف الصغيرة، أو متعددة، هو نوع من أنواع CP932 وEUC-JP هو واقع التحول JIS مثل CP51932 وeucJP-MS، قد يسبب مشوه للالمقابلة مختلفة. مجموعة الأحرف عن الأحرف التي يتم تسجيلها في Unicode، انظر "النظام رمز قائمة الفئة" في القائمة # كما هو موضح أدناه. طابع الترميز مخطط "ISO / IEC 10646 ترميز # حرف" انظر أيضا للفي Unicode طريقة ترميز الأحرف التي أشرت إليها بأنها "نظام ترميز حرف" (الطابع نظام ترميز). UTF-7 تفاصيل "UTF-7" إشارة مخطط الترميز لتمثيل تحويل أعرب Unicode في UTF-16 (انظر أدناه) في base64 في. ومع ذلك، هذا لا يتم تحويل إلى base64 في لمجموعة أبجدية مثل ASCII، وينفذ مخطط ترميز خاص. ويتم تعريفها في RFC 2152، لا يتم تضمينه في معيار يونيكود والمواصفات الخاصة يونيكود. مرة واحدة مثل SMTP، وما إلى ذلك، ويتم ذلك عن طريق افتراض حالة استخدام نظام الاتصالات لا يمكن التعامل مع البيانات بت سبعة فقط. وهو ترميز جليل، لأن مشاكل تشغيلية في كثير من الأحيان، لا ينصح هذه الطريقة في الوقت الحاضر. إذا كانت أحرف Unicode في 7 بت الاتصالات انتقال وحدة يجب أن يكون على الاطلاق من خلال النظام، مثل لتحويل UTF-8 في المكان في مقتبسة للطباعة أو يفضل base64 في. UTF-8 لمزيد من المعلومات انظر "UTF-8" شكل ترميز الأحرف لتمثيل رمز وحدة 8 بت من طول متغير (1-4 بايت) ونظام ترميز الأحرف. فقد أصبح العليا متوافقة مع ASCII، حدود الحرف هو واضح، لا يوجد تحميل ضرورة معالجة عالية، مثل الضرب والقسمة عندما UTF-16 نظام ترميز أو UTF-32 التحويل والتحويل العكسي من نظام الترميز لديها ميزات مثل، هو الأكثر شيوعا المتاحة في الإنترنت. نظام الترميز UTF-8، اليابان العلامة الوحيد بايت النظام (BOM) UTF-8 ما هو على ذلك، فمن الممكن التمييز بين أولئك الذين لا تعلق كما UTF-8N والدولية غير معترف بها . أصلا لا يحتاج إلى 8 بت لنقل UTF-8 وBOM إلى رمز وحدة، ولكن لبداية تدفق البيانات وذلك لتحديد أنه هو UTF-8 في UTF-8 من EF BB BF (U + FEFF في بعض الأحيان يتم إعطاء تمثيل ثلاثة بايت). يتم تعيين BOM إلى "نص Unicode" التي تم إنشاؤها في المفكرة Windows. في Internet Explorer، في حين كنت مخطئا عندما قمت بتحميل وثيقة من UTF-8، والتي لا يملك BOM أنه (في حالة وجود الإصدار الياباني) Shift_JIS، كما لم يتم قبول بمثابة تطبيقات بيانات صالحة الحالي ويتم إرفاق BOM. وليس المقصود BOM من UTF-8 لتمثيل النظام البايت هو مجرد المشار الطريقة ولكن بسبب وجود تقليديا يشبه "BOM بالمعنى الحقيقي" في نظام الترميز UTF-16 أو ما شابه ذلك. UTF-16 للمزيد من المعلومات "UTF-16"، في إشارة واحدة حرف BMP وحدات رمز 16 بت، وغيرها من شكل ترميز الأحرف لتمثيل الأحرف في رمز وحدة 16 بت اثنين لاستخدام آلية تسمى أزواج بديلة (أزواج بديلة) ونظام ترميز الأحرف. ضمن OS مؤخرا مثل Windows XP، يتم استخدام تنسيق ترميز UTF-16. وهو متوافق مع مجموعة من UCS-2 على حد سواء BMP. في نظام الترميز UTF-16، يتم تطبيق علامة ترتيب بايت عادة (BOM) إلى الجزء العلوي من الملف. BOM والقراءة والكتابة البلاغ والملف هو علامة لتحديد ترتيب بايت في تجهيز وحدات 8 بت، ويتم تعيين لبداية تدفق البيانات. قيمة U + FEFF. بايت الأولين قراءتها من قبل النظام هو عشرية 0xFF، 0xFE إذا Endian طفيف، 0xFE، لمعالجة المستند الذي يلي endian كبيرة كما لو عشرية 0xFF. يحتوي UTF-16 وثيقة التي لا تعلق BOM في RFC 2781 ليتم تفسيره على أنه endian كبيرة. يعطى "نص Unicode" التي تم إنشاؤها في نظام التشغيل Windows المفكرة يتم تكييفها لBOM. نظام الترميز الكبيرة endian UTF-16BE، كما أن نميز بين أنظمة الترميز من endian قليلا كما UTF-16LE. لا يسمح لإضفاء BOM إذا تم تحديد نظام الترميز UTF-16BE وUTF-16LE من قبل وسائل مثل مجموعة من البروتوكولات أو التطبيقات (يعامل ZERO WIDTH NON-BREAKING SPACE). إذا كان "نص Unicode" هناك لم يتم تحديد خلاف ذلك في وثيقة ويندوز، فإنه يشير إلى نظام الترميز UTF-16 من Endian طفيف. إذا كانت الشبكة TCP / IP التي لا تمنح حتى BOM يتم تحديد مخطط لا ترميز بوسائل مثل رؤوس البروتوكول وMIME، وقد تقرر-endian كبيرة (→ endian). UTF-32 للمزيد من المعلومات "UTF-32" في اشارة الى الحرف الذي يمثله 32 بت جميع النقاط مدونة يونيكود كوحدة مدونة طول واحد تنسيق ترميز ومخطط ترميز الأحرف. استخدمت فعلا هو 21 بت (لمساحة مدونة يونيكود هو ما يصل الى U + 10FFFF). في نطاق هذا 21 بت هناك UCS-4 متوافق. ترميز UTF-32 كما في مخطط UTF-16 ترميز أيضا في المخططات، endian كبيرة وEndian طفيف موجودة، كل UTF-32BE، ويشار إليها باسم UTF-32LE. لا يسمح لإضفاء BOM إذا تم تحديد نظام الترميز UTF-32BE وUTF-32LE من قبل وسائل مثل مجموعة من البروتوكولات أو التطبيقات (يعامل ZERO WIDTH NON-BREAKING SPACE). على الرغم من أن نظام ترميز بسيط (وهو ضعف حجم مخطط الترميز UTF-16 إذا كان الحكم المؤلفة من الحروف في كل BMP) لأن حجم الملف يصبح كبير في هذا الملف النصي الذي يتم استخدامه بشكل غير منتظم هو. القراءة والكتابة "ملف نصي مشفرة" في هذا النظام أو Microsoft Office لا تتوافق حتى الآن لهذا المخطط الترميز. في أيضا في هذا المخطط ترميز عدد مجانية وبرنامج كومبيوتري كبير من محرر النص الذي المقابلة لنظام الترميز من وجود تلك التي لا تدعم. ولكن في حالة إجراء العملية التي يعالج كل يونيكود لأن أكثر أن جميع الشخصيات التي يمثلها رمز وحدة واحدة مناسبة للتجهيز، في إطار عملية معالجتها في تنسيق ترميز UTF-32 (أو UCS-4) كما أن لديها. ، يخضع UTF-16، مثل الترميز مخطط وكذلك هناك BOM في UTF-32 نظام ترميز لبداية تدفق البيانات. وحدات البايت الأربعة الأولى هي عشرية 0xFF، 0xFE، 0x00، 0x00 إذا Endian طفيف، 0x00، 0x00، 0xFE، يصبح عشرية 0xFF إذا endian كبيرة. endian قليلا وUTF-32 endian قليلا من UTF-16 للبايت الأولين سواسية، هناك حاجة لتحديد لقراءة ما يصل إلى 4 بايت. ما يلي هو RFC نكتة نشرت في يوم كذبة أبريل (RFC 4042). على الرغم من أن نفس اسم المعيار قد تم بالفعل يعتبر فيما يتعلق UTF-9، فإنه ليس نسخة مكررة لأنها دمرت في مرحلة الصياغة. UTF-9 نظام الترميز إلى أن يمثله رمز وحدة 9 بت من طول متغير. ومن المفترض 1 بايت لاستخدامها في بيئات مثل 8 بت (ثمانية) بدلا من 9 بت (Nonetto). بالمقارنة مع UTF-8، اللاتينية-1 المنطقة بايت واحد، هناك ميزة يمكن أن تكون ممثلة من قبل CJK الموحدة منطقة كانجي و2 بايت، يتم تقليل حجم البيانات. طول الكلمة هو أيضا التكلفة المنخفضة الحسابية طالما أنه هو من مضاعفات الرقم 9 الكمبيوتر (مثل PDP-10 وACOS-6). UTF-18 نظام ترميز لتمثيل نقطة رمز Unicode في واحدة على رمز وحدة 18 بت. انها مثل UTF-16 إلى UTF-8 ولكن، من أجل تحديد مع اثنين من بت خلفها أربعة أحرف الأسطح تم تعريفها في يونيكود RFC الوقت نشر نقاط رموز بديلة لا تستخدم. مشروع المواصفة القياسية التالية التي تم تدميرها في مشروع المرحلة. UTF-5 ويعتزم استخدامها في أسماء النطاقات الدولية، 0-9، والطابع نظام الترميز الذي يمثل AV من 32 حرفا. لأن يعمل بيونيكود في اسم النطاق الدولي لا يستخدم. UTF-9 شكل ترميز الأحرف أو نظام ترميز الأحرف لتمثيل وحدة رمز من 8 بت من التعليمات البرمجية طول متغير (1-5 بايت). وهو جزء متوافق مع ISO-8859-1. ومع ذلك، هناك بينما ينتشر UTF-8 معها بسبب عيوب كانت قليلة مقارنة، تم تجاهل ذلك. منطقة تمديد زوج مركب في مفهوم 1980s الأولية، يونيكود هو 16 بت طول ثابت، لتسجيل جميع الحروف المطلوبة ل216 = 65،536 نقطة رمز، كان التأمل. ومع ذلك، بعد نشر يونيكود 1.0، وجولة في الفضاء الحر 20 000 حرفا يستحق متدرجة، حدث طلب إضافي حرف من البلاد. محتويات الصين واليابان وتايوان وفيتنام وسنغافورة إضافية كانجي حوالي 10 005،000 حرفا، الهانغول القديم عن 5000 حرفا، هو شخصية وهلم جرا من لغة غير مسجلة. يونيكود وبهذه الطريقة، والخطة هي أن لتسجيل العالم كله من الأحرف في إطار 16 بت إلى الانهيار قبل الأوان، قررت أن توسيع بالفعل في ذلك الوقت من يونيكود 2.0 لعام 1996، ومساحة من مجموعة الأحرف من 16 بت كان عليه. في هذا الوقت، وترك النظام الذي يفترض وجود 16 بت حتى الآن (على سبيل المثال نوع شار جاوة) قدر الإمكان، كوسيلة من وسائل يمثل نقطة رمز في الفضاء موسع، ويعرف زوج مركب. أزواج بديلة منطقتين بقيمة 1024 حرفا من استخدام يونيكود 16 بت (النصف الأول من U + D800 ~ U + DBFF، في النصف الثاني من U + DC00 ~ U + DFFF)، كل 1024 × 1024 = 1،048،576 الشخصيات في أزواج تتكون من واحدا تلو الآخر تمثيل. هذا وكان بيان الجانب فقط 16 الوجه الأول لوجه السادس عشر شخصية (U + 10000 = U + 10FFFF) وتكون ممثلة من قبل هذا. وبالإضافة إلى ذلك أول طائرة 0 (الأساسية طائرة متعددة اللغات) وتتوفر أيضا، و1،048،576 + 65،536 في مجموعه إلى Unicode - يتم تأمين وسوف تكون مساحة من 2048 = 1110000 2064 حرف الجملة. البديل هو مجموعة تمثل زوج من وحدة 16 بت مجموعة من U + 10000..U + 10FFFF من نقاط رموز يونيكود (2 نجوم)، هي أول وحدة 16 بت في بديل عالية، والثاني هو بديل منخفض . وتتراوح بدائل عالية من U + D800..U + DBFF، بدائل منخفضة في النطاق من U + DC00..U + DFFF. بديل من الترميز، $ مرحبا = ($ يوني - 0x10000) / 0x400 + 0xD800؛ $ لو = ($ الامم المتحدة

翻訳されて、しばらくお待ちください..

結果 (アラビア語) 3:[コピー]

コピーしました！

لفتح القائمة الرئيسية

غموض Unicode تجنب "البديل" هذا البند قد تم إعادة توجيهها. لمزيد من المعلومات عن الفيلم في 2009 "البديل (فيلم). هذا البند هو الغربية ومازلوا يتبادلون X 0213:2004 المحدد يحتوي على ( المزيد من التفاصيل).
Unicode شعار " SVG
Unicode (UNICODE) Coded Character Set و ذات أنظمة الترميز، مثل معيار الصناعة على الكود.

翻訳されて、しばらくお待ちください..

他の言語

翻訳ツールのサポート: アイスランド語, アイルランド語, アゼルバイジャン語, アフリカーンス語, アムハラ語, アラビア語, アルバニア語, アルメニア語, イタリア語, イディッシュ語, イボ語, インドネシア語, ウイグル語, ウェールズ語, ウクライナ語, ウズベク語, ウルドゥ語, エストニア語, エスペラント語, オランダ語, オリヤ語, カザフ語, カタルーニャ語, カンナダ語, ガリシア語, キニヤルワンダ語, キルギス語, ギリシャ語, クメール語, クリンゴン, クルド語, クロアチア語, グジャラト語, コルシカ語, コーサ語, サモア語, ショナ語, シンド語, シンハラ語, ジャワ語, ジョージア（グルジア）語, スウェーデン語, スコットランドゲール語, スペイン語, スロバキア語, スロベニア語, スワヒリ語, スンダ語, ズールー語, セブアノ語, セルビア語, ソト語, ソマリ語, タイ語, タガログ語, タジク語, タタール語, タミル語, チェコ語, チェワ語, テルグ語, デンマーク語, トルクメン語, トルコ語, ドイツ語, ネパール語, ノルウェー語, ハイチ語, ハウサ語, ハワイ語, ハンガリー語, バスク語, パシュト語, パンジャブ語, ヒンディー語, フィンランド語, フランス語, フリジア語, ブルガリア語, ヘブライ語, ベトナム語, ベラルーシ語, ベンガル語, ペルシャ語, ボスニア語, ポルトガル語, ポーランド語, マオリ語, マケドニア語, マラガシ語, マラヤーラム語, マラーティー語, マルタ語, マレー語, ミャンマー語, モンゴル語, モン語, ヨルバ語, ラオ語, ラテン語, ラトビア語, リトアニア語, ルクセンブルク語, ルーマニア語, ロシア語, 中国語, 日本語, 繁体字中国語, 英語, 言語を検出する, 韓国語, 言語翻訳.

メインメニューを開くUnicode曖昧さ回避 「サロゲート」はこの項目

メインメニューを開くUnicode曖昧さ回避「サロゲート」はこの項目