Unicode
ウィキペディアから無料の百科事典
Unicode |
---|
文字符号化スキーム |
UTF-7 |
UTF-8 |
CESU-8 |
UTF-16 |
UTF-32 |
UTF-EBCDIC |
SCSU |
Punycode (IDN/IDNA) |
GB 18030 |
その他 |
UCS |
マッピング |
書字方向 |
BOM |
漢字統合 |
UnicodeとHTML |
Unicodeと電子メール |
Unicodeフォント |
Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。
従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。国際規格のISO/IEC 10646とUnicode規格は同じ文字コード表になるように協調して策定されている[2]。
概要
[編集]Unicodeは世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、macOS、Plan 9[注釈 1]などの様々なオペレーティングシステムでサポートされている。Javaや.NETのようなプログラミング環境でも標準的にサポートされている。現代の文字だけでなく古代の文字や歴史的な文字、数学記号、絵文字なども含む[3]。
Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換(ラウンドトリップ変換)において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在していたり、文字集合の亜種ごとにマッピング(対応づけ)が異なる文字(機種依存文字)を含んでいたりする場合[注釈 2]、変換テーブルによるマッピングが不可逆変換となり文字化けを起こすことがある。
Unicode文字符号化モデル
[編集]文字コードは、Unicode文字符号化モデル[4]によると以下の4段階に分けられる:
- 抽象文字集合 (ACR)
- 符号化の対象とする順序のない文字の集合。
- 符号化文字集合 (CCS)
- 抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置 (コードポイント) といい、抽象文字は対応後、符号化文字となる[5]。抽象文字は複数の符号化文字に対応されることもある[6]。
- 文字符号化形式 (CEF)
- 符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
- 文字符号化方式 (CES)
- 符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係する。
その後、バイト列を、gzipなどで圧縮したり、7ビット伝送路に通すためにBase64やQuoted-printableなどで変換したりすることがあるが、これらは文字コードの管轄範囲外である。
文字集合
[編集]Unicodeの文字集合の符号空間は0 - 10FFFF16で111万4,112の符号位置がある[7]。Unicode 12.1(2019年5月7日公表)では13万7,929個 (12%) の文字[注釈 3]が割り当てられ、65個を制御文字に使い、13万7,468符号位置 (12%) を私用文字として確保している。また、2,048文字分をUTF-16のための代用符号位置に使用しており、加えて66の特別な符号位置は使われない。残りの83万6,536符号位置 (75%) は未使用である[8]。
文字を特定する場合にはUnicode符号位置や一意につけられた名前が使われる。例えば、アルファベット小文字の「a」はU+0061 (LATIN SMALL LETTER A)、八分音符「♪」はU+266A (EIGHTH NOTE) である。Unicode符号位置を文章中などに記す場合は "U+" の後に十六進法で符号位置を4桁から6桁続けることで表す。また、符号空間のうち代用符号位置を除く符号位置をUnicodeスカラ値という[9]。
収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201、JIS X 0208、JIS X 0212を、Unicode 3.1からはJIS X 0213の内容も収録している。
また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国、日本、韓国の各規格の漢字を統合しCJK統合漢字としたことは大きな議論となった。
現在では独自創作の絵文字の追加等、当初の目的である「各国・各社の文字コードの統合」から外れた動きも進んでいる。
Unicodeに収録されている文字については、「ブロックの一覧」を参照。
文字符号化形式
[編集]Unicodeでは文字符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められている。
UTF-8は1符号化文字を1〜4符号単位で表す可変幅文字符号化形式で、1符号単位は8ビットである。
UTF-16は1符号化文字を1〜2符号単位で表す可変幅文字符号化形式で、1符号単位は16ビットである。基本多言語面の文字を符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い符号単位二つで表現する。
UTF-32は1符号化文字を1符号単位で表す固定幅文字符号化形式で、1符号単位は32ビットである。ただし、Unicodeの符号空間がU+10FFFFまでであるため、実際に使われるのは21ビットまでである。
00 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 0A | 0B | 0C | 0D | 0E | 0F | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-8 | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
41 | CE | A9 | E8 | AA | 9E | F0 | 9F | 98 | 8A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-16 | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
0041 | 03A9 | 8A9E | D83D | DE0A | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-32 | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
00000041 | 000003A9 | 00008A9E | 0001F60A |
文字符号化方式
[編集]文字符号化形式 (CEF) | 文字符号化方式 (CES) |
---|---|
UTF-8 | UTF-8 |
UTF-16 | UTF-16 |
UTF-16BE | |
UTF-16LE | |
UTF-32 | UTF-32 |
UTF-32BE | |
UTF-32LE |
Unicodeでは文字符号化方式としてUTF-8、UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LEの7種類が定められている。それぞれの符号化形式に対応する符号化方式は表の通り。
文字符号化形式との違いは、文字符号化形式がプログラム内部で文字を扱う場合に符号なし整数として文字を表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8は符号単位が8ビットであるため区別する意味はない。
文字符号化方式 (CES) | エンディアン | BOMの付与 |
---|---|---|
UTF-8 | — | 可 |
UTF-16 | ビッグ/リトル | 可 |
UTF-16BE | ビッグエンディアン | 不可 |
UTF-16LE | リトルエンディアン | 不可 |
UTF-32 | ビッグ/リトル | 可 |
UTF-32BE | ビッグエンディアン | 不可 |
UTF-32LE | リトルエンディアン | 不可 |
- UTF-8
- 可変長(1-4バイト)の8ビット符号単位で表現する文字符号化方式。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化方式やUTF-32符号化方式との変換・逆変換に際して乗除算などの高負荷処理が必要ない、などの特長を持ち、インターネットではもっとも一般的に利用されている。
- なお、UTF-8はもともと8ビットを符号単位とするためバイト順マーク(BOM;後述)は必要ないが、UTF-8であることが識別できるよう、データストリームの先頭に EF BB BF(U+FEFFのUTF-8での表現)の3バイトが付与されることがある。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化方式等における「真の意味でのBOM」と同じコードポイントを利用しているがゆえに慣用的にこう呼ばれているに過ぎない。UTF-8でのBOMの使用は非推奨[10]。
- UTF-16
- UTF-16符号化方式では、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが FF FEならリトルエンディアン、FE FFならビッグエンディアンとして後に続く文書を処理する。
- RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Microsoft Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化方式をUTF-16BE、リトルエンディアンの符号化方式をUTF-16LEとして区別することもある。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で符号化方式が指定されずBOMも付与されない場合、ビッグエンディアンとして扱うと決められている。
- UTF-32
- UTF-32符号化方式でもUTF-16符号化方式と同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない。
- 単純な符号化方式であるが、テキストファイルなどではファイルのサイズが大きくなる(すべてBMPの文字からなる文章の場合はUTF-16符号化方式の2倍、すべてASCII文字の場合はASCII/UTF-8の4倍のサイズとなる)ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェア・シェアウェアのテキストエディタのうち多数の符号化方式に対応しているものでも、この符号化方式には対応していないものが存在する。
- ただし、すべてのUnicode文字を処理する場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。実例として、Linux 上のC言語環境では
wchar_t
は32ビット整数型である。 - UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリームの先頭に付される。先頭の4バイトがFF FE 00 00ならリトルエンディアン、00 00 FE FFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
UTF-8 | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
41 | CE | A9 | E8 | AA | 9E | F0 | 9F | 98 | 8A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-16BE | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
00 | 41 | 03 | A9 | 8A | 9E | D8 | 3D | DE | 0A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-16LE | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
41 | 00 | A9 | 03 | 9E | 8A | 3D | D8 | 0A | DE | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-32BE | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
00 | 00 | 00 | 41 | 00 | 00 | 03 | A9 | 00 | 00 | 8A | 9E | 00 | 01 | F6 | 0A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
UTF-32LE | A | Ω | 語 | 😊 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
41 | 00 | 00 | 00 | A9 | 03 | 00 | 00 | 9E | 8A | 00 | 00 | 0A | F6 | 01 | 00 |
その他
[編集]- UTF-7
- UTF-16で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化方式を行う。RFC 2152で定められており、Unicode規格及びUnicodeの関連規格には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。
以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていた(ただし、内容は大きく異なる)が、ドラフト段階で破棄されているため重複にはならない。
- UTF-9
- 可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット(オクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(PDP-10やACOS-6など)であれば計算コストも低い。
- UTF-18
- Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面(BMP、U+1xxxx、U+2xxxx、U+Exxxx)を余った2ビットで識別するため、代用符号位置は使わない。
以下はドラフト段階で破棄された規格案。
- UTF-9
- 可変長(1-5バイト)の8ビット符号単位で表現する文字符号化形式または文字符号化方式。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。
拡張領域
[編集]1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 6万5,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字などである。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としてすでに設計されていたシステム(たとえばJavaのchar
型や、Windows NT・Windows 95のAPI)をなるべくそのままにしたまま、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。
サロゲートペア
[編集]サロゲートペア(代用対)は16ビットUnicodeの領域1,024文字分を2つ使い(前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF)、各々1個ずつからなるペアで1,024 × 1,024 = 1,048,576文字を表す。これはちょうど16面分であり、第1面〜第16面(U+010000 〜 U+10FFFF)の文字をこれで表すこととした。加えて第0面(基本多言語面)も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字分の空間が確保されたことになる。Unicodeの符号空間が10FFFF16まで(サロゲート領域を除いて111万2,064文字)とされているのはUTF-16が表現可能な限界だからである。
サロゲートはUnicodeの符号位置の U+010000 〜 U+10FFFF の範囲を16ビットユニットのペア(2つ)で表現する集合で、最初の16ビットユニットを前半サロゲートもしくはハイサロゲート、二番目を後半サロゲートもしくはローサロゲートと称する。ハイサロゲートは U+D800 〜 U+DBFF の範囲、ローサロゲートは U+DC00 〜 U+DFFF の範囲である。
サロゲートペアはUTF-16でのみ使われ[11]、UTF-8、UTF-32ではすべての符号位置を符号化できるためこのような特別な処理は必要ない。
コーディング
[編集]サロゲートのエンコーディングは、符号位置を 、ハイサロゲートを 、ローサロゲートを とすると次の通りに計算する。
デコーディングは、
である。
- コード変換例
- 「𠮷[注釈 4]」U+20BB7 のエンコードを考えてみる。
- から
- を引くと、結果は
- となる。
- これを上位10ビット値と下位10ビット値に分割する。
- ハイ(上位)サロゲートを形成するために上位ビットに を加える。
- ロー(下位)サロゲートを形成するために下位ビットに を加える。
- 結果
- (UTF-16 符号単位列)
- (UTF-16BEでの符号化バイト列)
- (UTF-16LEでの符号化バイト列)
次の表は、この文字変換と他をまとめたものである。 色は、コードポイントからのビットがUTF-16バイトにどのように分配されるかを示した。 なお、UTF-16エンコーディングプロセスによって追加された追加ビットは黒で示されている。
文字 (符号位置) | 符号位置(2進数) | UTF-16 符号単位列(2進数) | UTF-16 符号単位列 | UTF-16BE 符号化バイト列 | UTF-16LE 符号化バイト列 | |
---|---|---|---|---|---|---|
$ | U+0024 | 0000 0000 0010 0100 | 0000 0000 0010 0100 | 0024 | 00 24 | 24 00 |
€[注釈 5] | U+20AC | 0010 0000 1010 1100 | 0010 0000 1010 1100 | 20AC | 20 AC | AC 20 |
𠮷[注釈 4] | U+20BB7 | 0010 0000 1011 1011 0111 | 1101 1000 0100 0010 1101 1111 1011 0111 | D842 DFB7 | D8 42 DF B7 | 42 D8 B7 DF |
最大値 | U+10FFFF | 1 0000 1111 1111 1111 1111 | 1101 1011 1111 1111 1101 1111 1111 1111 | DBFF DFFF | DB FF DF FF | FF DB FF DF |
面
[編集]一つの面は6万5536個の符号位置がある。
面 | 符号位置 | 英語での名称 | 略称 | 日本語での名称 | 収録されている主な文字 |
---|---|---|---|---|---|
第0面 | U+0000 - U+FFFF | Basic Multilingual Plane | BMP | 基本多言語面 | 基本的な文字。 |
第1面 | U+10000 - U+1FFFF | Supplementary Multilingual Plane | SMP | 追加多言語面 | 古代文字や記号・絵文字類など。 |
第2面 | U+20000 - U+2FFFF | Supplementary Ideographic Plane | SIP | 追加漢字面 | 漢字専用領域。 |
第3面 | U+30000 - U+3FFFF | Tertiary Ideographic Plane | TIP | 第三漢字面 | 追加漢字面に入りきらなかった漢字。また、将来的には古代漢字や甲骨文字などが収録される予定[注釈 6]。 |
第4面 | U+40000 - U+4FFFF | 未使用(将来どのような目的で使用するのかすら決まっていない)。 | |||
第5面 | U+50000 - U+5FFFF | ||||
第6面 | U+60000 - U+6FFFF | ||||
第7面 | U+70000 - U+7FFFF | ||||
第8面 | U+80000 - U+8FFFF | ||||
第9面 | U+90000 - U+9FFFF | ||||
第10面 | U+A0000 - U+AFFFF | ||||
第11面 | U+B0000 - U+BFFFF | ||||
第12面 | U+C0000 - U+CFFFF | ||||
第13面 | U+D0000 - U+DFFFF | ||||
第14面 | U+E0000 - U+EFFFF | Supplementary Special-purpose Plane | SSP | 追加特殊用途面 | 制御コード専用領域。 |
第15面 | U+F0000 - U+FFFFF | Private Use Plane | PUP | 私用面 | BMPの U+E000 - U+F8FF の領域の拡張。 |
第16面 | U+100000 - U+10FFFF |
日本では2000年にJIS X 0208を拡張する目的でJIS X 0213(いわゆるJIS第3・第4水準)が制定されたが、この際、新たに採用された文字でUnicodeになかったものの一部は、BMPに収録できず、第2面への収録となった(Unicodeが最終的にJIS X 0213への対応を完了したのは2002年である)。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには、追加漢字面をサポートしたOS、フォント、アプリケーションが必要となる。Shift_JISなど、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要である。
常用漢字の2010年改定で追加された字のうち「𠮟」はU+20B9Fで、追加漢字面に含まれる。そのため、改定後の常用漢字完全サポートを謳う場合、Unicodeに対応していて更にこの拡張領域にも対応している必要があると言える。ただ、現状ではこの字は、JIS X 0208に含まれる(=当然、Unicode策定当初からBMPに収録されている)異体字の「叱」(U+53F1) で代用されることが多い。
歴史
[編集]1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。
このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。
1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびユニコードコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果、1991年末になって「ISO 10646=Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO) の第1版として完成した。
Unicodeの最初に印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。
1992年、CJK統合漢字URO第二版が完成し、これを取り込んだ(ただし、UROには若干の間違いが発見されており、それらの修正が行われている。)DIS 10646第2版が、5月30日の国際投票で可決された。
1993年5月1日 「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後UnicodeとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。
Unicodeのバージョン
[編集]Unicodeのバージョンは、メジャーバージョン (the major version)、マイナーバージョン (the minor version)、アップデートバージョン (the update version) の3つの部分から構成され、ピリオドでつなげて表示される[12]。ただし、マイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときに改定される。Unicodeのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもUnicodeについての正式なドキュメントであるとされている。新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合および重要なマイナーバージョンの改定があった場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。
各バージョンとその特徴
[編集]Unicodeのそれぞれのバージョン番号とその制定年月日、収録文字数他の特徴は以下の通りである。
制定年月日 | バージョン番号 | 収録文字数 | 概要 | 日本語における主要な追加文字 |
---|---|---|---|---|
1991年10月 | Unicode 1.0.0 | 7,161 | 初期バージョン、16ビットの文字コード | JIS X 0201 |
1992年6月 | Unicode 1.0.1 | 28,359 | CJK統合漢字を導入 | JIS X 0208、JIS X 0212 |
1993年6月 | Unicode 1.1.0 | 34,233 | ISO/IEC 10646-1:1993にあわせ変更 | |
1993年7月 | Unicode 1.1.5 | |||
1996年7月 | Unicode 2.0.0 | 38,950 | ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う (Amd.5)、サロゲートペア(代用対)を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張 (Amd.1) | |
1998年5月 | Unicode 2.1.0 | 38,952 | ユーロ記号と正誤表を追加 | |
1998年5月 | Unicode 2.1.2 | |||
1998年8月 | Unicode 2.1.5 | |||
1998年10月 | Unicode 2.1.8 | |||
1999年4月 | Unicode 2.1.9 | |||
1999年9月 | Unicode 3.0.0 | 49,259 | ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字拡張Aで漢字6582字を追加 (Amd.17) | JIS X 0213の一部(地名や人名などに用いられる漢字) |
2000年8月 | Unicode 3.0.1 | |||
2001年3月 | Unicode 3.1.0 | 94,205 | ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字拡張Bで漢字42711字を追加 | JIS X 0213の一部(地名や人名などに用いられる漢字) |
2001年8月 | Unicode 3.1.1 | |||
2002年3月 | Unicode 3.2.0 | 95,221 | ISO/IEC 10646-1:2000の追補Amd.1に対応 | JIS X 0213(正式対応) |
2003年4月 | Unicode 4.0.0 | 96,447 | ISO/IEC 10646:2003に対応 | |
2004年5月 | Unicode 4.0.1 | |||
2005年3月31日 | Unicode 4.1.0 | 97,720 | ISO/IEC 10646:2003の追補Amd.1に対応 | |
2006年7月14日 | Unicode 5.0.0 | 99,089 | ISO/IEC 10646:2003の追補Amd.2とシンド語(Amd.3に含まれる)に対応 | |
2008年4月4日 | Unicode 5.1.0 | 100,713 | ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める | 麻雀牌、割り算の筆算(長除法)の記号、電話機の星印、Adobe-Japan1-6の漢字字形 |
2009年10月1日 | Unicode 5.2.0 | 107,361 | ISO/IEC 10646:2003の追補Amd.6までに対応 | ARIB外字 |
2010年10月11日 | Unicode 6.0.0 | 109,449 | ISO/IEC 10646:2010 | 携帯電話の絵文字 |
2012年1月31日 | Unicode 6.1.0 | 110,181 | ISO/IEC 10646:2012 | |
2012年9月26日 | Unicode 6.2.0 | 110,182 | 新トルコリラの通貨記号の追加など | |
2013年9月30日 | Unicode 6.3.0 | 110,187 | ||
2014年6月16日 | Unicode 7.0.0 | 113,021 | ISO/IEC 10646:2012の追補Amd.1とAmd.2に対応。ルーブル、アゼルバイジャン・マナトの通貨記号、北米・中国・インド・アフリカの言語のための歴史的なスクリプトの追加。 | 約250字の絵文字の追加。 |
2015年6月17日 | Unicode 8.0.0 | 120,737 | ISO/IEC 10646:2014の追補Amd.1に対応。 | U+301C WAVE DASHの修正(後述) |
2016年6月21日 | Unicode 9.0.0 | 128,172 | ISO/IEC 10646:2014の追補Amd.2に対応。 | 91個の絵文字の追加、4KTV放送用シンボル19個の追加 |
2017年6月20日 | Unicode 10.0.0 | 136,690 | ISO/IEC 10646:2017 | 変体仮名285文字追加 |
2018年6月5日 | Unicode 11.0.0 [44] | 137,374 | ISO/IEC 10646:2017の追補Amd.1に対応 | |
2019年3月5日 | Unicode 12.0.0 [45] | 137,928 | ISO/IEC 10646:2017の追補Amd.1とAmd.2に対応 | 小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」追加 |
2019年5月7日 | Unicode 12.1.0 [46] | 137,929 | 「㋿」(日本の元号「令和」の合字)追加 | |
2020年3月10日 | Unicode 13.0.0 [47] | 143,859 | ISO/IEC 10646:2020 | |
2021年9月22日 | Unicode 14.0.0 [48] | 144,697 | ISO/IEC 10646:2021 | わ行う、ワ行う、ヤ行イ、ヤ行エを追加 |
2022年9月13日 | Unicode 15.0.0 [49] | 149,186 | ISO/IEC 10646:2022 | |
2023年9月12日 | Unicode 15.1.0 [50] | 149,813 | ISO/IEC 10646:2023 | |
2024年9月10日 | Unicode 16.0.0 [51] | 154,998 | ISO/IEC 10646:2024 |
構成要素のバージョン
[編集]Unicodeのバージョンには、上記のような「Unicodeの規格全体に付けられたバージョン」の他に「Unicodeを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、Unicodeを構成する各面ごとに付けられたバージョンや、Unicodeに収録されないこととされたスクリプトのリスト (NOR = Not The Roadmap) に付けられたバージョン、規格の一部を構成するUnicode Technical Note(Unicode技術ノート)、Unicode Technical Report(Unicode技術報告)、Unicode Technical Standard(Unicode技術標準)のバージョンなどが存在する。
日付 | 全体[52] | BMP[53] | SMP[54] | SIP[55] | TIP[56] | SSP[57] | NOR[58] |
---|---|---|---|---|---|---|---|
1991年10月 | 1.0.0[13] | ||||||
1992年6月 | 1.0.1[14] | ||||||
1993年6月 | 1.1.0[15] | ||||||
1993年7月 | 1.1.5[16] | ||||||
1996年7月 | 2.0.0[17] | ||||||
1998年5月 | 2.1.0[18] | ||||||
1998年5月 | 2.1.2[19] | ||||||
1998年8月 | 2.1.5[20] | ||||||
1998年10月 | 2.1.8[21] | ||||||
1999年4月 | 2.1.9[22] | ||||||
1999年9月 | 3.0.0[23] | ||||||
2000年8月 | 3.0.1[24] | ||||||
2001年3月 | 3.1.0[25] | ||||||
2001年8月 | 3.1.1[26] | ||||||
2001年10月10日 | 3.0[59] | 3.0[60] | 3.0[61] | 1.0[62] | |||
2001年10月12日 | 3.1[63] | ||||||
2001年10月27日 | 3.1[64] | ||||||
2001年11月27日 | 3.0[65] | ||||||
2002年1月22日 | 3.2[66] | 3.1[67] | |||||
2002年1月29日 | 3.3[68] | ||||||
2002年2月5日 | 3.4[69] | ||||||
2002年3月 | 3.2.0[27] | ||||||
2002年4月3日 | 3.2[70] | ||||||
2002年4月4日 | 3.5[71] | ||||||
2002年6月7日 | 3.6[72] | 3.3[73] | |||||
2002年6月23日 | 3.7[74] | ||||||
2002年10月2日 | 3.8[75] | ||||||
2002年10月28日 | 3.9[76] | ||||||
2002年11月11日 | 3.1[77] | ||||||
2002年12月3日 | 3.10[78] | 3.4[79]
| |||||
2002年12月11日 | 3.11[81] | ||||||
2003年3月12日 | 3.12[82] | 3.6[83] | |||||
2003年3月15日 | 3.7[84] | ||||||
2003年4月 | 4.0.0[28] | ||||||
2003年4月16日 | 4.0[85] | 4.0[86] | 4.0[87] | 4.0[88] | 4.0[89] | ||
2003年5月4日 | 4.1[90] | ||||||
2003年5月16日 | 4.1[91] | ||||||
2003年6月18日 | 4.2[92] | 4.1[93] | |||||
2003年7月15日 | 4.1[94] | ||||||
2003年8月19日 | 4.3[95] | ||||||
2003年9月11日 | 4.4[96] | 4.2[97] | |||||
2003年9月20日 | 4.5[98] | ||||||
2003年10月22日 | 4.6[99] | ||||||
2003年10月31日 | 4.3[100] | ||||||
2003年12月23日 | 4.7[101] | 4.4[102] | |||||
2004年5月 | 4.0.1[29] | ||||||
2004年5月27日 | 4.5[103] | ||||||
2004年6月24日 | 4.8[104] | 4.6[105] | |||||
2004年7月3日 | 4.7[106] | ||||||
2004年12月1日 | 4.1[107] | ||||||
2005年1月27日 | 4.2[108] | ||||||
2005年1月28日 | 4.9[109] | 4.8[110] | |||||
2005年3月31日 | 4.1.0[30] | 4.10[111] | 4.9[112] | ||||
2005年5月27日 | 4.10[113] | 4.2[114] | |||||
2005年6月10日 | 4.11[115] | 4.11[116] | |||||
2005年6月27日 | 4.12[117] | 4.12[118] | 4.3[119] | 4.2[120] | 4.3[121] | ||
2005年8月1日 | 4.13[122] | 4.13[123] | |||||
2005年9月6日 | 4.14[124] | ||||||
2005年9月14日 | 4.15[125] | ||||||
2005年9月17日 | 4.14[126] | ||||||
2005年9月19日 | 4.16[127] | ||||||
2005年12月8日 | 4.15[128] | ||||||
2006年1月11日 | 4.17[129] | 4.16[130] | |||||
2006年4月17日 | 4.18[131] | 4.17[132] | 4.4[133] | ||||
2006年4月28日 | 4.4[134] | ||||||
2006年7月14日 | 5.0.0[31] | ||||||
2006年9月21日 | 5.0[135] | 5.0[136] | 5.0[137] | 5.0[138] | 5.0[139] | ||
2006年9月29日 | 5.0.1[140] | 5.0.1[141] | |||||
2007年3月14日 | 5.0.1[142] | ||||||
2007年4月11日 | 5.0.2[143] | 5.0.2[144] | |||||
2007年5月5日 | 5.0.3[145] | 5.0.3[146] | |||||
2007年7月24日 | 5.0.4[147] | 5.0.4[148] | 5.0.1[149] | ||||
2007年8月22日 | 5.0.5[150] | ||||||
2007年8月29日 | 5.0.5[151] | ||||||
2008年1月15日 | 5.0.6[152] | ||||||
2008年1月31日 | 5.0.6[153] | ||||||
2008年2月14日 | 5.0.7[154] | 5.0.7[155] | |||||
2008年4月4日 | 5.1.0[32] | 5.1.0[156] | 5.1.0[157] | 5.1.0[158] | 5.1.0[159] | 5.1.0[160] | |
2008年4月25日 | 5.1.1[161] | 5.1.1[162] | 5.1.0[163] | 5.1.1[164] | |||
2008年8月12日 | 5.1.2[165] | 5.1.2[166] | |||||
2008年8月19日 | 5.1.3[167] | ||||||
2008年10月17日 | 5.1.4[168] | 5.1.3[169] | 5.1.1[170] | ||||
2009年2月4日 | 5.1.5[171] | 5.1.4[172] | |||||
2009年2月26日 | 5.1.1[173] | ||||||
2009年4月22日 | 5.1.2[174] | ||||||
2009年4月24日 | 5.1.5[175] | ||||||
2009年10月1日 | 5.2.0[35] | 5.2.0[176] | 5.2.0[177] | 5.2.0[178] | 5.2.0[179] | 5.2.0[180] | 5.2.0[181] |
2009年11月18日 | 5.2.1[182] | ||||||
2010年2月5日 | 5.2.1[183] | ||||||
2010年2月10日 | 5.2.2[184] | ||||||
2010年2月23日 | 5.2.3[185] | ||||||
2010年4月23日 | 5.2.2[186] | 5.2.4[187] | |||||
2010年5月12日 | 5.2.5[188] | ||||||
2010年6月24日 | 5.2.6[189] | ||||||
2010年7月27日 | 5.2.7[190] | ||||||
2010年10月11日 | 6.0.0[36] | 6.0.0[191] | 6.0.0[192] | 6.0.0[193] | 6.0.0[194] | 6.0.0[195] | 6.0.0[196] |
2010年12月6日 | 6.0.1[197] | ||||||
2011年1月9日 | 6.0.2[198] | ||||||
2011年1月14日 | 6.0.1[199] | ||||||
2011年1月27日 | 6.0.2[200] | 6.0.3[201] | 6.0.1[202] | 6.0.1[203] | 6.0.1[204] | 6.0.1[205] | |
2011年3月18日 | 6.0.4[206] | ||||||
2011年5月24日 | 6.0.5[207] | ||||||
2011年6月23日 | 6.0.3[208] | 6.0.6[209] | |||||
2011年8月1日 | 6.0.7[210] | ||||||
2011年8月15日 | 6.0.8[211] | ||||||
2011年8月24日 | 6.0.9[212] | ||||||
2011年11月15日 | 6.0.10[213] | ||||||
2011年11月29日 | 6.0.11[214] | ||||||
2011年12月19日 | 6.0.2[215] | ||||||
2012年1月6日 | 6.0.12[216] | ||||||
2012年1月31日 | 6.1.0[37] | ||||||
2012年2月1日 | 6.1.0[217] | 6.1.0[218] | 6.1.0[219] | 6.1.0[220] | 6.1.0[221] | 6.1.0[222] | |
2012年2月15日 | 6.1.1[223] | ||||||
2012年5月4日 | 6.1.2[224] | ||||||
2012年7月30日 | 6.1.3[225] | ||||||
2012年8月27日 | 6.1.4[226] | ||||||
2012年9月13日 | 6.1.1[227] | 6.1.5[228] | |||||
2012年9月26日 | 6.2.0[38] | ||||||
2012年9月27日 | 6.2.0[229] | 6.2.0[230] | 6.2.0[231] | 6.2.0[232] | 6.2.0[233] | 6.2.0[234] | |
2012年10月16日 | 6.2.1[235] | 6.2.1[236] | |||||
2012年12月2日 | 6.2.2[237] | 6.2.2[238] | |||||
2013年3月19日 | 6.2.3[239] | ||||||
2013年5月4日 | 6.2.4[240] | ||||||
2013年5月23日 | 6.2.5[241] | ||||||
2013年7月24日 | 6.2.6[242] | ||||||
2013年9月30日 | 6.3.0[39] | ||||||
2013年10月28日 | 6.3.0[243] | 6.3.0[244] | 6.3.0[245] | 6.3.0[246] | 6.3.0[247] | 6.3.0[248] | |
2014年2月19日 | 6.3.1[249] | 6.3.1[250] | |||||
2014年6月16日 | 7.0.0[40] | ||||||
2014年8月7日 | 7.0.0[251] | 7.0.0[252] | 7.0.0[253] | 7.0.0[254] | 7.0.0[255] | 7.0.0[256] | |
2014年9月18日 | 7.0.1[257] | 7.0.1[258] | 7.0.1[259] | ||||
2014年10月24日 | 7.0.2[260] | 7.0.2[261] | 7.0.1[262] | ||||
2015年3月26日 | 7.0.2[263] | 7.0.3[264] | |||||
2015年6月3日 | 7.0.3[265] | 7.0.4[266] | |||||
2015年6月17日 | 8.0.0[41] | ||||||
2015年6月26日 | 8.0.0[267] | 8.0.0[268] | 8.0.0[269] | 8.0.0[270] | 8.0.0[271] | 8.0.0[272] | |
2015年8月17日 | 8.0.1[273] | ||||||
2016年1月21日 | 8.0.1[274] | 8.0.2[275] | 8.0.1[276] | ||||
2016年2月3日 | 8.0.3[277] | 8.0.1[278] | |||||
2016年5月3日 | 8.0.2[279] | ||||||
2016年6月10日 | 8.0.4[280] | ||||||
2016年6月21日 | 9.0.0[42] | ||||||
2016年6月23日 | 9.0.0[281] | 9.0.0[282] | 9.0.0[283] | 9.0.0[284] | 9.0.0[285] | 9.0.0[286] | |
2017年1月12日 | 9.0.1[287] | ||||||
2017年5月24日 | 9.0.1[288] | ||||||
2017年6月6日 | 9.0.2[289] | ||||||
2017年6月20日 | 10.0.0[43] | ||||||
2017年6月21日 | 10.0.0[290] | 10.0.0[291] | 10.0.0[292] | 10.0.0[293] | 10.0.0[294] | ||
2017年6月29日 | 10.0.0[295] | ||||||
2017年12月27日 | 10.0.1[296] | ||||||
2018年1月10日 | 10.0.1[297] | - |
Unicodeの諸問題
[編集]バージョンごとの非互換性
[編集]Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。
そのうち最大のものがUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0では、従来ハングルが割り当てられていた領域にCJK統合漢字拡張A、ついでUnicode 4.0で六十四卦が割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない[注釈 7]。JCS委員長の芝野耕司はUnicodeに日本語の漢字を収録させる議論の中で、ハングル大移動について「韓国のとった滅茶苦茶な行動」と述べている[298]。
日本語環境でのUnicodeの諸問題
[編集]YEN SIGN 問題
[編集]この節の内容の信頼性について検証が求められています。 |
Shift JIS では JIS X 0201 における(日本や中国の通貨の)円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などでエスケープ文字として使われる事から、この文字のコードを変更すると問題が起きる。極端な例として、0x5C が円記号とエスケープ文字の両方の目的で使われているケース(たとえばC言語のprintf関数で printf("¥¥%d¥n", price);
など)も考えられる。
そのため、Unicode を利用するアプリケーションでは、U+007F 以下のコードに関しては移動させないという暗黙のルールができている。
そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、日本語環境での表示上は 0x5C の位置で円記号を用いることができる。
この問題は日本語環境に限ったことではない。もともと ISO 646 上では、0x5C を含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国では通貨のウォン記号 (WON SIGN, U+20A9, "₩")、デンマークやノルウェーではストローク付きO (LATIN CAPITAL LETTER O WITH STROKE, U+00D8, "Ø") などである。(後者は後の時代には、0x5C はバックスラッシュのままとし、ISO 8859 シリーズを用いることが一般化した。)
波ダッシュ・全角チルダ問題
[編集]JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "〜") に対応させている。
しかし、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "〜" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "~") に割り当てたため不整合が生じた。
この結果、macOS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。
マイクロソフト仕様に起因する問題
[編集]上記に加え、マイクロソフト仕様は変換時にも問題が起こる文字を以下に示す。
JIS X 0208 区点 | Shift JIS | JIS X 0208 日本語通用名称 | SJISでデコード | MS932でデコード (マイクロソフト仕様) | 関連記事 |
---|---|---|---|---|---|
1-29 | 0x815c | ダッシュ(全角) | — (U+2014 ) EM DASH | ― (U+2015 ) HORIZONTAL BAR | ダッシュ (記号) |
1-33 | 0x8160 | 波ダッシュ | 〜 (U+301C ) WAVE DASH | ~ (U+FF5E ) FULLWIDTH TILDE | 波ダッシュ、全角チルダ |
1-34 | 0x8161 | 双柱 | ‖ (U+2016 ) DOUBLE VERTICAL LINE | ∥ (U+2225 ) PARALLEL TO | 双柱、平行記号 |
1-61 | 0x817c | 負符号、減算記号 | − (U+2212 ) MINUS SIGN | - (U+FF0D ) FULLWIDTH HYPHEN-MINUS | マイナス記号、ハイフンマイナス |
1-81 | 0x8191 | セント記号 | ¢ (U+00A2 ) CENT SIGN | ¢ (U+FFE0 ) FULLWIDTH CENT SIGN | セント (通貨) |
1-82 | 0x8192 | ポンド記号 | £ (U+00A3 ) POUND SIGN | £ (U+FFE1 ) FULLWIDTH POUND SIGN | £ |
2-44 | 0x81ca | 否定 | ¬ (U+00AC ) NOT SIGN | ¬ (U+FFE2 ) FULLWIDTH NOT SIGN | 否定記号 |
このうちセント・ポンド・否定については、IBMのメインフレームではShift_JISを拡張してこれらの半角版をコードポイント 0xFD-0xFF に割り当て、別途JIS X 0208からマップされた位置に全角版を収録していたため、WindowsをIBMメインフレームの端末として用いるケースを想定したといわれている[要出典]。
なお、Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している[要出典]。
ブロックの一覧
[編集]面 | ブロックの範囲[一覧 1] | ブロック名[一覧 2] | 日本語名称[一覧 3] | 符号位置の数[一覧 4] | 割当済の文字の数 | 用字[一覧 5][一覧 6][一覧 7][一覧 8] |
---|---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Basic Latin [一覧 9] | 基本ラテン文字 Basic Latin | 128 | 128 | ラテン文字 (52文字), Common (76文字) |
U+0080..U+00FF | Latin-1 Supplement [一覧 10] | ラテン1補助 Latin-1 Supplement | 128 | 128 | ラテン文字 (64文字), Common (64文字) | |
U+0100..U+017F | Latin Extended-A | ラテン文字拡張A en:Latin Extended-A | 128 | 128 | ラテン文字 | |
U+0180..U+024F | Latin Extended-B | ラテン文字拡張B en:Latin Extended-B | 208 | 208 | ラテン文字 | |
U+0250..U+02AF | IPA Extensions | IPA拡張 en:IPA Extensions | 96 | 96 | ラテン文字 | |
U+02B0..U+02FF | Spacing Modifier Letters | 前進を伴う修飾文字 en:Spacing Modifier Letters | 80 | 80 | 注音符号 (2文字), ラテン文字 (14文字), Common (64文字) | |
U+0300..U+036F | Combining Diacritical Marks | 合成可能なダイアクリティカルマーク en:Combining Diacritical Marks | 112 | 112 | Inherited | |
U+0370..U+03FF | Greek and Coptic | ギリシア文字及びコプト文字 en:Greek and Coptic | 144 | 135 | コプト文字 (14文字), ギリシア文字 (117文字), Common (4文字) | |
U+0400..U+04FF | Cyrillic | キリル文字 Cyrillic | 256 | 256 | キリル文字 (254文字), Inherited (2文字) | |
U+0500..U+052F | Cyrillic Supplement | キリル文字補助 en:Cyrillic Supplement | 48 | 48 | キリル文字 | |
0 BMP | U+0530..U+058F | Armenian | アルメニア文字 Armenian | 96 | 91 | アルメニア文字 (90文字), Common (1文字) |
U+0590..U+05FF | Hebrew | ヘブライ文字 Hebrew | 112 | 88 | ヘブライ文字 | |
U+0600..U+06FF | Arabic | アラビア文字 Arabic | 256 | 255 | アラビア文字 (237文字), Common (6文字), Inherited (12文字) | |
U+0700..U+074F | Syriac | シリア文字 Syriac | 80 | 77 | シリア文字 | |
U+0750..U+077F | Arabic Supplement | アラビア文字補助 en:Arabic Supplement | 48 | 48 | アラビア文字 | |
U+0780..U+07BF | Thaana | ターナ文字 Thaana | 64 | 50 | ターナ文字 | |
U+07C0..U+07FF | NKo | ンコ文字 NKo | 64 | 62 | ンコ文字 | |
U+0800..U+083F | Samaritan | サマリア文字 Samaritan | 64 | 61 | サマリア文字 | |
U+0840..U+085F | Mandaic | マンダ文字 Mandaic | 32 | 29 | マンダ文字 | |
U+0860..U+086F | Syriac Supplement | シリア文字拡張 en:Syriac Supplement | 16 | 11 | シリア文字 | |
0 BMP | U+0870..U+089F | Arabic Extended-B | アラビア文字拡張B en:Arabic Extended-B | 48 | 41 | アラビア文字 |
U+08A0..U+08FF | Arabic Extended-A | アラビア文字拡張A en:Arabic Extended-A | 96 | 96 | アラビア文字 (72文字), Common (1文字) | |
U+0900..U+097F | Devanagari | デーヴァナーガリー文字 Devanagari | 128 | 128 | デーヴァナーガリー文字 (124文字), Common (2文字), Inherited (2文字) | |
U+0980..U+09FF | Bengali | ベンガル文字 Bengali | 128 | 96 | ベンガル文字 | |
U+0A00..U+0A7F | Gurmukhi | グルムキー文字 Gurmukhi | 128 | 80 | グルムキー文字 | |
U+0A80..U+0AFF | Gujarati | グジャラート文字 Gujarati | 128 | 91 | グジャラート文字 | |
U+0B00..U+0B7F | Oriya | オリヤー文字 Oriya | 128 | 90 | オリヤー文字 | |
U+0B80..U+0BFF | Tamil | タミル文字 Tamil | 128 | 72 | タミル文字 | |
U+0C00..U+0C7F | Telugu | テルグ文字 Telugu | 128 | 98 | テルグ文字 | |
U+0C80..U+0CFF | Kannada | カンナダ文字 Kannada | 128 | 89 | カンナダ文字 | |
0 BMP | U+0D00..U+0D7F | Malayalam | マラヤーラム文字 Malayalam | 128 | 117 | マラヤーラム文字 |
U+0D80..U+0DFF | Sinhala | シンハラ文字 Sinhala | 128 | 90 | シンハラ文字 | |
U+0E00..U+0E7F | Thai | タイ文字 Thai | 128 | 87 | タイ文字 (86文字), Common (1文字) | |
U+0E80..U+0EFF | Lao | ラオス文字 Lao | 128 | 82 | ラオス文字 | |
U+0F00..U+0FFF | Tibetan | チベット文字 Tibetan | 256 | 211 | チベット文字 (207文字), Common (4文字) | |
U+1000..U+109F | Myanmar | ビルマ文字 Myanmar | 160 | 160 | ビルマ文字 | |
U+10A0..U+10FF | Georgian | グルジア文字 Georgian | 96 | 88 | グルジア文字 (87文字), Common (1文字) | |
U+1100..U+11FF | Hangul Jamo | ハングル字母 Hangul Jamo | 256 | 256 | ハングル | |
U+1200..U+137F | Ethiopic | エチオピア文字 Ethiopic | 384 | 358 | エチオピア文字 | |
U+1380..U+139F | Ethiopic Supplement | エチオピア文字補助 en:Ethiopic Supplement | 32 | 26 | エチオピア文字 | |
0 BMP | U+13A0..U+13FF | Cherokee | チェロキー文字 Cherokee | 96 | 92 | チェロキー文字 |
U+1400..U+167F | Unified Canadian Aboriginal Syllabics | 統合カナダ先住民音節 Unified Canadian Aboriginal Syllabics | 640 | 640 | カナダ先住民文字 | |
U+1680..U+169F | Ogham | オガム文字 Ogham | 32 | 29 | オガム文字 | |
U+16A0..U+16FF | Runic | ルーン文字 Runic | 96 | 89 | ルーン文字 (86文字), Common (3文字) | |
U+1700..U+171F | Tagalog | タガログ文字 Tagalog | 32 | 20 | タガログ文字 | |
U+1720..U+173F | Hanunoo | ハヌノオ文字 Hanunoo | 32 | 23 | ハヌノオ文字 (21文字), Common (2文字) | |
U+1740..U+175F | Buhid | ブヒッド文字 Buhid | 32 | 20 | ブヒッド文字 | |
U+1760..U+177F | Tagbanwa | タグバヌア文字 Tagbanwa | 32 | 18 | タグバヌワ文字 | |
U+1780..U+17FF | Khmer | クメール文字 Khmer | 128 | 114 | クメール文字 | |
U+1800..U+18AF | Mongolian | モンゴル文字 Mongolian | 176 | 157 | モンゴル文字 (153文字), Common (3文字) | |
0 BMP | U+18B0..U+18FF | Unified Canadian Aboriginal Syllabics Extended | 統合カナダ先住民文字拡張 en:Unified Canadian Aboriginal Syllabics Extended | 80 | 70 | 統合カナダ先住民文字 |
U+1900..U+194F | Limbu | リンブ文字 Limbu | 80 | 68 | リンブ文字 | |
U+1950..U+197F | Tai Le | タイ・ナ文字 Tai Le | 48 | 35 | タイ・ナ文字 | |
U+1980..U+19DF | New Tai Lue | 新タイ・ロ文字 New Tai Lue | 96 | 83 | タイ・ロ文字 | |
U+19E0..U+19FF | Khmer Symbols | クメール文字様記号 en:Khmer Symbols | 32 | 32 | クメール文字 | |
U+1A00..U+1A1F | Buginese | ブギス文字 Buginese | 32 | 30 | ブギス文字 | |
U+1A20..U+1AAF | Tai Tham | タイ・タム文字 Tai Tham | 144 | 127 | タイタム文字 | |
U+1AB0..U+1AFF | Combining Diacritical Marks Extended | 合成可能なダイアクリティカルマーク拡張 en:Combining Diacritical Marks Extended | 80 | 15 | Inherited | |
U+1B00..U+1B7F | Balinese | バリ文字 Balinese | 128 | 121 | バリ文字 | |
U+1B80..U+1BBF | Sundanese | スンダ文字 Sundanese | 64 | 64 | スンダ文字 | |
0 BMP | U+1BC0..U+1BFF | Batak | バタク文字 Batak | 64 | 56 | バタク文字 |
U+1C00..U+1C4F | Lepcha | レプチャ文字 Lepcha | 80 | 74 | レプチャ文字 | |
U+1C50..U+1C7F | Ol Chiki | オル・チキ文字 Ol Chiki | 48 | 48 | オル・チキ文字 | |
U+1C80..U+1C8F | Cyrillic Extended-C | キリル文字拡張C Cyrillic Extended-C | 16 | 9 | キリル文字 | |
U+1C90..U+1CBF | Georgian Extended | グルジア文字拡張 Georgian Extended | 48 | 46 | グルジア文字 | |
U+1CC0..U+1CCF | Sundanese Supplement | スンダ文字補助 Sundanese Supplement | 16 | 8 | スンダ文字 | |
U+1CD0..U+1CFF | Vedic Extensions | ヴェーダ用拡張 Vedic Extensions | 48 | 43 | Common (15文字), Inherited (27文字) | |
U+1D00..U+1D7F | Phonetic Extensions | 音声記号拡張 Phonetic Extensions | 128 | 128 | キリル文字 (2文字), ギリシア文字 (15文字), ラテン文字 (111文字) | |
U+1D80..U+1DBF | Phonetic Extensions Supplement | 音声記号拡張補助 Phonetic Extensions Supplement | 64 | 64 | ギリシア文字 (1文字), ラテン文字 (63文字) | |
U+1DC0..U+1DFF | Combining Diacritical Marks Supplement | 合成可能なダイアクリティカルマーク補助 Combining Diacritical Marks Supplement | 64 | 63 | Inherited | |
0 BMP | U+1E00..U+1EFF | Latin Extended Additional | ラテン文字拡張追加 Latin Extended Additional | 256 | 256 | ラテン文字 |
U+1F00..U+1FFF | Greek Extended | ギリシア文字拡張 Greek Extended | 256 | 233 | ギリシア文字 | |
U+2000..U+206F | General Punctuation | 一般句読点 General Punctuation | 112 | 111 | Common (109文字), Inherited (2文字) | |
U+2070..U+209F | Superscripts and Subscripts | 上付き・下付き Superscripts and Subscripts | 48 | 42 | ラテン文字 (15文字), Common (27文字) | |
U+20A0..U+20CF | Currency Symbols | 通貨記号 Currency Symbols | 48 | 32 | Common | |
U+20D0..U+20FF | Combining Diacritical Marks for Symbols | 合成可能な記号用ダイアクリティカルマーク en:Combining Diacritical Marks for Symbols | 48 | 33 | Inherited | |
U+2100..U+214F | Letterlike Symbols | 文字様記号 en:Letterlike Symbols | 80 | 80 | ギリシア文字 (1文字), ラテン文字 (4文字), Common (75文字) | |
U+2150..U+218F | Number Forms | 数字に準ずるもの en:Number Forms | 64 | 60 | ラテン文字 (41文字), Common (19文字) | |
U+2190..U+21FF | Arrows | 矢印 Arrows | 112 | 112 | Common | |
U+2200..U+22FF | Mathematical Operators | 数学記号 Mathematical Operators | 256 | 256 | Common | |
0 BMP | U+2300..U+23FF | Miscellaneous Technical | その他の技術用記号 Miscellaneous Technical | 256 | 256 | Common |
U+2400..U+243F | Control Pictures | 制御機能用記号 Control Pictures | 64 | 39 | Common | |
U+2440..U+245F | Optical Character Recognition | 光学的文字認識 Optical Character Recognition | 32 | 11 | Common | |
U+2460..U+24FF | Enclosed Alphanumerics | 囲み英数字 Enclosed Alphanumerics | 160 | 160 | Common | |
U+2500..U+257F | Box Drawing | 罫線素片 Box Drawing | 128 | 128 | Common | |
U+2580..U+259F | Block Elements | ブロック要素 Block Elements | 32 | 32 | Common | |
U+25A0..U+25FF | Geometric Shapes | 幾何学模様 Geometric Shapes | 96 | 96 | Common | |
U+2600..U+26FF | Miscellaneous Symbols | その他の記号 Miscellaneous Symbols | 256 | 256 | Common | |
U+2700..U+27BF | Dingbats | 装飾記号 Dingbats | 192 | 192 | Common | |
U+27C0..U+27EF | Miscellaneous Mathematical Symbols-A | その他の数学記号A Miscellaneous Mathematical Symbols-A | 48 | 48 | Common | |
0 BMP | U+27F0..U+27FF | Supplemental Arrows-A | 補助矢印A Supplemental Arrows-A | 16 | 16 | Common |
U+2800..U+28FF | Braille Patterns | 点字図形 Braille Patterns | 256 | 256 | 点字 | |
U+2900..U+297F | Supplemental Arrows-B | 補助矢印B Supplemental Arrows-B | 128 | 128 | Common | |
U+2980..U+29FF | Miscellaneous Mathematical Symbols-B | その他の数学記号B Miscellaneous Mathematical Symbols-B | 128 | 128 | Common | |
U+2A00..U+2AFF | Supplemental Mathematical Operators | 補助数学記号 Supplemental Mathematical Operators | 256 | 256 | Common | |
U+2B00..U+2BFF | Miscellaneous Symbols and Arrows | その他の記号及び矢印 Miscellaneous Symbols and Arrows | 256 | 252 | Common | |
U+2C00..U+2C5F | Glagolitic | グラゴル文字 Glagolitic | 96 | 94 | グラゴル文字 | |
U+2C60..U+2C7F | Latin Extended-C | ラテン文字拡張C Latin Extended-C | 32 | 32 | ラテン文字 | |
U+2C80..U+2CFF | Coptic | コプト文字 Coptic | 128 | 123 | コプト文字 | |
U+2D00..U+2D2F | Georgian Supplement | グルジア文字補助 Georgian Supplement | 48 | 40 | グルジア文字 | |
0 BMP | U+2D30..U+2D7F | Tifinagh | ティフィナグ文字 Tifinagh | 80 | 59 | ティフィナグ文字 |
U+2D80..U+2DDF | Ethiopic Extended | エチオピア文字拡張 Ethiopic Extended | 96 | 79 | エチオピア文字 | |
U+2DE0..U+2DFF | Cyrillic Extended-A | キリル文字拡張A Cyrillic Extended-A | 32 | 32 | キリル文字 | |
U+2E00..U+2E7F | Supplemental Punctuation | 補助句読点 Supplemental Punctuation | 128 | 80 | Common | |
U+2E80..U+2EFF | CJK Radicals Supplement | CJK部首補助 CJK Radicals Supplement | 128 | 115 | 漢字 | |
U+2F00..U+2FDF | Kangxi Radicals | 康煕部首 Kangxi Radicals | 224 | 214 | 漢字 | |
U+2FF0..U+2FFF | Ideographic Description Characters | 漢字構成記述文字 Ideographic Description Characters | 16 | 12 | Common | |
U+3000..U+303F | CJK Symbols and Punctuation | CJKの記号及び句読点 en:CJK Symbols and Punctuation | 64 | 64 | 漢字 (15文字), ハングル (2文字), Common (43文字), Inherited (4文字) | |
U+3040..U+309F | Hiragana | 平仮名 Hiragana | 96 | 93 | 平仮名 (89文字), Common (2文字), Inherited (2文字) | |
U+30A0..U+30FF | Katakana | 片仮名 Katakana | 96 | 96 | 片仮名 (93文字), Common (3文字) | |
0 BMP | U+3100..U+312F | Bopomofo | 注音字母 Bopomofo | 48 | 42 | 注音符号 |
U+3130..U+318F | Hangul Compatibility Jamo | ハングル互換字母 Hangul Compatibility Jamo | 96 | 94 | ハングル | |
U+3190..U+319F | Kanbun | 漢文用記号 Kanbun | 16 | 16 | Common | |
U+31A0..U+31BF | Bopomofo Extended | 注音字母拡張 en:Bopomofo Extended | 32 | 27 | 注音符号 | |
U+31C0..U+31EF | CJK Strokes | CJKの筆画 CJK Strokes | 48 | 36 | Common | |
U+31F0..U+31FF | Katakana Phonetic Extensions | 片仮名拡張 Katakana Phonetic Extensions | 16 | 16 | 片仮名 | |
U+3200..U+32FF | Enclosed CJK Letters and Months | 囲みCJK文字・月 Enclosed CJK Letters and Months | 256 | 255 | ハングル (62文字), 片仮名 (47文字), Common (146文字) | |
U+3300..U+33FF | CJK Compatibility | CJK互換用文字 CJK Compatibility | 256 | 256 | 片仮名 (88文字), Common (168文字) | |
U+3400..U+4DBF | CJK Unified Ideographs Extension A | CJK統合漢字拡張A CJK Unified Ideographs Extension A | 6,592 | 6,582 | 漢字 | |
U+4DC0..U+4DFF | Yijing Hexagram Symbols | 易経記号 Yijing Hexagram Symbols | 64 | 64 | Common | |
0 BMP | U+4E00..U+9FFF | CJK Unified Ideographs | CJK統合漢字 CJK Unified Ideographs | 20,992 | 20,976 | 漢字 |
U+A000..U+A48F | Yi Syllables | イ文字 Yi Syllables | 1,168 | 1,165 | イ文字 | |
U+A490..U+A4CF | Yi Radicals | イ文字部首 Yi Radicals | 64 | 55 | イ文字 | |
U+A4D0..U+A4FF | Lisu | リス文字 Lisu | 48 | 48 | リス文字 | |
U+A500..U+A63F | Vai | ヴァイ文字 Vai | 320 | 300 | ヴァイ文字 | |
U+A640..U+A69F | Cyrillic Extended-B | キリル文字拡張B Cyrillic Extended-B | 96 | 96 | キリル文字 | |
U+A6A0..U+A6FF | Bamum | バムン文字 Bamum | 96 | 88 | バムン文字 | |
U+A700..U+A71F | Modifier Tone Letters | 声調修飾文字 Modifier Tone Letters | 32 | 32 | Common | |
U+A720..U+A7FF | Latin Extended-D | ラテン文字拡張D Latin Extended-D | 224 | 174 | ラテン文字 (169文字), Common (5文字) | |
U+A800..U+A82F | Syloti Nagri | シロティ・ナグリ文字 Syloti Nagri | 48 | 44 | シロティ・ナグリ文字 | |
0 BMP | U+A830..U+A83F | Common Indic Number Forms | インド慣用数量記号 Common Indic Number Forms | 16 | 10 | Common |
U+A840..U+A87F | Phags-pa | パスパ文字 Phags-pa | 64 | 56 | パスパ文字 | |
U+A880..U+A8DF | Saurashtra | サウラーシュトラ文字 Saurashtra | 96 | 82 | サウラーシュトラ文字 | |
U+A8E0..U+A8FF | Devanagari Extended | デーヴァナーガリー文字拡張 Devanagari Extended | 32 | 32 | デーヴァナーガリー文字 | |
U+A900..U+A92F | Kayah Li | カヤー文字 Kayah Li | 48 | 48 | カヤー文字 (47文字), Common (1文字) | |
U+A930..U+A95F | Rejang | ルジャン文字 Rejang | 48 | 37 | ルジャン文字 | |
U+A960..U+A97F | Hangul Jamo Extended-A | ハングル字母拡張A Hangul Jamo Extended-A | 32 | 29 | ハングル | |
U+A980..U+A9DF | Javanese | ジャワ文字 Javanese | 96 | 91 | ジャワ文字 (90文字), Common (1文字) | |
U+A9E0..U+A9FF | Myanmar Extended-B | ビルマ文字拡張B Myanmar Extended-B | 32 | 31 | ビルマ文字 | |
U+AA00..U+AA5F | Cham | チャム文字 Cham | 96 | 83 | チャム文字 | |
0 BMP | U+AA60..U+AA7F | Myanmar Extended-A | ビルマ文字拡張A Myanmar Extended-A | 32 | 32 | ビルマ文字 |
U+AA80..U+AADF | Tai Viet | タイ・ヴィエト文字 Tai Viet | 96 | 72 | タイ・ヴィエト文字 | |
U+AAE0..U+AAFF | Meetei Mayek Extensions | メイテイ文字拡張 Meetei Mayek Extensions | 32 | 23 | メイテイ文字 | |
U+AB00..U+AB2F | Ethiopic Extended-A | エチオピア文字拡張A Ethiopic Extended-A | 48 | 32 | エチオピア文字 | |
U+AB30..U+AB6F | Latin Extended-E | ラテン文字拡張E Latin Extended-E | 64 | 56 | ラテン文字 (54文字), ギリシア文字 (1文字), Common (1文字) | |
U+AB70..U+ABBF | Cherokee Supplement | チェロキー文字補助 Cherokee Supplement | 80 | 80 | チェロキー文字 | |
U+ABC0..U+ABFF | Meetei Mayek | メイテイ文字 Meetei Mayek | 64 | 56 | メイテイ文字 | |
U+AC00..U+D7AF | Hangul Syllables | ハングル音節文字 Hangul Syllables | 11,184 | 11,172 | ハングル | |
U+D7B0..U+D7FF | Hangul Jamo Extended-B | ハングル字母拡張B Hangul Jamo Extended-B | 80 | 72 | ハングル | |
U+D800..U+DB7F | High Surrogates | サロゲート (high surrogate) High Surrogates | 896 | 0 | Unknown | |
0 BMP | U+DB80..U+DBFF | High Private Use Surrogates | サロゲート (high private use surrogate) High Private Use Surrogates | 128 | 0 | Unknown |
U+DC00..U+DFFF | Low Surrogates | サロゲート (low surrogate) Low Surrogates | 1,024 | 0 | Unknown | |
U+E000..U+F8FF | Private Use Area | 私用領域 Private Use Area | 6,400 | 6,400 | Unknown | |
U+F900..U+FAFF | CJK Compatibility Ideographs | CJK互換漢字 CJK Compatibility Ideographs | 512 | 472 | 漢字 | |
U+FB00..U+FB4F | Alphabetic Presentation Forms | アルファベット表示形 Alphabetic Presentation Forms | 80 | 58 | Armenian (5文字), Hebrew (46文字), ラテン文字 (7文字) | |
U+FB50..U+FDFF | Arabic Presentation Forms-A | アラビア表示形A Arabic Presentation Forms-A | 688 | 611 | アラビア文字 (609文字), Common (2文字) | |
U+FE00..U+FE0F | Variation Selectors | 字形選択子 Variation Selectors | 16 | 16 | Inherited | |
U+FE10..U+FE1F | Vertical Forms | 縦書き形 Vertical Forms | 16 | 10 | Common | |
U+FE20..U+FE2F | Combining Half Marks | 合成可能な半記号 Combining Half Marks | 16 | 16 | キリル文字 (2文字), Inherited (14文字) | |
U+FE30..U+FE4F | CJK Compatibility Forms | CJK互換形 CJK Compatibility Forms | 32 | 32 | Common | |
0 BMP | U+FE50..U+FE6F | Small Form Variants | 小字形 Small Form Variants | 32 | 26 | Common |
U+FE70..U+FEFF | Arabic Presentation Forms-B | アラビア表示形B Arabic Presentation Forms-B | 144 | 141 | アラビア文字 (140文字), Common (1文字) | |
U+FF00..U+FFEF | Halfwidth and Fullwidth Forms | 半角・全角形 Halfwidth and Fullwidth Forms | 240 | 225 | ハングル (52文字), 片仮名 (55文字), ラテン文字 (52文字), Common (66文字) | |
U+FFF0..U+FFFF | Specials | 特殊用途文字 Specials | 16 | 5 | Common | |
1 SMP | U+10000..U+1007F | Linear B Syllabary | 線文字B音節文字 Linear B Syllabary | 128 | 88 | 線文字B |
U+10080..U+100FF | Linear B Ideograms | 線文字B表意文字 Linear B Ideograms | 128 | 123 | 線文字B | |
U+10100..U+1013F | Aegean Numbers | エーゲ数字 Aegean Numbers | 64 | 57 | Common | |
U+10140..U+1018F | Ancient Greek Numbers | 古代ギリシア数字 Ancient Greek Numbers | 80 | 79 | ギリシア文字 | |
U+10190..U+101CF | Ancient Symbols | 古代記号 Ancient Symbols | 64 | 13 | ギリシア文字 (1文字), Common (12文字) | |
U+101D0..U+101FF | Phaistos Disc | ファイストスの円盤文字 Phaistos Disc | 48 | 46 | Common (45文字), Inherited (1文字) | |
U+10280..U+1029F | Lycian | リュキア文字 Lycian | 32 | 29 | リュキア文字 | |
U+102A0..U+102DF | Carian | カリア文字 Carian | 64 | 49 | カリア文字 | |
U+102E0..U+102FF | Coptic Epact Numbers | コプト・エパクト数字 Coptic Epact Numbers | 32 | 28 | Common (27文字), Inherited (1文字) | |
U+10300..U+1032F | Old Italic | 古代イタリア文字 Old Italic | 48 | 39 | 古代イタリア文字 | |
1 SMP | U+10330..U+1034F | Gothic | ゴート文字 Gothic | 32 | 27 | ゴート文字 |
U+10350..U+1037F | Old Permic | 古ペルム文字 Old Permic | 48 | 43 | 古ペルム文字 | |
U+10380..U+1039F | Ugaritic | ウガリト文字 Ugaritic | 32 | 31 | ウガリト文字 | |
U+103A0..U+103DF | Old Persian | 古代ペルシャ文字 Old Persian | 64 | 50 | 古代ペルシャ文字 | |
U+10400..U+1044F | Deseret | デザレット文字 Deseret | 80 | 80 | デザレット文字 | |
U+10450..U+1047F | Shavian | ショー文字 Shavian | 48 | 48 | ショー文字 | |
U+10480..U+104AF | Osmanya | オスマニア文字 Osmanya | 48 | 40 | オスマニヤ文字 | |
U+104B0..U+104FF | Osage | オセージ文字 Osage | 80 | 72 | オセージ文字 | |
U+10500..U+1052F | Elbasan | エルバサン文字 Elbasan | 48 | 40 | エルバサン文字 | |
U+10530..U+1056F | Caucasian Albanian | カフカス・アルバニア文字 Caucasian Albanian | 64 | 53 | カフカス・アルバニア文字 | |
1 SMP | U+10570..U+105BF | Vithkuqi | ビタクチェ文字 Vithkuqi | 80 | 70 | ビタクチェ文字 |
U+10600..U+1077F | Linear A | 線文字A Linear A | 384 | 341 | 線文字A | |
U+10780..U+107BF | Latin Extended-F | ラテン文字拡張F Latin Extended-F | 64 | 57 | ラテン文字 | |
U+10800..U+1083F | Cypriot Syllabary | キプロス音節文字 Cypriot Syllabary | 64 | 55 | キプロス音節文字 | |
U+10840..U+1085F | Imperial Aramaic | 帝国アラム文字 Imperial Aramaic | 32 | 31 | アラム文字 | |
U+10860..U+1087F | Palmyrene | パルミラ文字 Palmyrene | 32 | 32 | パルミラ文字 | |
U+10880..U+108AF | Nabataean | ナバテア文字 Nabataean | 48 | 40 | ナバテア文字 | |
U+108E0..U+108FF | Hatran | ハトラ文字 Hatran | 32 | 26 | ハトラ文字 | |
U+10900..U+1091F | Phoenician | フェニキア文字 Phoenician | 32 | 29 | フェニキア文字 | |
U+10920..U+1093F | Lydian | リュディア文字 Lydian | 32 | 27 | リュディア文字 | |
1 SMP | U+10980..U+1099F | Meroitic Hieroglyphs | メロエ文字楷書体 Meroitic Hieroglyphs | 32 | 32 | メロエ文字楷書体 |
U+109A0..U+109FF | Meroitic Cursive | メロエ文字草書体 Meroitic Cursive | 96 | 90 | メロエ文字草書体 | |
U+10A00..U+10A5F | Kharoshthi | カローシュティー文字 Kharoshthi | 96 | 68 | カローシュティー文字 | |
U+10A60..U+10A7F | Old South Arabian | 古代南アラビア文字 Old South Arabian | 32 | 32 | 古代南アラビア文字 | |
U+10A80..U+10A9F | Old North Arabian | 古代北アラビア文字 Old North Arabian | 32 | 32 | 古代北アラビア文字 | |
U+10AC0..U+10AFF | Manichaean | マニ文字 Manichaean | 64 | 51 | マニ文字 | |
U+10B00..U+10B3F | Avestan | アヴェスタ文字 Avestan | 64 | 61 | アヴェスタ文字 | |
U+10B40..U+10B5F | Inscriptional Parthian | 碑文パルティア文字 Inscriptional Parthian | 32 | 30 | 碑文パルティア文字 | |
U+10B60..U+10B7F | Inscriptional Pahlavi | 碑文パフラヴィ文字 Inscriptional Pahlavi | 32 | 27 | 碑文パフラヴィ文字 | |
U+10B80..U+10BAF | Psalter Pahlavi | 詩編パフラヴィ文字 Psalter Pahlavi | 48 | 29 | 詩編パフラヴィ文字 | |
1 SMP | U+10C00..U+10C4F | Old Turkic | 突厥文字 Old Turkic | 80 | 73 | 突厥文字 |
U+10C80..U+10CFF | Old Hungarian | 古ハンガリー文字 Old Hungarian | 128 | 108 | 古ハンガリー文字 | |
U+10D00..U+10D3F | Hanifi Rohingya | ハニーフィー・ロヒンギャ文字 Hanifi Rohingya | 64 | 50 | ハニーフィー・ロヒンギャ文字 | |
U+10E60..U+10E7F | Rumi Numeral Symbols | ルミ数字記号 Rumi Numeral Symbols | 32 | 31 | アラビア文字 | |
U+10E80..U+10EBF | Yezidi | ヤズィーディー文字 Yezidi | 64 | 47 | ヤズィーディー文字 | |
U+10EC0..U+10EFF | Arabic Extended-C | アラビア文字拡張C Arabic Extended-C | 64 | 3 | アラビア文字 | |
U+10F00..U+10F2F | Old Sogdian | 古ソグド文字 Old Sogdian | 48 | 40 | 古ソグド文字 | |
U+10F30..U+10F6F | Sogdian | ソグド文字 Sogdian | 64 | 42 | ソグド文字 | |
U+10F70..U+10FAF | Old Uyghur | 古ウイグル文字 Old Uyghur | 64 | 26 | 古ウイグル文字 | |
U+10FB0..U+10FDF | Chorasmian | ホラズム文字 Chorasmian | 48 | 28 | ホラズム文字 | |
1 SMP | U+10FE0..U+10FFF | Elymaic | エリマイス文字 Elymaic | 32 | 23 | エリマイス文字 |
U+11000..U+1107F | Brahmi | ブラーフミー文字 Brahmi | 128 | 109 | ブラーフミー文字 | |
U+11080..U+110CF | Kaithi | カイティー文字 Kaithi | 80 | 67 | カイティー文字 | |
U+110D0..U+110FF | Sora Sompeng | ソラングソンペング文字 Sora Sompeng | 48 | 35 | ソラング・ソンペング文字 | |
U+11100..U+1114F | Chakma | チャクマ文字 Chakma | 80 | 70 | チャクマ文字 | |
U+11150..U+1117F | Mahajani | マハージャニー文字 Mahajani | 48 | 39 | マハージャニー文字 | |
U+11180..U+111DF | Sharada | シャーラダー文字 Sharada | 96 | 94 | シャーラダー文字 | |
U+111E0..U+111FF | Sinhala Archaic Numbers | 旧シンハラ数字 Sinhala Archaic Numbers | 32 | 20 | シンハラ文字 | |
U+11200..U+1124F | Khojki | ホジャ文字 Khojki | 80 | 62 | ホジャ文字 | |
U+11280..U+112AF | Multani | ムルターニー文字 Multani | 48 | 38 | ムルターニー文字 | |
1 SMP | U+112B0..U+112FF | Khudawadi | フダーワーディー文字 Khudawadi | 80 | 69 | フダーワーディー文字 |
U+11300..U+1137F | Grantha | グランタ文字 Grantha | 128 | 86 | グランタ文字 | |
U+11400..U+1147F | Newa | ネワ文字 Newa | 128 | 92 | ネワ文字 | |
U+11480..U+114DF | Tirhuta | ティルフータ文字 Tirhuta | 96 | 82 | マイティリー文字 | |
U+11580..U+115FF | Siddham | 悉曇文字 Siddham | 128 | 92 | 悉曇文字 | |
U+11600..U+1165F | Modi | モーディー文字 Modi | 96 | 79 | モーディー文字 | |
U+11660..U+1167F | Mongolian Supplement | モンゴル文字補助 Mongolian Supplement | 32 | 13 | モンゴル文字 | |
U+11680..U+116CF | Takri | タークリー文字 Takri | 80 | 67 | タークリー文字 | |
U+11700..U+1174F | Ahom | アーホム文字 Ahom | 80 | 58 | アーホム文字 | |
U+11800..U+1184F | Dogra | ドーグリー文字 Dogra | 80 | 60 | ドーグリー文字 | |
1 SMP | U+118A0..U+118FF | Warang Citi | ワラング・クシティ文字 Warang Citi | 96 | 84 | ワラング・クシティ文字 |
U+11900..U+1195F | Dives Akuru | ディヴェス・アクル文字 Dives Akuru | 96 | 72 | ディヴェス・アクル文字 | |
U+119A0..U+119FF | Nandinagari | ナンディナーガリー文字 Nandinagari | 96 | 65 | ナンディナーガリー文字 | |
U+11A00..U+11A4F | Zanabazar Square | ザナバザル方形文字 Zanabazar Square | 80 | 72 | ザナバザル方形文字 | |
U+11A50..U+11AAF | Soyombo | ソヨンボ文字 Soyombo | 96 | 83 | ソヨンボ文字 | |
U+11AB0..U+11ABF | Unified Canadian Aboriginal Syllabics Extended-A | 統合カナダ先住民音節拡張A Unified Canadian Aboriginal Syllabics Extended-A | 16 | 16 | カナダ先住民文字 | |
U+11AC0..U+11AFF | Pau Cin Hau | パウ・チン・ハウ文字 Pau Cin Hau | 64 | 57 | パウ・チン・ハウ文字 | |
U+11C00..U+11C6F | Bhaiksuki | バイクシュキー文字 Bhaiksuki | 112 | 97 | バイクシュキー文字 | |
U+11C70..U+11CBF | Marchen | マルチェン文字 Marchen | 80 | 68 | マルチェン文字 | |
U+11D00..U+11D5F | Masaram Gondi | マサラム・ゴーンディー文字 Masaram Gondi | 96 | 75 | マサラム・ゴーンディー文字 | |
1 SMP | U+11D60..U+11DAF | Gunjala Gondi | グンジャラ・ゴーンディー文字 Gunjala Gondi | 80 | 63 | グンジャラ・ゴーンディー文字 |
U+11EE0..U+11EFF | Makasar | マカッサル文字 Makasar | 32 | 25 | マカッサル文字 | |
U+11F00..U+11F5F | Kawi | カウィ文字 Kawi | 96 | 86 | カウィ文字 | |
U+11FB0..U+11FBF | Lisu Supplement | リス文字補助 Lisu Supplement | 16 | 1 | リス文字 | |
U+11FC0..U+11FFF | Tamil Supplement | タミル文字補助 Tamil Supplement | 64 | 51 | タミル文字 | |
U+12000..U+123FF | Cuneiform | 楔形文字 Cuneiform | 1,024 | 922 | 楔形文字 | |
U+12400..U+1247F | Cuneiform Numbers and Punctuation | 楔形文字の数字及び句読点 Cuneiform Numbers and Punctuation | 128 | 116 | 楔形文字 | |
U+12480..U+1254F | Early Dynastic Cuneiform | シュメール楔形文字 Early Dynastic Cuneiform | 208 | 196 | 楔形文字 | |
U+12F90..U+12FFF | Cypro-Minoan | キュプロ・ミノア文字 Cypro-Minoan | 112 | 99 | キュプロ・ミノア文字 | |
U+13000..U+1342F | Egyptian Hieroglyphs | エジプト聖刻文字 Egyptian Hieroglyphs | 1,072 | 1,071 | エジプト聖刻文字 | |
1 SMP | U+13430..U+1343F | Egyptian Hieroglyph Format Controls | エジプト聖刻文字書式制御記号 Egyptian Hieroglyph Format Controls | 16 | 9 | エジプト聖刻文字 |
U+14400..U+1467F | Anatolian Hieroglyphs | アナトリア聖刻文字 Anatolian Hieroglyphs | 640 | 583 | アナトリア聖刻文字 | |
U+16800..U+16A3F | Bamum Supplement | バムン文字補助 Bamum Supplement | 576 | 569 | バムン文字 | |
U+16A40..U+16A6F | Mro | ムロ文字 Mro | 48 | 43 | ムロ文字 | |
U+16AD0..U+16AFF | Bassa Vah | バサ文字 Bassa Vah | 48 | 36 | バサ文字 | |
U+16B00..U+16B8F | Pahawh Hmong | パハウ・フモン文字 Pahawh Hmong | 144 | 127 | パハウ・フモン文字 | |
U+16E40..U+16E9F | Medefaidrin | メデファイドリン文字 Medefaidrin | 96 | 91 | メデファイドリン文字 | |
U+16F00..U+16F9F | Miao | ミャオ文字 Miao | 160 | 149 | ミャオ文字 | |
U+16FE0..U+16FFF | Ideographic Symbols and Punctuation | 漢字の記号及び句読点 Ideographic Symbols and Punctuation | 32 | 4 | 女書 (1文字), 西夏文字 (1文字), Common (2文字) | |
U+17000..U+187FF | Tangut | 西夏文字 Tangut | 6,144 | 6,136 | 西夏文字 | |
1 SMP | U+18800..U+18AFF | Tangut Components | 西夏文字の構成要素 Tangut Components | 768 | 755 | 西夏文字 |
U+18B00..U+18CFF | Khitan Small Script | 契丹小字 Khitan Small Script | 512 | 470 | 契丹小字 | |
U+18D00..U+18D7F | Tangut Supplement | 西夏文字補助 Tangut Supplement | 128 | 9 | 西夏文字 | |
U+1AFF0..U+1AFFF | Kana Extended-B | 仮名拡張B Kana Extended-B | 16 | 13 | 片仮名 | |
U+1B000..U+1B0FF | Kana Supplement | 仮名補助 Kana Supplement | 256 | 256 | 平仮名 (255文字), 片仮名 (1文字) | |
U+1B100..U+1B12F | Kana Extended-A | 仮名拡張A Kana Extended-A | 48 | 31 | 平仮名 (32文字), 片仮名 (3文字) | |
U+1B130..U+1B16F | Small Kana Extension | 小書き仮名拡張 Small Kana Extension | 64 | 7 | 平仮名(4文字), 片仮名(5文字) | |
U+1B170..U+1B2FF | Nushu | 女書 Nushu | 400 | 396 | 女書 | |
U+1BC00..U+1BC9F | Duployan | デュプロワイエ式速記 Duployan | 160 | 143 | デュプロワイエ式速記 | |
U+1BCA0..U+1BCAF | Shorthand Format Controls | 速記書式制御記号 Shorthand Format Controls | 16 | 4 | Common | |
1 SMP | U+1CF00..U+1CFCF | Znamenny Musical Notation | ズナメニ聖歌音符 Znamenny Musical Notation | 208 | 185 | Common (116文字),Inherited (69文字) |
U+1D000..U+1D0FF | Byzantine Musical Symbols | ビザンチン音楽記号 Byzantine Musical Symbols | 256 | 246 | Common | |
U+1D100..U+1D1FF | Musical Symbols | 音楽記号 Musical Symbols | 256 | 231 | Common (209文字), Inherited (22文字) | |
U+1D200..U+1D24F | Ancient Greek Musical Notation | 古代ギリシア音符記号 Ancient Greek Musical Notation | 80 | 70 | ギリシア文字 | |
U+1D2C0..U+1D2DF | Kaktovik Numerals | カクトヴィク数字 Kaktovik Numerals | 32 | 20 | Common | |
U+1D2E0..U+1D2FF | Mayan Numerals | マヤ数字 Mayan Numerals | 32 | 20 | Common | |
U+1D300..U+1D35F | Tai Xuan Jing Symbols | 太玄経記号 Tai Xuan Jing Symbols | 96 | 87 | Common | |
U+1D360..U+1D37F | Counting Rod Numerals | 算木用数字 en:Counting Rod Numerals | 32 | 25 | Common | |
U+1D400..U+1D7FF | Mathematical Alphanumeric Symbols | 数学用英数字記号 Mathematical Alphanumeric Symbols | 1,024 | 996 | Common | |
U+1D800..U+1DAAF | Sutton SignWriting | サットン手話表記法 Sutton SignWriting | 688 | 672 | サットン手話表記法 | |
1 SMP | U+1DF00..U+1DFFF | Latin Extended-G | ラテン文字拡張G Latin Extended-G | 256 | 37 | ラテン文字 |
U+1E000..U+1E02F | Glagolitic Supplement | グラゴル文字補助 Glagolitic Supplement | 48 | 38 | グラゴル文字 | |
U+1E030..U+1E08F | Cyrillic Extended-D | キリル文字拡張D Cyrillic Extended-D | 96 | 63 | キリル文字 | |
U+1E100..U+1E14F | Nyiakeng Puachue Hmong | Nyiakeng Puachue Hmong文字 Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong文字 | |
U+1E290..U+1E2BF | Toto | トト Toto | 48 | 31 | トト文字 | |
U+1E2C0..U+1E2FF | Wancho | ワンチョ文字 Wancho | 64 | 59 | ワンチョ文字 | |
U+1E4D0..U+1E4FF | Nag Mundari | ムンダリ・バニ文字 Nag Mundari | 48 | 42 | ムンダリ・バニ文字 | |
U+1E7E0..U+1E7FF | Ethiopic Extended-B | エチオピア文字拡張B Ethiopic Extended-B | 32 | 28 | エチオピア文字 | |
U+1E800..U+1E8DF | Mende Kikakui | メンデ文字 Mende Kikakui | 224 | 213 | メンデ文字 | |
U+1E900..U+1E95F | Adlam | アドラム文字 Adlam | 96 | 88 | アドラム文字 | |
1 SMP | U+1EC70..U+1ECBF | Indic Siyaq Numbers | インド・シヤク数字 Indic Siyaq Numbers | 80 | 68 | Common |
U+1ED00..U+1ED4F | Ottoman Siyaq Numbers | オスマン・シヤク数字 Ottoman Siyaq Numbers | 80 | 61 | Common | |
U+1EE00..U+1EEFF | Arabic Mathematical Alphabetic Symbols | アラビア数字記号 Arabic Mathematical Alphabetic Symbols | 256 | 143 | アラビア文字 | |
U+1F000..U+1F02F | Mahjong Tiles | マージャン記号 Mahjong Tiles | 48 | 44 | Common | |
U+1F030..U+1F09F | Domino Tiles | ドミノ記号 en:Domino Tiles | 112 | 100 | Common | |
U+1F0A0..U+1F0FF | Playing Cards | トランプ記号 Playing Cards | 96 | 82 | Common | |
U+1F100..U+1F1FF | Enclosed Alphanumeric Supplement | 囲み英数字補助 Enclosed Alphanumeric Supplement | 256 | 193 | Common | |
U+1F200..U+1F2FF | Enclosed Ideographic Supplement | 囲み漢字補助 Enclosed Ideographic Supplement | 256 | 64 | 平仮名 (1文字), Common (63文字) | |
U+1F300..U+1F5FF | Miscellaneous Symbols and Pictographs | その他の記号及び絵記号 Miscellaneous Symbols and Pictographs | 768 | 768 | Common | |
U+1F600..U+1F64F | Emoticons | 顔文字 Emoticons | 80 | 80 | Common | |
1 SMP | U+1F650..U+1F67F | Ornamental Dingbats | 装飾用絵記号 Ornamental Dingbats | 48 | 48 | Common |
U+1F680..U+1F6FF | Transport and Map Symbols | 交通及び地図記号 Transport and Map Symbols | 128 | 110 | Common | |
U+1F700..U+1F77F | Alchemical Symbols | 錬金術記号 Alchemical Symbols | 128 | 116 | Common | |
U+1F780..U+1F7FF | Geometric Shapes Extended | 幾何学模様拡張 Geometric Shapes Extended | 128 | 101 | Common | |
U+1F800..U+1F8FF | Supplemental Arrows-C | 補助矢印C Supplemental Arrows-C | 256 | 148 | Common | |
U+1F900..U+1F9FF | Supplemental Symbols and Pictographs | 補助記号及び絵記号 Supplemental Symbols and Pictographs | 256 | 244 | Common | |
U+1FA00..U+1FA6F | Chess Symbols | チェス記号 Chess Symbols | 112 | 98 | Common | |
U+1FA70..U+1FAFF | Symbols and Pictographs Extended-A | 記号及び絵記号拡張A Symbols and Pictographs Extended-A | 144 | 16 | Common | |
U+1FB00..U+1FBFF | Symbols for Legacy Computing | 旧型コンピュータ記号 Symbols for Legacy Computing | 256 | 212 | Common | |
2 SIP | U+20000..U+2A6DF | CJK Unified Ideographs Extension B | CJK統合漢字拡張B CJK Unified Ideographs Extension B | 42,720 | 42,711 | 漢字 |
U+2A700..U+2B73F | CJK Unified Ideographs Extension C | CJK統合漢字拡張C en:CJK Unified Ideographs Extension C | 4,160 | 4,149 | 漢字 | |
U+2B740..U+2B81F | CJK Unified Ideographs Extension D | CJK統合漢字拡張D en:CJK Unified Ideographs Extension D | 224 | 222 | 漢字 | |
U+2B820..U+2CEAF | CJK Unified Ideographs Extension E | CJK統合漢字拡張E en:CJK Unified Ideographs Extension E | 5,776 | 5,762 | 漢字 | |
U+2CEB0..U+2EBEF | CJK Unified Ideographs Extension F | CJK統合漢字拡張F en:CJK Unified Ideographs Extension F | 7,488 | 7,473 | 漢字 | |
U+2EBF0..U+2EE5F | CJK Unified Ideographs Extension I | CJK統合漢字拡張I en:CJK Unified Ideographs Extension I | 624 | 622 | 漢字 | |
U+2F800..U+2FA1F | CJK Compatibility Ideographs Supplement | CJK互換漢字補助 en:CJK Compatibility Ideographs Supplement | 544 | 542 | 漢字 | |
3 TIP | U+30000..U+3134F | CJK Unified Ideographs Extension G | CJK統合漢字拡張G en:CJK Unified Ideographs Extension G | 4,944 | 4,939 | 漢字 |
U+31350..U+323AF | CJK Unified Ideographs Extension H | CJK統合漢字拡張H en:CJK Unified Ideographs Extension H | 4,192 | 4,192 | 漢字 | |
14 SSP | U+E0000..U+E007F | Tags | タグ Tags | 128 | 97 | Common |
U+E0100..U+E01EF | Variation Selectors Supplement | 字形選択子補助 en:Variation Selectors Supplement | 240 | 240 | Inherited | |
15 PUA-A | U+F0000..U+FFFFF | Supplementary Private Use Area-A | 補助私用領域A Supplementary Private Use Area-A | 65,536 | 65,534 | Unknown |
16 PUA-B | U+100000..U+10FFFF | Supplementary Private Use Area-B | 補助私用領域B Supplementary Private Use Area-B | 65,536 | 65,534 | Unknown |
|
脚注
[編集]注釈
[編集]- ^ UTF-8はPlan 9が由来。
- ^ 例えばShift_JISの実装であるCP932やMacJapanese、EUC-JPの亜種であるCP51932とeucJP-ms、など。
- ^ 図形文字、書式文字。
- ^ a b 「吉」U+5409 の異体字で、上部が「士」ではなく「土」となっており、下の棒が長い。「つちよし」とも。
- ^ 通貨のユーロ記号。
- ^ 2019年3月現在では、古代漢字や甲骨文字はまだ1文字も収録されていない。
- ^ RFC 3629の 5. Versions of the standards でKorean mess(ハングル大移動)について、8. MIME registration でUTF-8にバージョン指定がない理由についての言及がある。
出典
[編集]- ^ a b 師茂樹「Unicodeとのつきあい方 ―漢字文化圏を中心に―」第27巻、一般社団法人 CIEC、2009年、2020年5月14日閲覧。
- ^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 921 (2018年6月5日). 2019年2月23日閲覧。 “Today both organizations are firmly committed to maintaining the synchronization between the Unicode Standard and ISO/IEC 10646.”
- ^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 3 (2018年6月5日). 2019年1月15日閲覧。
- ^ “UTR#17: Unicode Character Encoding Model” (English). The Unicode Consortium (2008年11月11日). 2019年5月21日閲覧。
- ^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “The range of integers used to code the abstract characters is called the codespace. A particular integer in this set is called a code point. When an abstract character is mapped or assigned to a particular code point in the codespace, it is then referred to as an encoded character.”
- ^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “an abstract character may be represented by a sequence of two (or more) other encoded characters.”
- ^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 1,29 (2018年6月5日). 2019年1月15日閲覧。
- ^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 954 (2019年5月7日). 2019年5月21日閲覧。
- ^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 120 (2018年6月5日). 2019年1月15日閲覧。 “D76 Unicode scalar value: Any Unicode code point except high-surrogate and low-surrogate code points.”
- ^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 40 (2019年5月7日). 2019年9月26日閲覧。 “Use of a BOM is neither required nor recommended for UTF-8,”
- ^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 119 (2018年6月5日). 2019年1月15日閲覧。 “Surrogate pairs are used only in UTF-16.”
- ^ “About Versions of the Unicode® Standard” (English). Unicode Consortium (2015年6月18日). 2015年7月31日閲覧。
- ^ a b “Components of The Unicode Standard Version 1.0.0” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 1.0.1” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 1.1.0” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 1.1.5” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 2.0.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
- ^ a b “Unicode 2.1.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 2.1.2” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 2.1.5” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 2.1.8” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 2.1.9” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 3.0.0” (English). Unicode Consortium (2010年12月21日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 3.0.1” (English). Unicode Consortium (2010年12月18日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 3.1.0” (English). Unicode Consortium (2010年12月23日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 3.1.1” (English). Unicode Consortium (2010年12月18日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 3.2.0” (English). Unicode Consortium (2010年12月23日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 4.0.0” (English). Unicode Consortium (2010年12月22日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 4.0.1” (English). Unicode Consortium (2010年12月1日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 4.1.0” (English). Unicode Consortium (2010年12月1日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 5.0.0” (English). Unicode Consortium (2011年1月7日). 2013年10月5日閲覧。
- ^ a b Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。
- ^ Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。
- ^ Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。
- ^ a b “Components of The Unicode Standard Version 5.2.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 6.0.0” (English). Unicode Consortium (2011年3月18日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 6.1.0” (English). Unicode Consortium (2012年5月15日). 2013年10月5日閲覧。
- ^ a b “Components of The Unicode Standard Version 6.2.0” (English). Unicode Consortium (2012年11月17日). 2013年10月5日閲覧。
- ^ a<