タミル文字 (Unicodeのブロック)

Unicodeのブロック

タミル文字(タミルもじ、英語: Tamil)は、Unicodeの28個目のブロック

タミル文字 (Unicodeのブロック)
Tamil
範囲 U+0B80..U+0BFF
(128 個の符号位置)
基本多言語面
用字 タミル文字
主な言語・文字体系
割当済 72 個の符号位置
未使用 56 個の保留
Unicodeのバージョン履歴
1.0.0 61 (+61)
4.0 69 (+8)
4.1 71 (+2)
5.1 72 (+1)
公式ページ
コード表 ∣ ウェブページ
テンプレートを表示

解説

編集

インド南東部のタミル・ナードゥ州インド洋の島国スリランカに加え、東南アジアマレーシアシンガポールに居住するインド系住民(印僑)の間などで話されているドラヴィダ語族タミル語を表記するためのタミル文字を収録している。

タミル文字はデーヴァナーガリーなどの他の多くの南アジアの文字体系と同様に、ブラーフミー文字から派生したいわゆるブラーフミー系文字(インド系文字)の一つであり、音素文字のうち子音字単独では短母音/-a/を伴って発音され、別の母音にする際に母音記号を付加することで発音を切り替えるアブギダに分類される。母音記号はものによっては文字の左側に付けられることがあるが、Unicodeにおいては子音字→母音記号の順に入力することとなっており、符号上の文字の置かれる順序と実際のレンダーにおける表示順とが入れ替わる場合がある。

また、デーヴァナーガリー同様頭子音を伴わない単独の母音にも子音字同様に独立した文字が充てられており、子音連続など子音のみで発音する場合は特殊な子音字同士の合字を形成したり、あるいは単に殺母音記号である「プッリ(புள்ளி)」という点の形をした記号を子音字の上に付加する。

書字方向ラテン文字キリル文字などと同様に左から右へと横書き(左横書き)し、下に行を送り、単語毎に分かち書きをする。なお、デーヴァナーガリーやベンガル文字とは異なり文字の上部に水平線(シローレーカー)は持たない。

デーヴァナーガリーなどの印欧語族インド・アーリア語派の言語の表記に用いられる文字体系とは異なり、子音字において有声音であるか無声音であるか、有気音であるか無気音であるかを基本的に区別しない(ただし英語からの借用語の表記のため/ca/と/ja/のみ有声・無声が区別される)。そのため、各調音点における破裂音の子音字はそれぞれ1種類ずつしか存在しない。母音字についてはデーヴァナーガリー等と同様に母音の長短によって文字が分けられている。

符号位置の順序はおおむね伝統的なブラーフミー系文字の順序に従っている。

加えて、アラビア文字タイ文字などと同様に独自の数字体系(タミル数字)を有している。

Unicodeのバージョン1.0においても「タミル文字(Tamil)」というブロック名で制定されていた[1]

収録文字

編集

ラテン文字転写」の列はブラーフミー系文字のラテン文字への翻字方式の一つであるISO 15919に従う。

コード 文字 文字名(英語) 用例・説明 ラテン文字転写
各種記号
U+0B82 TAMIL SIGN ANUSVARA アヌスヴァーラ

直後に音節が後続する子音字に付き、直後の子音と同じ調音点鼻音が挿入されることを表す。日本語における「」に相当する。

タミル語では使用しない[2]

また、後述するプッリ記号も書体によっては小さな丸として書かれることがあるが、Unicode公式文書にはアヌスヴァーラとの混同を避けるよう注意書きされている[2]

U+0B83 TAMIL SIGN VISARGA ヴィサルガ

音節末に[h]を伴うことを表す。

後述するプッリ記号と同様に、書体によっては3つの点が小さな丸で書かれたり中が塗りつぶされた点として書かれたりすることがある[2]

独立母音字
U+0B85 TAMIL LETTER A 短母音[ʌ]を表す。 a
U+0B86 TAMIL LETTER AA 長母音[ɑː]を表す。 ā
U+0B87 TAMIL LETTER I 短母音[i]を表す。 i
U+0B88 TAMIL LETTER II 長母音[iː]を表す。 ī
U+0B89 TAMIL LETTER U 母音[u]を表す。 u
U+0B8A TAMIL LETTER UU 長母音[uː]を表す。 ū
U+0B8B (予約済) [3]
U+0B8C (予約済) [4]
U+0B8D (予約済) ê
U+0B8E TAMIL LETTER E 短母音[e]を表す。 e
U+0B8F TAMIL LETTER EE 長母音[eː]を表す。 ē
U+0B90 TAMIL LETTER AI 二重母音[ʌɪ]を表す。 ai
U+0B91 (予約済) ô
U+0B92 TAMIL LETTER O 短母音[o]を表す。 o
U+0B93 TAMIL LETTER OO 長母音[oː]を表す。 ō
U+0B94 TAMIL LETTER AU 二重母音[ʌʊ]を表す。 au
子音字
U+0B95 TAMIL LETTER KA 子音[k]を表す。 k
U+0B96 (予約済) kh
U+0B97 (予約済) g
U+0B98 (予約済) gh
U+0B99 TAMIL LETTER NGA 子音[ŋ]を表す。

市場における測量単位kuruni/marakkaal(タミル語における測量単位英語版を参照)を表す記号としても用いられる[2]

U+0B9A TAMIL LETTER CA 子音[c]を表す。 c
U+0B9B (予約済) ch
U+0B9C TAMIL LETTER JA 子音[d͡ʒ]を表す。

主になどからの借用語の表記に用いられる。

j
U+0B9D (予約済) jh
U+0B9E TAMIL LETTER NYA 子音[ɲ]を表す。 ñ
U+0B9F TAMIL LETTER TTA 子音[ʈ]を表す。
U+0BA0 (予約済) ṭh
U+0BA1 (予約済)
U+0BA2 (予約済) ḍh
U+0BA3 TAMIL LETTER NNA 子音[ɳ]を表す。
U+0BA4 TAMIL LETTER TA 子音[t]を表す。

市場における測量単位thuuniを表す記号としても用いられる[2]

t
U+0BA5 (予約済) th
U+0BA6 (予約済) d
U+0BA7 (予約済) dh
U+0BA8 TAMIL LETTER NA 子音[n](歯音の[])を表す。 n
U+0BA9 TAMIL LETTER NNNA 子音[n](歯茎音のn、拡張IPA:[n͇])を表す。
U+0BAA TAMIL LETTER PA 子音[p]を表す。 p
U+0BAB (予約済) ph
U+0BAC (予約済) b
U+0BAD (予約済) bh
U+0BAE TAMIL LETTER MA 子音[m]を表す。 m
U+0BAF TAMIL LETTER YA 子音[j]を表す。 y
U+0BB0 TAMIL LETTER RA 子音[ɾ]を表す。 r
U+0BB1 TAMIL LETTER RRA 子音[r]を表す。
U+0BB2 TAMIL LETTER LA 子音[l]を表す。 l
U+0BB3 TAMIL LETTER LLA 子音[ɭ]を表す。

市場における測量単位kalamを表す記号としても用いられる[2]

U+0BB4 TAMIL LETTER LLLA 子音[ɻ]を表す。
U+0BB5 TAMIL LETTER VA 子音[ʋ]を表す。 v
U+0BB6 TAMIL LETTER SHA 子音[ʃ]を表す。

主にンスクリット語などからの借用語の表記に用いられる。

ś
U+0BB7 TAMIL LETTER SSA 子音[ʂ]を表す。

主にンスクリット語などからの借用語の表記に用いられる。

U+0BB8 TAMIL LETTER SA 子音[s]を表す。

主にンスクリット語などからの借用語の表記に用いられる。

s
U+0BB9 TAMIL LETTER HA 子音[h]を表す。

主にンスクリット語などからの借用語の表記に用いられる。

h
従属母音記号
U+0BBE TAMIL VOWEL SIGN AA 長母音[ɑː]を表す。 ā
U+0BBF ி TAMIL VOWEL SIGN I 短母音[i]を表す。 i
U+0BC0 TAMIL VOWEL SIGN II 長母音[iː]を表す。 ī
U+0BC1 TAMIL VOWEL SIGN U 母音[u]を表す。 u
U+0BC2 TAMIL VOWEL SIGN UU 長母音[uː]を表す。 ū
U+0BC3 (予約済) [3]
U+0BC4 (予約済) r̥̄[5]
U+0BC5 (予約済) ê
U+0BC6 TAMIL VOWEL SIGN E 短母音[e]を表す。

文字の左側にレンダーされるため、符号上の文字順序と表示上の順序とが入れ替わる[2]

e
U+0BC7 TAMIL VOWEL SIGN EE 長母音[eː]を表す。

文字の左側にレンダーされるため、符号上の文字順序と表示上の順序とが入れ替わる[2]

ē
U+0BC8 TAMIL VOWEL SIGN AI 二重母音[ʌɪ]を表す。

文字の左側にレンダーされるため、符号上の文字順序と表示上の順序とが入れ替わる[2]

ai
2要素からなる従属母音記号
U+0BCA TAMIL VOWEL SIGN O 短母音[o]を表す。 o
U+0BCB TAMIL VOWEL SIGN OO 長母音[oː]を表す。 ō
U+0BCC TAMIL VOWEL SIGN AU 二重母音[ʌʊ]を表す。 au
ヴィラーマ
U+0BCD TAMIL SIGN VIRAMA プッリ(புள்ளி)あるいは殺母音記号。子音字に付き、随伴母音/-a/を発音せず子音のみが読まれることを表す。

基本的に単に子音字の上に点が合成されるだけであるが、前後の文字によっては特殊な合字を形成するための制御文字として機能することがある。

なお文字名および小分類名の「ヴィラーマ(virama)」とはデーヴァナーガリーにおける同様の機能を持つ記号の名称である。

多くの書体では上に付く点として書かれるが、書体によっては中が中空の丸として書かれることもある。Unicode公式文書では丸形のプッリ記号とU+0B82 ஂ TAMIL SIGN ANUSVARAを混同しないよう注意書きされている[2]

各種記号
U+0BD0 TAMIL OM ヒンドゥー教などにおける聖音のオームを表す記号。
U+0BD1 (予約済)
U+0BD2 (予約済)
U+0BD3 (予約済)
U+0BD4 (予約済)
U+0BD5 (予約済)
U+0BD6 (予約済)
U+0BD7 TAMIL AU LENGTH MARK
予約済
U+0BE4 (予約済) .
U+0BE5 (予約済)
数字
U+0BE6 TAMIL DIGIT ZERO タミル文字における数字の0 0
U+0BE7 TAMIL DIGIT ONE タミル文字における数字の1 1
U+0BE8 TAMIL DIGIT TWO タミル文字における数字の2 2
U+0BE9 TAMIL DIGIT THREE タミル文字における数字の3 3
U+0BEA TAMIL DIGIT FOUR タミル文字における数字の4 4
U+0BEB TAMIL DIGIT FIVE タミル文字における数字の5 5
U+0BEC TAMIL DIGIT SIX タミル文字における数字の6 6
U+0BED TAMIL DIGIT SEVEN タミル文字における数字の7 7
U+0BEE TAMIL DIGIT EIGHT タミル文字における数字の8 8
U+0BEF TAMIL DIGIT NINE タミル文字における数字の9 9
タミル数値
U+0BF0 TAMIL NUMBER TEN タミル数字において10を表す。
U+0BF1 TAMIL NUMBER ONE HUNDRED タミル数字において100を表す。
U+0BF2 TAMIL NUMBER ONE THOUSAND タミル数字において1000を表す。
タミル暦用記号
U+0BF3 TAMIL DAY SIGN カレンダーにおいて「日」を表す単位記号として用いられる[6]
U+0BF4 TAMIL MONTH SIGN カレンダーにおいて「月」を表す単位記号として用いられる[6]
U+0BF5 TAMIL YEAR SIGN カレンダーにおいて「年」を表す単位記号として用いられる[6]
タミル簿記用記号
U+0BF6 TAMIL DEBIT SIGN 簿記における「借方(debit)」を表す[6]
U+0BF7 TAMIL CREDIT SIGN 未知の費用のために確保されている入金現金を表す[2][6]

簿記における「貸方(credit)」の記号として使用されることもあるが、伝統的な貸方記号は区別される[2]

U+0BF8 TAMIL AS ABOVE SIGN 簿記における同上記号。「上記と同様」を意味する[6]
通貨記号
U+0BF9 TAMIL RUPEE SIGN インド・ルピー或いはスリランカ・ルピーを表す通貨記号[6]
タミル簿記用記号
U+0BFA TAMIL NUMBER SIGN 簿記においてバランス(貸借対照)を表す[2][6]

番号記号(欧文などにおける#に対応する)として使われることもあるが、伝統的な番号記号は区別される。[2]

小分類

編集

このブロックの小分類は「各種記号」(Various signs)、「独立母音字」(Independent vowels)、「子音字」(Consonants)、「従属母音記号」(Dependent vowel signs)、「2要素からなる従属母音記号」(Two-part dependent vowel signs)、「ヴィラーマ」(Virama)「予約済」(Reserved)、「数字」(Digits)、「タミル数値」(Tamil numerics)、「タミル暦用記号」(Tamil calendrical symbols)、「タミル簿記用記号」(Tamil clerical symbols)、「通貨記号」(Currency symbol)の12個となっている。[2]本ブロックでは、Unicodeのバージョン更新時の文字追加が隙間を埋める形で行われた影響で、同一の小分類に属する文字が飛び飛びの符号位置に割り当てられていることがある。

各種記号(Various signs

編集

この小分類にはタミル文字のうち、母音字や子音字に結合する発音記号などの様々な記号が収録されている。

独立母音字(Independent vowels

編集

この小分類にはタミル文字のうち、頭子音のない母音の音節を表す際に用いられる独立した母音字が収録されている。

子音字(Consonants

編集

この小分類にはタミル文字のうち、基本的な子音字が収録されている。子音字は何も母音記号が付かない場合は母音/-a/を伴って発音される。

従属母音記号(Dependent vowel signs

編集

この小分類にはタミル文字のうち、子音字に結合する母音記号が収録されている。文字によっては子音字の左側に結合されるため文字の符号上の順序とレンダー上の順序が入れ替わる場合があり、また、組み合わせる先の子音字によっては特殊な合字を形成することがある。

2要素からなる従属母音記号(Two-part dependent vowel signs

編集

これらの母音記号には、子音の両側にグリフ部分があり、論理的な順序で子音に続くため、ほとんどの処理では 1 つの単位として扱われる[2]

ヴィラーマ(Virama

編集

この小分類にはタミル文字のうち、プッリ(殺母音記号)と呼ばれる、子音字の持つ母音/-a/を読まずに子音のみを発音することを表す記号1つのみが収録されている。基本的に単に子音字の上に点が合成されるだけであるが、前後の文字によっては特殊な合字を形成するための制御文字として機能することがある。

なお文字名および小分類名の「ヴィラーマ(virama)」とはデーヴァナーガリーにおける同様の機能を持つ記号の名称である。

プッリは通常、上部に点として表示されるが、一部のフォントでは上部にリングとして表示される。リング状のプッリを表すために 0B82 を使用しないようUnicode公式文書内で注意書きされている[2]

予約済(Reserved

編集

この小分類には現在は文字が収録されていないが、将来的な追加のために領域が予約されている。デーヴァナーガリーにおける「インド諸文字用の一般句読点Generic punctuation for scripts of India)」に相当する。

なお、ヴィラム(viram)句読点には、デーヴァナーガリー文字ブロックにある一般的なインド諸文字用の句読点の U+0964 । と U+0965 ॥ を使用する[2]

数字(Digits

編集

この小分類にはタミル文字で用いられる固有の数字が収録されている。

タミル数値(Tamil numerics

編集

この小分類にはタミル文字のうち、10以上の数を表すための数字が収録されている。

なお、Unicodeにおいて本小分類名に含まれる"numerics(数値)"は通常の10進数表現で用いられる数字を意味する"digits(数字)"とは異なり、10以上の数値や小数値・分数値などの10進数表現で用いられるものとは異なる数字体系を表すために用いられる言葉である。

また、タミル数字における分数は、U+11FC0から始まる「タミル文字補助(Tamil Supplement)」ブロックにエンコードされている[2]

タミル暦用記号(Tamil calendrical symbols

編集

この小分類にはタミル文字においての表記に用いるための記号が収録されている。

また、他の多くの暦表記用記号は、「タミル文字補助(Tamil Supplement)」ブロックの 11FC0-11FFF にエンコードされている[2]

タミル簿記用記号(Tamil clerical symbols

編集

この小分類にはタミル文字において簿記に用いられる記号が収録されている。

通貨記号(Currency symbol

編集

この小分類にはタミル文字においてインド・ルピー或いはスリランカ・ルピーを表す通貨記号1つのみが収録されている。

文字コード

編集
タミル文字(Tamil)[1]
Official Unicode Consortium code chart (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+0B8x
U+0B9x
U+0BAx
U+0BBx ி
U+0BCx
U+0BDx
U+0BEx
U+0BFx
注釈
1.^バージョン15.1時点


履歴

編集

以下の表に挙げられているUnicode関連のドキュメントには、このブロックの特定の文字を定義する目的とプロセスが記録されている。

バージョン コードポイント[a] 文字数 L2 ID ドキュメント
1.0.0 61 (to be determined)
4.0 U+0BF3..0BFA 8 L2/01-375R Umamaheswaran; SC2/WG2 N2381 (10 October 2001), Proposal to add eight Tamil symbols (1.426 MB) (英語)
L2/02-112 Umamaheswaran (14 March 2002), Feedback on Tamil Symbols in PDFAM2-10646-1 (英語)
4.1 U+0BB6 1 L2/03-273 INFITT (21 August 2003), Proposal to add Tamil grantha character SHA (英語)
L2/03-278 Peri Bhaskararao (22 August 2003), Review of L2/03-273, Proposal to encode Tamil SHA (英語)
U+0BE6 1 L2/04-073 Michael Kaplan (2 February 2004), Proposal to add Tamil digit zero (WG2-N2741) (英語)
5.1 U+0BD0 1 L2/06-184 INFITT (10 May 2006), Proposal to add Tamil Om (英語)
  1. ^ 提案されたコードポイントと文字の名前は、最終決定と異なる場合がある。

出典

編集
  1. ^ 3.8: Block-by-Block Charts”. The Unicode Standard. Unicode Consortium. 2024年7月15日閲覧。
  2. ^ a b c d e f g h i j k l m n o p q r s t "The Unicode Standard, Version 15.1 - U0B80.pdf" (PDF). The Unicode Standard (英語). 2024年7月28日閲覧
  3. ^ a b IASTではṛと表記される。
  4. ^ IASTではḷと表記される。
  5. ^ IASTではṝと表記される。
  6. ^ a b c d e f g h Umamaheswaran; SC2/WG2 N2381 (2001年10月10日). “Proposal to add eight Tamil symbols (1.426 MB)” (英語). Unicode. 2024年7月28日閲覧。

関連項目

編集