2.2.7 Unification | ならのブログ

ならのブログ

3日坊主の自分を律するためのブログ


テーマ:
   目次

2.2.7 Unification
2.2.7 統一性

The Unicode Standard avoids duplicate encoding of characters by unifying them within scripts across language.
Unicode は、言語の壁を越えて文字の符号化を統一することによって、その重複を避けています。

Common letters are given one code each, regardless of language, as are common Chinese/Japanese/Korean (CJK) ideographs. (See Section 12.1, Han.)
異なる言語で共通する文字は、1 つのコードに集約されます。たとえば、中国語、日本語、韓国語(CJK)の文字に見られます。(12.1 漢字 を参照)

-------------------------------------------------------------------------------

Punctuation marks, symbols, and diacritics are handled in a similar manner as letters.
句読点、記号、ダイアクリティカルマークは、文字と類似した方法で扱われています。

If they can be clearly identified with a particular script, they are encoded once for that script and are unified across any languages that may use that script.
もし、それが明らかに特定の言語のものとして定義することが出来るならば、その言語用に1度だけ定義され(補足:番地や名前などが特定の言語として定義されるという意味合い)、もし同じものが他の言語で使用されることがあっても、すでに定義されているので追加で定義することはありません。

See, for example, U+1362 ethiopic full stop, U+060F arabic sign misra, and U+0592 hebrew accent segol.
たとえば、U+1362 「ethiopic full stop」、U+060F 「arabic sign misra」、そして、U+0592 「hebrew accent segol」 を参照してください。(補足:特定の言語に結びついている記号の事例)

     

However, some punctuation or diacritic marks may be shared in common across a number of scripts―the obvious example being Western-style punctuation characters, which are often recently added to the writing systems of scripts other than Latin.
しかし、複数の言語で共有されるものもあります。わかりやすい例だと、西洋の句読点です。西洋の句読点は、ラテン語を除いて共通です。

~~~補足:ラテン語の句読点(ここから)~~~
文や文章の構造を示すために使われる文字は、「句読点」(英語ではpunctuation mark)と呼ばれます。ラテン語には、もともとは句読点というものは存在していませんでしたが、現在では次のような句読点が使われています。
 空白          単語と単語との切れ目を示す。
 コンマ(,)     文を構成する部分の切れ目を示す。
 コロン(:)     コンマによって示される部分よりも大きな部分の切れ目を示す。
 セミコロン(;) コロンによって示される部分よりも大きな部分の切れ目を示す。
 ピリオド(.)   文の終わりを示す。
 疑問符(?)     疑問文の終わりを示す。
 感嘆符(!)     感嘆文の終わりを示す。

※参考文献:ゼロからのラテン語
~~~補足:ラテン語の句読点(ここまで)~~~

In such cases, characters are encoded only once and are intended for use with multiple scripts.
そのような場合、文字は1度だけ符号化され、異なる言語で共有されます。

Common symbols are also encoded only once and are not associated with any script in particular.
共通記号も同様に、1度だけ符号化され、異なる言語で共有されます。

-------------------------------------------------------------------------------

It is quite normal for many characters to have different usages, such as comma “,” for either thousands-separator (English) or decimal-separator (French).
多くの文字が異なる方法で使用されることは、ごくありふれたことです。たとえば、カンマ "," は、英語では千の位を区切りますし、フランス語では小数点をカンマで区切ります。(補足:フランス語では、小数点をカンマで区切る。大きい数は 3 桁ごとに空白または終止符で区切ります。)

The Unicode Standard avoids duplication of characters due to specific usage in different languages; rather, it duplicates characters only to support compatibility with base standards.
Unicode は、同じ文字を異なる言語で異なる使用方法で使う場合でも、重複定義しません。正確には、他の文字コード規格との互換性を保障させる場合のみ重複定義します。

Avoidance of duplicate encoding of characters is important to avoid visual ambiguity.
重複定義を避けることは、視覚的なあいまいさを避ける上で重要です。

-------------------------------------------------------------------------------

There are a few notable instances in the standard where visual ambiguity between different characters is tolerated, however.
しかし、Unicode においては、異なる文字間の視覚的なあいまいさが許容される事例が若干あり、注意が必要です。

For example, in most fonts there is little or no distinction visible between Latin “o”, Cyrillic “o”, and Greek “o” (omicron).
たとえば、ラテン語の "o" 、キリル語の "o" 、ギリシャ語の "o"(オミクロン)は、見た目の違いは少し、もしくは、まったくありません。

These are not unified because they are characters from three different scripts, and many legacy character encodings distinguish between them.
Unicode では、これらを統一して定義していません。なぜなら、これらは異なる 3 つの言語の文字だからです。そして、多くの古い文字エンコードはこれらを区別して定義しているからです。

As another example, there are three characters whose glyph is the same uppercase barred D shape, but they correspond to three distinct lowercase forms.
別の例として、Unicode には次のような 3 つの大文字、小文字が定義されています。
 ・大文字
   文字 :それぞれ独立して定義
   グリフ:同じ形状("D" に横棒を引いた形状)
 ・小文字
   文字 :それぞれ独立して定義
   グリフ:それぞれ異なる形状

Unifying these uppercase characters would have resulted in unnecessary complications for case mapping.
もし、独立して定義された3つの大文字を、グリフにあわせて統一して定義したとすると、大文字:小文字=3:1の面倒な関係になってしまいます。

-------------------------------------------------------------------------------

The Unicode Standard does not attempt to encode features such as language, font, size, positioning, glyphs, and so forth.
Unicode はリッチテキストのような機能(言語指定、フォント、サイズ、配置、グリフなど)を実装しません。

For example, it does not preserve language as a part of character encoding: just as French "i grec", German "ypsilon", and English "wye" are all represented by the same character code, U+0057 “Y”, so too are Chinese zi, Japanese ji, and Korean ja all represented as the same character code, U+5B57 字.
たとえば、Unicode は言語情報を保持されません。:
フランス語の"i grec"、ドイツ語の "ypsilon"、英語の"wye" は全て同じコードポイント U+0057 の "Y" として定義されています。同じように、中国語の "zi" 、日本語の "ji"、韓国語の "ja" は、同じコードポイント U+5B57 の "字" として定義されています。

-------------------------------------------------------------------------------

In determining whether to unify variant CJK ideograph forms across standards, the Unicode Standard follows the principles described in Section 12.1, Han.
CJK(中国、日本、韓国)の間で漢字を統一するかどうかについては、Unicode は 「12.1 漢字」に記載されている原則に従います。

Where these principles determine that two forms constitute a trivial difference, the Unicode Standard assigns a single code.
2 つの形式が些細な違いであれば 1 つのコードで定義します。

Just as for the Latin and other scripts, typeface distinctions or local preferences in glyph shapes alone are not sufficient grounds for disunification of a character.
ちょうどラテン語と他の言語のように、言語毎の活字書体やグリフ形状の違い程度では、それらの文字を独立して定義するための根拠として不十分です。

Figure 2-6 illustrates the well-known example of the CJK ideograph for “bone,” which shows significant shape differences from typeface to typeface, with some forms preferred in China and some in Japan.
図 2-6 は有名な事例です。CJK の文字、"骨" は、日本と中国とで重要な違いがあります。

All of these forms are considered to be the same character, encoded at U+9AA8 in the Unicode Standard.
2 つの形式は Unicode では、同じ U+9AA8 のコードポイントで定義されています。

Figure 2-6. Typeface Variation for the Bone Character
図 2-6. 「骨」の活字バリエーション


-------------------------------------------------------------------------------

Many characters in the Unicode Standard could have been unified with existing visually similar Unicode characters or could have been omitted in favor of some other Unicode mechanism for maintaining the kinds of text distinctions for which they were intended.
Unicode の多くの文字は、現存する似た見た目の文字と統一できたかもしれません。また、他の Unicode メカニズムを選ぶことで、文字の追加定義を避け、本来あるべき文字の種類を維持できたかもしれません。

However, considerations of interoperability with other standards and systems often require that such compatibility characters be included in the Unicode Standard.
しかし、他の文字コード規約との相互運用性を考慮した結果、Unicode では上記のような互換文字を定義をしています。

See Section 2.3, Compatibility Characters.
詳細は、「2.3 互換文字」を参照してください。

In particular, whenever font style, size, positioning or precise glyph shape carry a specific meaning and are used in distinction to the ordinary character―for example, in phonetic or mathematical notation―the characters are not unified.
特に、フォント、サイズ、配置、グリフが特別な意味を持つ場合や、普通の文字とは区別されて使用される場合、たとえば、音声または数学的表記では、文字が統一されていません。

   目次

Ameba人気のブログ

Amebaトピックス