「機種依存文字って何ですか?」って何ですか? | としし555のブログ

としし555のブログ

何となくわかったつもりになっているコトバをちょっと丁寧に解説してみたいと思います。

 

誤解満載の記事があったので、ちょっと書いとこうと思う。

 
ネタとなるのは以下の記事
 
全体的に著者の知識が追いついてない印象というか、半可通のリーマンが居酒屋でビジネスメール談義しているように見える。
特に文字に関する説明がヒドい。ライターなのだから、もう少し文字というものを大切にして欲しい。
 
この記事の2ページ目に「機種依存文字って何ですか?」という節がある。
 
「機種依存文字」なるものを使わないようにという解説なのだが、なぜ「機種依存」と呼ばれているかの説明が全くない。
読者の大半はおそらく「機種依存文字」というコトバは聞いたことはあっても、その経緯や定義は知らないはずだ。
 
それを読者のふわふわとした理解をベースに解説してしまうと、当然ながら結論もふわふわしたものになる。
これは完全に技術的な話なのだから、技術面からの解説が必要だろう。

 

と註文するだけでは無価値なので、引用しつつ解説を加えておく。

 
とはいえ特別な理由がない限り、ビジネスメールはテキスト形式で送るのが一般的とされている。受け取った人が、HTML形式のメールだったために「マナーがなっていない」と立腹する可能性もある。
おいおい。「マナー」とちゃうやろ。
完全に技術的な課題やないか。
 
そもそもHTMLメールが嫌がられるのは、マルウェア(いわゆるウイルス)の温床だったからだ。
HTMLは(特殊な)プログラミング言語であり、プログラムを組み込める。
そのため、メールを見ると(見ている人には気付かれないように)プログラムを動かし、マルウェアに感染させるというのが流行した。
当時はMicrosoft社のOutlookExpress(現在のOutlookとは全く違う)がメーラとして良く使われてたんだが、そのマルウェア対策がものすごくザルで、いろんなマルウェアを何度も大流行させてしまった。
それ以降、「HTMLメールは碌なもんじゃない」という評価が定着してしまったため、HTMLメールを嫌う人が今も多い状態になっている。
 
ちなみに、テキストメールの場合はそれ自体にプログラムを組み込むことができないので、理論的にプログラムは組み込めないため、安全と言われている。
 
これくらいのことはライターなら知ってるはずだろ。
「マナー」などという主観的でアイマイな表現で逃げるのは卑怯だ。
 
次。
半角カタカナや機種依存文字を利用しないことがマナーだと、知らない新人も多い。
これもマナーじゃない。
ルールであり技術的な制約だ。
 
しかも、ここでもあいまい用語をあいまいなまま使ってるし。

 

まず、「半角カタカナ」ってのは俗語。
こんなん、Wikipediaにも載ってるんだから調べろよ。

これはJISのX 0201という文字を決める規格の中で片仮名文字集合として定義されている文字セットを示す。
JISで定義されてるんだから、最高に公式なもので本来はここまで嫌われるべきものではない。
こうなったのは、メールで使える文字を規定する時にいろんな不幸が重なり(ここについてはMicrosoft社がかなり悪いのだが省略)、メール送付すると文字化けする代表的な文字種になってしまった。
そのために嫌う人が今も多い。
特にトシヨリほどその傾向が強い。(これはワタシも同じ)
 
さて、肝心の「機種依存文字」。
これはもともとは、本当に特定の機種でだけ使える文字のことを指していた。
 
そもそも、JISで最初に漢字の文字セット(JIS C6226)を決めた時には記号類がかなり絞り込まれていた。
これは規格ができた1978年という時代を考慮すればやむをえない。
当時、プログラマの間のジョークで「メモリ1バイトは血の一滴」と言われるほどメモリは貴重だった。
その時代にとてつもないメモリ食いとなるであろうことが明らかな漢字というとてつもない規模の文字セットを規定したわけだ。
(余談だが、日本は世界初の漢字の文字セットを規定した国だ)
丸付き数字のような装飾性の高い文字は、(1)とかで十分に代用できるから、と除外されたのだろう。
ただでさえ、メモリ食いの漢字セットをさらに肥大化させるのは当時の基準ではナンセンスだから。
 
さて、そうはいっても、実際に機器を販売する方はお客さんから言われれば対応するのが世の常。
当時国内で一番売れていたPC9801シリーズの販売元のNECはJIS C6226の空きコードに独自で文字セットを定義し、PC9801に載せた。
ここで追加されたのが、特に要望の多かった丸付き数字や(株)、罫線素片と呼ばれる記号類の追加だった。
そう、PC9801という「特定の機種にしか存在しない文字」が生まれたのである。
これが「機種依存文字」の意味だ。
なお、このような独自文字はIBMや富士通、日立といった大型汎用機のメーカもそれぞれ独自に作成していたから、特別なことではなかった。
 
と、ここまでが「機種依存文字」の話。
 
問題は、まだ続く。
機種依存文字の存在とメールでの文字化けは別の問題なのである。
メールで文字化けするのは「機種依存文字」だからではなく、「メールで使っちゃいけない文字」だからだ。
その部分をおそらくこの著者は理解していない。
 
極めて技術的な話になるが、メールでは内容タイプ(content-type)と言って、どんな文字をどんなルールで表記しているのかを
示す方法が用意されている。(MIMEというルールで決められている)
日本語のメールはISO-2022-JP というルールを指定することが大半だ。
このISO-2022-JPではJIS X 0208(とX 0201)で決められた文字を使えることになっている。
つまり、上述のNECやIBMや富士通や日立が決めた独自文字は使っちゃいけないことになってるワケだ。
 
だから、「メールに機種依存文字を使うと文字化けする」ではなく「メールにJISにない文字を使うと文字化けする」が正しい。
同じ意味だと思うかもしれないが、この記事の最大の問題はココで、「機種依存文字」なるものを定義していないから、どの文字が実際に使えないのかちっともわからないのだ。
具体例として使えない文字を全て示わけでもないのに、その調べ方も範囲も記載しないのは不誠実と言われても仕方なかろう。
上記のように、JISにない文字と規定しておけば、読者が自力で調べることも可能なのに。
 
次。
 相手側の名前が旧字体の場合は、「高橋様(お名前の漢字が機種依存文字のため、『高』を使わせていただきました)」のように、断り書きを入れるとよい。丸数字なども、文字化けの可能性があるがうっかりメールでも使いがちだ。できるだけ早いうちに、例を挙げて新入社員に説明しておくべきだろう。
これもよくある間違いなんだな。
「はしご高」とか「たち崎」とか「つち吉」とか呼ばれる文字は旧字体ではない。
異体字だ。
やや乱暴な言い方だが、異体字は俗字だ。
 
一方、旧字体は基本的に収録されている。
何度もいうが、日本語の文章でメシ食ってるんだろ?
日本語の文章のプロなんだから、日本語の文字のことくらいはキチンと調べて書けよ。

 

さて、JISの漢字集合としては、ある程度の文字のゆらぎを許容している。

例えば「半」の上の二つの点が「ハ」の字になった旧字体は収納されていない。
これは、表現に違いがあっても、字源が同じ文字には別コードは割り当てないという原則で、包摂という。

てか、これを採用しないと上の「半」の例じゃないが、無限にバリエーションがあるから収拾がつかなくなる。

 
ちなみに、著者が掲示している「旧字体」なるものは全て異体字である。
例えば浜の旧字体は「濱」だが、これはJISにキチンと収録されている。
 
この著者はあまりに不勉強だ。
もっと修業していただきたい。