私には様々な国の出身の友人がいる.そのような友人達とパーティでよく議論になるのは,それぞれの言語の特徴である.ドイツ語の文法の難しさ,日本語の漢字の多さと物の数え方の特殊さ,英語の語彙の豊富さなどの特徴がある.いつの頃からか,私は言語の難しさとは何だろうか,それを測定することはできないだろうか?と考えるようになった.
今回私は友人の協力を得て,ある日本語の文書をドイツ語と英語に翻訳し,それをエントロピー圧縮プログラムで圧縮してファイルのサイズを比較してみた.これはファイルの持つ情報量を示す指標になっているはずであり,それが言語の持つ複雑さに関係しているのではないかと思ったのだ.つまり,「同じ内容の文書は言語によってどれだけの情報エントロピーの差がでるのだろうか?」ということを測定してみたのだ.
これからのこ話題に関して何回かに分けて書いていきたい.