結論
私達が同じ内容の文書を異なる言語で書いた時,その文書の長さは異なる.しかし,エントロピー圧縮してしまうと,たとえ,難解な文法のドイツ語で書いても,まったく異なる文字体系の日本語で書いても,それらは似たような大きさになる.これから私は人間の使う自然言語の複雑性は言語にあまり依存しないのではないかと推測した.もちろん僅か三つの言語を一つの文書で調べた結果では,この仮説が証明されたとは思わない.しかし,強い反例がみられなかったのは興味深かった.
もし,entropy base の圧縮結果が言語を越えて内容に強く依存するのであれば,いくつかの応用が考えられる.
ニュースなどの内容の比較.
たとえば,英語で発信されたある程度長いニュースがあるとする.これを誰かが日本語に翻訳したとしよう.もしこの2つのバージョンの記事を圧縮してその大きさの差が 50\%以上あるとしたら,翻訳がちゃんとされているかどうか怪しいと私は思う.
文書の作者の比較.
ある作家,あるいは個人が書く文書の複雑性は情報量の意味でそんなに変化しないかもしれない.もしそうであえば,どれだけの圧縮率が各文書に対してあるのかを調べると面白いかもしれない.ここで圧縮率としたのは,内容や長さの異なる文書を比較する方法としてである.FrancisBaconと William Shakespeare の文書の圧縮率の比較などは面白いと思う.ただ作家は子供の書くような文書をわざと書くなどもできるので,注意が必要である.
まあ,以上は想像の域を出ないことである.これに関してはいくつかの分野の人が詳しいかもしれない.もしかしたらこういう研究もあるかもしれない.また,ゲームはメモリ容量との戦いと聞くことがあるので,そのテキストを圧縮をすることがあるだろう.その場合,いくつかの国で発売されたゲームのテキストに必要なメモリの容量,というようなもので比較がされたかもしれない.何かご存知の方がいらしたら御一報下さい.
友人の Daniel L. は電話の信号の圧縮は言語による特性を利用しているのではないかと私に指摘した.かつて NTT Docomo の使っている周波数分解によるlossy な圧縮に関する記事を読んだことがあるが,日本語に特化した basis を使っていたかは思い出せない.これらの言語に依存する,あるいは言語によってパラメータの変化するアルゴリムというのも面白いトピックではないかと思う.