計算的文学法へ:言語の複雑性をエントロピー圧縮で測ってみたら..? (7) | Chandler@Berlin

Chandler@Berlin

ベルリン在住

計算的文学(computational literacy)法へ

このような計算的文学法(computational literacy)とでもいうのだろうか,このようなアプローチとしては spam mail の判定方法や作家の同定法などがある.SFでは Asimov の Foundation Series に政治家が本当に内容のある発言をしているのかを情報量を解析して判定する話があったりする.

ここでの方法ももっとシステマティックにすることができるだろう.たとえば,広く各言語に翻訳されている書物,聖書やシェイクスピア,IKEA のカタログの各国語の翻訳を圧縮してみたらどうなるだろうか.あるいは聖書には時代によっていくつもの版がある,その圧縮された大きさの歴史なども面白いのではないだろうか.実際に研究されている例があれば知りたいのでご存知の方は comment など下さい.

付録1: man + tree = ?

人と木の組合せの文字は「休む」という意味を示している.人が木の陰で休んでいる.こうやって様々な文字が基本的な文字から作り出される.ちなみに木が2つあれば林であり,木が3つあれば森である.木が4つの文字は存在しないが,あればジャングルであろうと予想する.

付録2: 情報エントロピーと圧縮

情報量やエントロピー,圧縮技術との関係にあまり詳しくない方もおられると思う.この記事ではそれに関して詳しく解説することはできないが,もっと知りたいという読者には,以下の Wikipedia の記事は良い手始めであると思う.
http://ja.wikipedia.org/wiki/%E6%83%85%E5%A0%B1%E7%90%86%E8%AB%96


謝辞

この記事は長いこといろいろな友人とパーティで話をしていて最終的にこのような形になった.私が Saarbr\"{u}ecken にいた時から今迄のこの議論に加わってくれた多くの友人達に感謝する.いろいろな聖書を圧縮してみたら,あるいは圧縮のサイズの歴史はどうか,など多数のアイデアは友人との議論から生まれた.