Chandler@Berlin -5ページ目

Chandler@Berlin

ベルリン在住

計算的文学(computational literacy)法へ

このような計算的文学法(computational literacy)とでもいうのだろうか,このようなアプローチとしては spam mail の判定方法や作家の同定法などがある.SFでは Asimov の Foundation Series に政治家が本当に内容のある発言をしているのかを情報量を解析して判定する話があったりする.

ここでの方法ももっとシステマティックにすることができるだろう.たとえば,広く各言語に翻訳されている書物,聖書やシェイクスピア,IKEA のカタログの各国語の翻訳を圧縮してみたらどうなるだろうか.あるいは聖書には時代によっていくつもの版がある,その圧縮された大きさの歴史なども面白いのではないだろうか.実際に研究されている例があれば知りたいのでご存知の方は comment など下さい.

付録1: man + tree = ?

人と木の組合せの文字は「休む」という意味を示している.人が木の陰で休んでいる.こうやって様々な文字が基本的な文字から作り出される.ちなみに木が2つあれば林であり,木が3つあれば森である.木が4つの文字は存在しないが,あればジャングルであろうと予想する.

付録2: 情報エントロピーと圧縮

情報量やエントロピー,圧縮技術との関係にあまり詳しくない方もおられると思う.この記事ではそれに関して詳しく解説することはできないが,もっと知りたいという読者には,以下の Wikipedia の記事は良い手始めであると思う.
http://ja.wikipedia.org/wiki/%E6%83%85%E5%A0%B1%E7%90%86%E8%AB%96


謝辞

この記事は長いこといろいろな友人とパーティで話をしていて最終的にこのような形になった.私が Saarbr\"{u}ecken にいた時から今迄のこの議論に加わってくれた多くの友人達に感謝する.いろいろな聖書を圧縮してみたら,あるいは圧縮のサイズの歴史はどうか,など多数のアイデアは友人との議論から生まれた.
結論

私達が同じ内容の文書を異なる言語で書いた時,その文書の長さは異なる.しかし,エントロピー圧縮してしまうと,たとえ,難解な文法のドイツ語で書いても,まったく異なる文字体系の日本語で書いても,それらは似たような大きさになる.これから私は人間の使う自然言語の複雑性は言語にあまり依存しないのではないかと推測した.もちろん僅か三つの言語を一つの文書で調べた結果では,この仮説が証明されたとは思わない.しかし,強い反例がみられなかったのは興味深かった.

もし,entropy base の圧縮結果が言語を越えて内容に強く依存するのであれば,いくつかの応用が考えられる.

ニュースなどの内容の比較.

たとえば,英語で発信されたある程度長いニュースがあるとする.これを誰かが日本語に翻訳したとしよう.もしこの2つのバージョンの記事を圧縮してその大きさの差が 50\%以上あるとしたら,翻訳がちゃんとされているかどうか怪しいと私は思う.

文書の作者の比較.

ある作家,あるいは個人が書く文書の複雑性は情報量の意味でそんなに変化しないかもしれない.もしそうであえば,どれだけの圧縮率が各文書に対してあるのかを調べると面白いかもしれない.ここで圧縮率としたのは,内容や長さの異なる文書を比較する方法としてである.FrancisBaconと William Shakespeare の文書の圧縮率の比較などは面白いと思う.ただ作家は子供の書くような文書をわざと書くなどもできるので,注意が必要である.


まあ,以上は想像の域を出ないことである.これに関してはいくつかの分野の人が詳しいかもしれない.もしかしたらこういう研究もあるかもしれない.また,ゲームはメモリ容量との戦いと聞くことがあるので,そのテキストを圧縮をすることがあるだろう.その場合,いくつかの国で発売されたゲームのテキストに必要なメモリの容量,というようなもので比較がされたかもしれない.何かご存知の方がいらしたら御一報下さい.

友人の Daniel L. は電話の信号の圧縮は言語による特性を利用しているのではないかと私に指摘した.かつて NTT Docomo の使っている周波数分解によるlossy な圧縮に関する記事を読んだことがあるが,日本語に特化した basis を使っていたかは思い出せない.これらの言語に依存する,あるいは言語によってパラメータの変化するアルゴリムというのも面白いトピックではないかと思う.
同内容の文書の entropy

Joerg と話をしていた際に,次のことを思い出した.大学時代,私は英語の論文を書く時に,最初に日本語で論文を書いたのちに英語に翻訳していた.最終的な論文の TeX file のサイズは異なっていたが,圧縮した結果が同じようなサイズになったことを記憶している.その時には圧縮すると似たようなサイズになるのは面白いな,と思ったが,そのまま長いこと忘れていた. 1996 年頃の話で,恐らく使ったのは compress というプログラムだったと思う,

Gruenkohl Party で再びこの話がでてきた.これまでは私は同一の内容を二つの言語以上にはあまり翻訳したことがなかったのだが,村上春樹の 2011-6-11 のCatalunya Prize のスピーチの翻訳があることを思い出した.そして圧縮した結果が図1の通りである.
$Chandler@Berlin-comp_bzip2
The compression size result of three languages, but the same content's documents. Even the original document size depends on encoding methods, but the compressed sizes become similar.

言語や encoding 方法(UTF-8, EUC)によってテキストのサイズは異なるものになる.しかし,エントロピー圧縮プログラムで圧縮した結果はエンコーディングにも言語にもあまりよらないという結果が得られた.こでは Entropy base の圧縮ツールとして bzip2 version 1.0.5 を用いた.また,各文書は murakami_textにあるので,読者は確認することができる.興味のある読者はこれを他の言語に翻訳して比較してみることもできる.その場合にはぜひ結果を知らせて欲しい.


この文書を選んだのは,これが私一人の翻訳ではないからである.私は nativeの友人達に助力を頼んだ.私が原文を友人に説明し,議論をしながら友人が言葉を選び,文法構造を選んだ.私が一人で翻訳したものであれば,私の癖のようなものが入ってしまうだろうが,この翻訳には私が一人で翻訳した文書よりも,そういう問題が少ないと予想している.

少し細かく見ていくと,たとえば図2にあるように,日本語のencoding の差が圧縮では少なくなる.たとえば,UTF-8 は漢字のエンコードに3 bytes を必要とするため他のファイルに比較して特に大きい.EUC は漢字のエンコードには2バイトしか使わないので妥当なサイズになる.しかしこれらの差は圧縮によってほとんどなくなる.同じ言語であればこの結果は予測できるものであるが,しかし,異なる言語でも圧縮されたファイルサイズの絶対値が近いことは興味深い.

$Chandler@Berlin-comp_ja
The compression size result of Japanese document, two different encoding scheme: EUC and UTF-8. EUC encode one character in two bytes, but UTF-8 encode one character in three bytes. Yet, the bzip2 compressed size becomes similar.