情報の圧縮

Shannonのエントロピー(entropy)について紹介しました。ある事象の起こる確率を用いて、我々がもつ、この事象に対する「不確実性」を定量化できることを述べました。また、Shannonのエントロピーを計算できれば、この事象に関する情報の「価値」もわかると説明しました。しかし、現実の世界では、情報を「お金で買う」ということはほとんどやりません。「情報の価値」という概念は、物理的リソースに関係するところで威力を発揮します。つまり、情報の伝達、記憶、処理に必要なリソースの量がわかるのです。これがShannonの情報理論のすばらしさです。

ある情報源を考えます。確率1/16で「1」というシンボルを出力し、確率15/16で「0」というシンボルを出力します。出力されるシンボル列は例えば、このようになります。

...00010000000000000000010000000000...

ほとんどは「0」ですが、1/16の確率で「1」が現れます。例えば、160000個のシンボルのうち、大体10000個は「1」で、後は「0」です。これを送ることを考えましょう。160000個のシンボルを一つずつ送ってもいいのですが、もっと賢い方法がありますね。Shannonがこう考えました。シンボルの総数、N、が大きいときに、「1」が現れる回数はほとんどの場合では、N/16です。「1」の数がわかっているならば、その現れる「位置」だけを送ればいいはずです。これが「圧縮」の概念です。

この列をメモリに記憶するときにも同様に考えることができます。「1」の現れる位置だけを記憶すれば、メモリの節約になります。

前回に計算したように、この情報源のShannonエントロピーは0.337ビットですね。これは、最大圧縮率が0.337であることを意味します。Shannonエントロピーと圧縮率の関係について次回にもっと詳しく説明します。