情報理論の復習

情報理論の二つの基本的な概念を紹介しました。それは、情報源符号化（source coding）と伝送路符号化（channel coding）のことです。伝送路符号化の一番重要な結果はまだ出ていませんが、このところで一回復習してみます。

人間が理解できる情報、たとえば文章、画像や映像に「余分なもの」が入っています。これらの情報は「冗長」であると言えます。この「冗長度」をなくすことで、情報を記述するのに必要な資源を最低限まで抑えることができます。これは「情報源符号化」あるいは「圧縮」と言います。記憶や伝送の効率を最大化することにつながります。ファイルを「Zip」するというのはまさに「冗長度」をなくして、ファイルサイズを小さくするのことです。圧縮の限界を教えてくれるのはShannonの「エントロピー」という量です。

伝送路や記憶媒体に雑音があるときに、情報が乱れてしまいます。これを防ぐために、「余分なもの」を入れて、情報が乱れても読み取れるようにします。これは「伝送路符号化」です。一番簡単な例は「多数決」です。「0」という情報は「0」のままではなく、「000」で記述します。すると、雑音で、「000」が「001」に変わっても、多数決で元の情報は「0」だったことがわかります。つまり「冗長度」をわざわざと導入することで、情報の誤り訂正ができるようになり、信頼性を高めることができるのことです。

直感的に、誤りは複数で起こる可能性もあるので、情報を正確に（誤り率ゼロ）伝えるためには、「0」を「0000...0000000」のように、無限個の「0」で記述する必要があり、伝送レートはゼロになってしまうと考えますが、実はそうにはなりません。Shannonの伝送路符号化理論の一番重要な結果は、伝送路の雑音が与えられたときに、「伝送容量」が決まり、有限な伝送レートで誤り確率をいくらでも小さくできるのことです。少し不思議な感じもしますが、今度はこれについて考えてみます。