二十世紀の大発見と言えば、量子力学、相対性理論などが挙げられます。「情報理論(information theory)」もそのひとつです。1940年代にベル研にいたシャノン(Shannon)によってはじめて体系化され、「情報革命(information revolution)」をもたらした理論のことです。これほど人類社会に大きなインパクトを与えた発見は実はそんなに多くありません。

日常会話の中に出てくる、あいまいな意味をもつ「情報」とは違って、情報理論の「情報(information)」いうのは、「不確定性(uncertainty)」を定量化したものです。つまり、はっきりと「どのぐらい不確定なのか」を数値で表したものです。なぜこんなことができるでしょうか?これを理解するために、まずは「不確定性」について考えてみましょう。

AかBか、不確定な要素をもつ場合では、確率を用いて表現することができます。たとえば、Aの可能性は10%で、Bの可能性は90%、あるいは、Aの可能性は50%で、Bの可能性も50%、のような表現のことです。この二つの場合のどちらの方が不確定ですか?答えは後者ですね。まったくわかりませんから、確率は半々ですね。前者の場合では、大体Bであることが予想されますから、そんなに不確定でもないと言えます。

「どのぐらい不確定なのか」を表す確率を使うと、「不確定性」の大きさを数値で表せるはずだとShannonは考えました。そこで生まれたのがShannonエントロピー(entropy)と呼ばれる量です。この量の特徴は、半々のときが最大で、どちら一方が100%のとき(つまり、確定のとき)には0になることにあります。直感的に、確率が半々の場合、「実はA」だと教えられたときに、確かに情報をもらった気がしますね。100%Aだとわかっていた場合では、「実はA」だと教えられても、もらった情報量は結局0です。