「情報の量」は内容に関係なく、「確率」のみで定まるというのは、Hartleyのアイデアらしいです。つまり、サイコロを振ったときに「奇数が出た」という情報の量は、コインを投げたときに「表が出た」という情報の量、あるいは、明日学校に来る新しい先生は「男の先生」という情報の量と、全く同じ大きさのことです。(確率はいずれも半分ですから、情報の量は同じと考えます。)
情報量は以下の三つの性質を満たす必要があると考えられます。
1、情報量は確率のみで計算できること。確率が大きい(当たり前の)ことに情報量は少なく、確率の小さい(稀な)ことに情報量は多い、と考えるのは自然です。
2、確率が連続的に少し変化した場合では、情報量も連続的に少し変化すること。確率の変化は小さいのに、情報量は大きく変化する(ジャンプする)理由はありません。
3、二つの独立なことの合計情報量は各々の情報量の和であること。これは、「Aが起こった」という情報の量はIAで、「Bが起こった」という情報の量はIBとすると、「AとB、両方起こった」という情報の量はIA+IBになることを意味します。
以上の三つの性質を満たす関数は -log(p) です。そこで、確率がpのことが持つ情報の量Iを、I=-log(p)と定義できます。pは1より小さいので、log(p)は負の数です。マイナスをつけるのは、正の数にするためです。
「Aが起こった」という情報の量はIA=-log(pA)、「Bが起こった」という情報の量はIB=-log(pB)と書けます。ただし、pAとpBはそれぞれの起こる確率とします。「AとB、両方起こった」の確率はpAとpBの積ですから、情報量は-log(pA pB)=-log(pA)-log(pB)になります。確かに、IAとIBの和になっています。
Shannonのエントロピーとは、平均情報量のことです。これについては次回に説明します。
情報量は以下の三つの性質を満たす必要があると考えられます。
1、情報量は確率のみで計算できること。確率が大きい(当たり前の)ことに情報量は少なく、確率の小さい(稀な)ことに情報量は多い、と考えるのは自然です。
2、確率が連続的に少し変化した場合では、情報量も連続的に少し変化すること。確率の変化は小さいのに、情報量は大きく変化する(ジャンプする)理由はありません。
3、二つの独立なことの合計情報量は各々の情報量の和であること。これは、「Aが起こった」という情報の量はIAで、「Bが起こった」という情報の量はIBとすると、「AとB、両方起こった」という情報の量はIA+IBになることを意味します。
以上の三つの性質を満たす関数は -log(p) です。そこで、確率がpのことが持つ情報の量Iを、I=-log(p)と定義できます。pは1より小さいので、log(p)は負の数です。マイナスをつけるのは、正の数にするためです。
「Aが起こった」という情報の量はIA=-log(pA)、「Bが起こった」という情報の量はIB=-log(pB)と書けます。ただし、pAとpBはそれぞれの起こる確率とします。「AとB、両方起こった」の確率はpAとpBの積ですから、情報量は-log(pA pB)=-log(pA)-log(pB)になります。確かに、IAとIBの和になっています。
Shannonのエントロピーとは、平均情報量のことです。これについては次回に説明します。