統計学の入門書を読み返す（５）

　～　標本平均の平均ってなに？～

　「平均μ、分散 $\small \sigma ^{2}$ の正規分布する母集団から無作為抽出された大きさｎの標本の標本平均 $\small \bar{X}$ は、平均μ、分散 $\small \sigma ^{2}/n$ の正規分布に従う。」

　この定理の中にも入門者がつまずきやすいポイントがあるよなぁというのが今回の話です。

　この定理を初めて読んだとき、私は標本から求めた分散が母分散より小さくなるということに違和感を覚えた記憶があります。

　その原因について少し考えてみました。

（１）標本から得られる情報は、母集団から得られる情報より劣っているはずという思い込みがあったため、標本分布は母集団分布よりバラツキが大きくなるようなイメージを持っていたのではないか。・・・最近は標本は母集団の情報を忠実に反映すると考えるのが自然だと思えるようになってきました。

（２）平均μ、分散 $\small \sigma ^{2}/n$ の正規分布に従うのは、「標本平均」の平均・分散だが、無意識のうちにこれを「標本」の平均・分散と混同していたのではないか。・・・「標本」だけでなく「標本平均」もまた分布することを理解し、「標本平均」の平均・分散というものを意識するのは意外と難しいような気がします。

　この定理からｎ＝１の場合は、「平均μ、分散 $\small \sigma ^{2}$ の正規分布する母集団から無作為抽出された大きさ１の標本は、平均μ、分散 $\small \sigma ^{2}$ の正規分布に従う。」ことになりますが、私は上記（１）が原因でこの定理がしっくり来なかったのだと思います。

　　また、ｎ＝２以上の場合は、上記（１）及び（２）の原因が相まって、分散が小さくなるということに納得できなかったのだと思います。

　例えば、５０人のクラスの生徒から２人を無作為抽出してその平均を計算すると２人の身長の「標本平均」が求められます（例えば、168ｃｍ、172ｃｍであれば「標本平均」は170ｃｍ）。

　そして、毎回選ばれた２人の生徒を元に戻してこの作業を繰り返すと毎回新たな２人の生徒（同じ生徒が選ばれる可能性もあり）が選ばれて、各回の「標本平均」が求められます。

　例えば、

1回目　168cm、172cm ・・・「標本平均」は170cm

2回目　165cm、169cm ・・・「標本平均」は167cm 　　

3回目　172cm、174cm ・・・「標本平均」は173cm

4回目　175cm、171cm ・・・「標本平均」は173cm

5回目　171cm、173cm ・・・「標本平均」は172cm

　この例の場合の「標本平均」の平均は、（170+167+173+173+172）/5＝171cm

　毎回、２個の標本を抽出してその都度「標本平均」を計算するという手順を踏んでいるという部分が分かりくいため、無意識のうちに「標本平均」の平均・分散を、「標本」の平均・分散と混同してしまう人が多いのではないでしょうか。

　ｎ＝３以上の場合も同様に考えることができ、さらにｎ＝１の場合も１個の「標本平均」を計算している（例．170ｃｍ/1人＝170cm）と考えることもできます。

　標本をｎ個抽出してその平均を計算して元に戻し、再び標本をｎ個抽出してその平均を計算して・・・・・・という作業を繰り返すと、多数の異なる「標本平均」のデータが集まりますが、「標本平均」のデータも「標本」のデータと同様に正規分布に従い、その分散は母分散より小さい $\small \sigma ^{2}/n$ になるということをしっかり理解する必要があると思います。

不動産鑑定、統計学、文系人間のための数学など

上野山清久のブログ
　「不動産鑑定と統計学」（同名のホームページも公開中です。）、数学その他に関する日々の学習成果等について｢学ぶ側の視点」で綴っていこうかと思います。

統計学の入門書を読み返す（５）