~ 標本平均の平均ってなに?~
「平均μ、分散 の正規分布する母集団から無作為抽出された大きさ nの標本の標本平均
は、平均μ、分散
の正規分布に従う。」
この定理の中にも入門者がつまずきやすいポイントがあるよなぁというのが今回の話です。
この定理を初めて読んだとき、私は標本から求めた分散が母分散より小さくなるということに違和感を覚えた記憶があります。
その原因について少し考えてみました。
(1)標本から得られる情報は、母集団から得られる情報より劣っているはずという思い込みがあったため、標本分布は母集団分布よりバラツキが大きくなるようなイメージを持っていたのではないか。 ・・・ 最近は標本は母集団の情報を忠実に反映すると考えるのが自然だと思えるようになってきました。
(2)平均μ、分散 の正規分布に従うのは、「標本平均」の平均・分散だが、無意識のうちにこれを「標本」の平均・分散と混同していたのではないか。 ・・・ 「標本」だけでなく「標本平均」もまた分布することを理解し、「標本平均」の平均・分散というものを意識するのは意外と難しいような気がします。
この定理から n=1の場合は、「平均μ、分散 の正規分布する母集団から無作為抽出された大きさ1の標本は、平均μ、分散
の正規分布に従う。」 ことになりますが、私は上記(1)が原因でこの定理がしっくり来なかったのだと思います。
また、n=2以上の場合は、上記(1)及び(2)の原因が相まって、分散が小さくなるということに納得できなかったのだと思います。
例えば、50人のクラスの生徒から2人を無作為抽出してその平均を計算すると2人の身長の「標本平均」が求められます(例えば、168cm、172cmであれば「標本平均」は170cm)。
そして、毎回選ばれた2人の生徒を元に戻してこの作業を繰り返すと毎回新たな2人の生徒(同じ生徒が選ばれる可能性もあり)が選ばれて、各回の「標本平均」が求められます。
例えば、
1回目 168cm、172cm ・・・ 「標本平均」は170cm
2回目 165cm、169cm ・・・ 「標本平均」は167cm
3回目 172cm、174cm ・・・ 「標本平均」は173cm
4回目 175cm、171cm ・・・ 「標本平均」は173cm
5回目 171cm、173cm ・・・ 「標本平均」は172cm
この例の場合の「標本平均」の平均は、(170+167+173+173+172)/5=171cm
毎回、2個の標本を抽出してその都度「標本平均」を計算するという手順を踏んでいるという部分が分かりくいため、無意識のうちに「標本平均」の平均・分散を、「標本」の平均・分散と混同してしまう人が多いのではないでしょうか。
n=3以上の場合も同様に考えることができ、さらにn=1の場合も1個の「標本平均」を計算している(例.170cm/1人=170cm)と考えることもできます。
標本を n個抽出してその平均を計算して元に戻し、再び標本を n個抽出してその平均を計算して・・・・・・という作業を繰り返すと、多数の異なる「標本平均」のデータが集まりますが、「標本平均」のデータも「標本」のデータと同様に正規分布に従い、その分散は母分散より小さい になるということをしっかり理解する必要があると思います。