自然界には、データxをとっていくと正規分布にしたがうものが多い。よく取り上げられるのは、日本人の身長、テストの成績などだ。正規分布の理解がない人であっても、

「このグラフは正規分布になっている」

といかにもわかっている風に口に出してしまう。


私は最近、統計学に手を出さざるを得ない状況になり、数学B・Cの参考書を買い漁り、大学初等レベルの教科書に手を出した。

ここでは、わかっている風から一歩踏み込んで学びたい人のためにできるだけ専門用語を使わずに記事を書きたい。


(1)正規分布のグラフは釣鐘型のグラフである(bellcurveベルカーブ)。盛り上がっているのは、データxが増えていくと平均x0付近にデータxが集まるからだ。


(2)正規分布のグラフが釣鐘型と言っても、その広がり方は様々だ。この広がり方を決めるのが標準偏差σ(シグマ)である。グラフと言っても日本人の身長からテストの成績まで非常に取り扱う適用範囲が多い。この例で言えば単位はcm、点である。データの数が十分であるすべてのグラフ共通する正規分布を理解するためには、この単位による違いをクリアしなければならない。

そのために個性のない量、つまり単位がない量(無次元量)にしなければならないのだ。つまりcm/cm、点/点のように、同じ単位の量で割ってあげないといけない。この量にあたるものを標準偏差σ(シグマ)という。標準偏差σは正規分布の形を決めるため、平均からのズレ方を表す。


(3)データXを割る数が決まったところで、何を割られる数とするか。データxそのものでもよいが、割られる数も平均x0からのズレがよいので、データX−平均x0とする。つまり割られる数をx−x0とする。

データxを(x−x0)/σと記述しなおすことを「標準化」、またその量を「標準化量Z」という。これでデータxに個性がなくなり、かつ平均を考慮した新たなデータZとなった。


標準化量Z= (x−x0)/σ


(次回に続く)そう言えばσの正体を述べていないですが、本質は捉えていると思います。t分布、χ2乗分布もやらなくちゃ。