(その1)であつかった標準化量Z=(x−x0)/σにおけるσを「標準偏差」といった。そもそもなぜ標準偏差というのか?
文字の並びとしては逆になるが、「偏差」とはズレを表す量だ。そのズレは各データxの平均x0からのズレである。
ズレと言っても、平均x0からプラスへのズレ、マイナスのズレがある。
データはわんさかある(あってほしい)ので、そのズレを足していくとただ単調に増えていくと思いがちだがそうではない。
正規分布に従っていようがいまいが、平均x0を中心として左右にプラスのズレ、マイナスのズレがある。背が高い人もいれば低い人もいるのと同じだ。最悪な場合、プラスのズレの、マイナスのズレの総和が相殺しあって0になってしまうかもしれない。それではズレを正しく表現できない。
そこでを過去の数学者はズレの表現を残しつつ、ズレを表現するためにうまい方法を考えた。
「ズレを全部プラスで表現しちゃえ」
ってことだ。それは各データの平均x0からのズレそのものを2乗することで実現できる。
(xーx0)^2 (^2は2乗を表す)
これを全データ分だけ足し合わせていくと、全データのズレを2乗の総和で表現できる。
(x1ーx0)^2+(x2ーx0)^2+・・・
これでデータがn個あれば、n個のデータのズレの総和をうまく表現できる。この総和をデータの数で割ったもの「分散」という。なぜ分散というのかわかったろう?
「データのズレ2乗の和の平均」だ。
この分散はズレをうまく表現しているのだけど、単位が、例えば身長のずれであれば(cm ^2)になっている。
これでは、ちょっと使いづらい状況があるかもしれない。そこで、この分散の平方根を取ったものを「標準偏差」という。「標準」とあるのは、ズレの基準となるからだ。
ズレを表現するのに分散と標準偏差を使うのはどちらでもいいのだが、「標準偏差」の方が扱いやすいことが多い。ただの「偏差」は使われないわけじゃないけど、統計学の分野では存在感が低い。
標準偏差はσで表される。校外模試なんかで標準偏差が記載されていることがあるが、それは平均を中心として約68%の生徒が存在しているということだ。これは正規分布の特徴から言えることで、次から標準偏差を見たときには「7割弱の生徒が、平均と標準偏差の間にいると思ってほしい。ちなみに1σは約68%、2σは約95%、3σは99.7%である。