ヘモグロビンBLOG

結局のところ“偏差値”って何？Part2〜正規分布の標準化〜

さて、前回,前々回と正規分布について取り扱いましたが、今日は正規分布の標準化を説明していきます。これを知ることで正規分布を導入するメリットが見えてくると思います。

まだの方はぜひ前回までの記事からご覧ください。

前回まで見てきた通り、正規分布はその平均値と分散で概形が決まっています。

中でも平均0, 分散1の正規分布を標準正規分布と言います。これについてはよく調べられており、ある範囲の面積(積分値)に当たるその範囲の確率が知られています。

これにより、標準正規分布においては、あるデータが上位何%なのかなどがわかるようになっています。

正規分布については以下の定理が知られています。

これにより上手くa,bを選んでやることで全ての正規分布を標準正規分布に変換することができることになります。この操作を正規分布の標準化と呼びます。

あるデータ群の各データXに対して次の操作をすることで標準化を行えます。

新たに出てきた標準偏差は記号の通り分散にルートをとったもの(正の平方根)となります。この新しいデータZは標準正規分布に従うことになります。

この式ややこしく見えるかもしれませんが、やってることは平行移動と定数倍です。

まずは、平行移動に関して。

これは標準正規分布の平均値のみを変化させた時のグラフの変化です。前の記事でも確認した通り、正規分布の山の頂上は平均値(＝中央値＝最頻値)となっているためx軸方向に平行移動した形になります。

つまり、ある一般的な正規分布のグラフを平均値の分だけ平行移動すれば、平均値が0の正規分布にすることができます。例えば黄色のグラフの全ての点でxを4引けば左方向に平行移動し、青のグラフと重なります。式で書けば、

です。

次は定数倍について。

こっちは標準正規分布の分散のみを変化させた時のグラフの変化です。分散=散らばり具合と説明した通り分散が大きいほど広い範囲に散らばっていることがわかります。

これは正規分布の指数部分のxと分散(標準偏差)のバランスで決まっているのでxを適切に定数倍することでグラフを太らせたり、痩せさせたりできます。(変数変換の際に微分dz/dxの逆数が現れるため、係数部分の標準偏差も打ち消される)

こんな感じで標準正規分布に帰結すれば、あるデータが上位何%等の情報が得られます。これこそが正規分布を取り扱う御利益であります。

例として前前回の17歳男子の平均身長のデータにコモコハン(23歳男性172cm)を入れると上位何%か調べてみましょう。

まずは、標準化を行います。

僕の身長はだいたい0.23くらいのところにあるとわかりました。次に標準正規分布表でこの値を確認します。少数第一位を縦軸, 第二位を横軸といった見方です。すると0.0910と読めます。これはZ=0~0.23に入る確率が9.10%ということです。

この図で確率は面積に当たります。ピンク部分が9.10%とわかり、ピンク部分と水色部分を足すとちょうど半分の50%となります。したがって水色部分の確率は

50-9.10=40.9%

これでコモコハンの身長は17歳男子のだいたい上位41%くらいであるとわかりました。

あれ？そんなに高くなくない？？

次回は偏差値について話して完結です！