分散と標準偏差

昨日から続きます。

いやなテーマだけどがんばる。。。

＞＞＞

「偏差」とは、各値について「平均値との差」のこと。

偏差 di　=　xi - x

［プログラム］
--------------------------------------------

// サンプルの値

const int n = 10; 　　　　　　　　　// 値の個数が10個で

int x[n]={1,2,3,4,5,6,7,8,9,10};　　　// 値が「1,2,3,4,5,6,7,8,9,10」の例

--------------------------------------------

// 平均値を求める

double s=0.0; 　　　　　　　　　　　// 値の合計を初期化

for (int i=0; i<n; i++) s += x[i];　// 値[0]～値［9］（10個）の合計を加算していく

double m = s/n; 　　　　　　　　　// 平均値（値の合計／値の個数）を計算

--------------------------------------------

// 各値の偏差を表示

for (int i=0; i<n; i++) println("偏差=%f",x[i]-m);

--------------------------------------------

＞＞＞

分散は、

「各偏差を２乗した値」の合計を、「値の個数－1」（自由度）で割ったもの

とある。

　　　　2　　n　　　　_ 2

分散 s = Σ (xi - x) / (n - 1)

　　　　　　i=1

--------------------------------------------

// 分散を計算

double s = 0.0; 　　　　　　　　　　// 分散の値を初期化

for (int i=0; i<n; i++) {

　　　s += (x[i]-m) * (x[i]-m); 　// 各値の偏差の２乗を合計する

}

s /= n-1;　　　　　　　　　　　　　　// 合計を（値の個数－１）で割る

--------------------------------------------

偏差を四角形の1辺と考える。

偏差を2乗（偏差×偏差）したものは四角形の面積となる。

その面積の平均（面積の合計／値の個数－１）が「分散」である。

分母が「値の個数」ではなく、「値の個数－1」であるところがポイント。

（不偏分散）

「値の個数」で割ったものも、「値の個数－1」で割ったものも分散だが

特に「値の個数－1」で割ったものを不偏分散と呼ばれる。

教科書は

「分母が標本nの式もあり、分散の利用目的によってはこちらを用いるが

標本に基づいて母集団に関する推測を行う場合は不偏分散の式を用いる。

本節では不偏分散を分散と呼び、その平方根を標準偏差をよぶことにする」

という方針で記述されている。

標本の要約の時（記述統計）は「値の個数」で割るが

標本から母集団を推測する時（推測統計）は「値の個数－1」で割るということだろう。

＞＞＞

そして、分散の平方根（ルート）が標準偏差である。

平均の面積（分散）の1辺ということである。

もともと各偏差を四角形の1辺（平均までの距離）として考えてたので、

言葉どおり「標準の偏差」というわけですね～。

標準偏差 s = √s

--------------------------------------------

// 標準偏差を計算

s = sqrt(s);　　　　　　　　　　　　// 分散の平方根

--------------------------------------------

＞＞＞

まだ基礎の基礎だけど、

少し理解できてきたような気がする。。。