統計解析道具箱~はじめての統計分析~ -10ページ目

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics


さて、前回の続きですが、残差(=予測値と実測値の差)は正規分布にしたがうという仮定があります。

正規分布は統計学の基礎として学ぶ基本中の基本ですが、平均値=中央値=最頻値を中心として
左右対称のつりがね型を描く分布のことで、平均値±1.96標準偏差内に、95%のデータが含まれる
ことが統計的に判明しています(確率密度関数から計算できます)

実用的には以下の基準をよく使います。

平均値±(1×標準偏差) 全データの約68%
平均値±(2×標準偏差) 全データの約95%
平均値±(3×標準偏差) 全データの約99%

残差も正規分布にしたがう性質を持っていると考えると、たとえば、残差の平均値を基準として
残差の標準偏差の3倍以上離れているケースは、観測確率1%にも満たないレアなケース、
すなわち外れ値として考えることができます。

一般には、平均値を0、標準偏差を1に揃えた、標準化残差に注目して、標準化残差の絶対値で
2~3を超えるケースを外れ値として吟味する方法がとられます。

重回帰分析がうまくいったかどうか(幼稚な表現ですが)の指標の1つが昨日のR2乗ですが、
もう一つ利用されるのが残差です。

残差とは、実測値と予測値の差のことで、予測が成功していれば、実測値と一致してくるはずです。
また、予測結果が実際の結果から乖離している場合は、予測がうまくいっていない(回帰式がよくない)と
判断されます。

したがって、残差はできるだけ小さいほうよいのですが、この残差が持つ2つの性質が分析結果を
考察する上で役立ちます。

1.残差は等分散になる(各観測値ごとに残差の大きさがほぼ同じになる)
2.残差は正規分布にしたがう

もし残差を利用して散布図を描いてみて、残差の散らばりに特徴があるようであればモデル構築を
見直すきっかけとすることができます。

また、残差が正規分布にしたがう性質を利用して、外れ値のチェックをすることもできます。
すなわち平均値と標準偏差を利用して、極端に大きい残差、または小さい残差を探して、モデルを
見直していくわけです。

統計手法を利用する際に、間違いやすいポイントや誤解されやすい点についてわかりやすく
説明されています。

等分散ではない場合の平均値の差の検定であるWelch(ウェルチ)検定を、等分散の場合にも
使用してよいか?

片側検定は有意差が出やすいのか?

データを見る限りたいした差ではないのに、有意になっているのはなぜか?

などの疑問点に答えています。

すでに統計を利用されている方、仮説検定を使っているが疑問を感じながら使っている初級中級の方に
おすすめです。

統計的方法のしくみ―正しく理解するための30の急所/永田 靖
¥2,625
Amazon.co.jp