さて、前回の続きですが、残差(=予測値と実測値の差)は正規分布にしたがうという仮定があります。
正規分布は統計学の基礎として学ぶ基本中の基本ですが、平均値=中央値=最頻値を中心として
左右対称のつりがね型を描く分布のことで、平均値±1.96標準偏差内に、95%のデータが含まれる
ことが統計的に判明しています(確率密度関数から計算できます)
実用的には以下の基準をよく使います。
平均値±(1×標準偏差) 全データの約68%
平均値±(2×標準偏差) 全データの約95%
平均値±(3×標準偏差) 全データの約99%
残差も正規分布にしたがう性質を持っていると考えると、たとえば、残差の平均値を基準として
残差の標準偏差の3倍以上離れているケースは、観測確率1%にも満たないレアなケース、
すなわち外れ値として考えることができます。
一般には、平均値を0、標準偏差を1に揃えた、標準化残差に注目して、標準化残差の絶対値で
2~3を超えるケースを外れ値として吟味する方法がとられます。