易しいようで、意外に難しいのが回帰分析


意外と詳しく書いたものがない。



用語もまちまちで混乱する人も多い。



回帰(Regression レグレッション)


二つ以上の統計量の間の関係を指す。


数式で書き表す場合には、「回帰モデル」と言う。



まずは、簡単に、二つから。


統計量Yが統計量Xとどういう関係にあるかを考える。


(X1,Y1)、(X2,Y2)、・・・・・・、(Xn,Yn) のn個のペアを考える。


縦軸Y、横軸Xの2軸平面にプロットすれば一目瞭然だ。



下記は、具体的にプロットしたものだ。n=12(12個のデータ)


なんとなく、Xが大きくなるとYも大きくなる傾向がある。


というわけで、直線で近似してみようということになる。点線だ。


では、どのぐらい直線近似にあてはまっているか、見ることにする。


















これから見慣れない用語が続く。


●まず、12点全体の分布度合いは


TSS(Total Sum of Squares、総変動)

=(Y1ーY・)^2+(Y2ーY・)+・・・・+(Y12ーY・)^2


Y・はY1~Y12の平均値=(Y1+Y2+・・+Y12)/12


したがって、TSSは各YiのY・からの距離を二乗したものを全部たしたもの。


二乗するのは、±と変動が激しくても打ち消しあってしまうからだ。


二乗すれば+でも-でも変動するたびごとに、TSSは大きくなる。


上の例で計算すると、TSS=92.42



●次に、直線近似で回帰モデルを作る。点線の直線だ。


後で詳しく説明するとして、直線の式は


Y=1.06+0.83X


このモデルで説明できる分布を


RSS(Regression Sum of Squares、回帰変動)


RSS=(1.06+0.83X1-Y・)^2+(1.06+0.83X2-Y・)^2+・・・+(1.06+0.83X12-Y・)^2


これは回帰モデルの変動を表している。


この回帰モデルの平均はY・と一致する。というか、そうなるように回帰直線を決めている。


上の例では RSS=69.13



●最後にESS(Error Sum of Squares、誤差変動)


ESS=(Y1-(1.06+0.83X1))^2+(Y2-(1.06+0.83X2))^2+・・・・+(Y12-(1.06+0.83X12))^2


実際のYiと回帰モデルの差の二乗を足し合わせたものだ。


上の例では ESS=23.28




統計の世界で、どのぐらい回帰モデルが当てはまっているかの目安として、


Rs(R square)=RSS/TSS


すなわち、総変動をどのぐらい回帰変動で表せるか?


上の例では、Rs=0.75(75%)



一般的な見方は、

この数字が80%以上なら、相関が大きい、60%以上なら相関があると言える


この場合、75%だから、Xが大きくなるほどYが大きくなるという相関はあると言っていいだろう。


TSS=RSS+ESS だから(今は証明しないが後ほど)


Rs=1-(ESS/TSS)


とも書ける。




*やや混乱があるのは、


RSSのことを、ESS(Explained Sum of Squares、説明可能な変動という意味)、


ESSのことを、RSS(Residual Sim of Squares、残差変動)


Rs=ESS/TSS


と書いてあるものがあることだ。混乱しなければ問題ないが、記号だけだと誤解を与えやすいのも、また事実。