易しいようで、意外に難しいのが回帰分析
意外と詳しく書いたものがない。
用語もまちまちで混乱する人も多い。
回帰(Regression レグレッション)
二つ以上の統計量の間の関係を指す。
数式で書き表す場合には、「回帰モデル」と言う。
まずは、簡単に、二つから。
統計量Yが統計量Xとどういう関係にあるかを考える。
(X1,Y1)、(X2,Y2)、・・・・・・、(Xn,Yn) のn個のペアを考える。
縦軸Y、横軸Xの2軸平面にプロットすれば一目瞭然だ。
下記は、具体的にプロットしたものだ。n=12(12個のデータ)
なんとなく、Xが大きくなるとYも大きくなる傾向がある。
というわけで、直線で近似してみようということになる。点線だ。
では、どのぐらい直線近似にあてはまっているか、見ることにする。
これから見慣れない用語が続く。
●まず、12点全体の分布度合いは
TSS(Total Sum of Squares、総変動)
=(Y1ーY・)^2+(Y2ーY・)+・・・・+(Y12ーY・)^2
Y・はY1~Y12の平均値=(Y1+Y2+・・+Y12)/12
したがって、TSSは各YiのY・からの距離を二乗したものを全部たしたもの。
二乗するのは、±と変動が激しくても打ち消しあってしまうからだ。
二乗すれば+でも-でも変動するたびごとに、TSSは大きくなる。
上の例で計算すると、TSS=92.42
●次に、直線近似で回帰モデルを作る。点線の直線だ。
後で詳しく説明するとして、直線の式は
Y=1.06+0.83X
このモデルで説明できる分布を
RSS(Regression Sum of Squares、回帰変動)
RSS=(1.06+0.83X1-Y・)^2+(1.06+0.83X2-Y・)^2+・・・+(1.06+0.83X12-Y・)^2
これは回帰モデルの変動を表している。
この回帰モデルの平均はY・と一致する。というか、そうなるように回帰直線を決めている。
上の例では RSS=69.13
●最後にESS(Error Sum of Squares、誤差変動)
ESS=(Y1-(1.06+0.83X1))^2+(Y2-(1.06+0.83X2))^2+・・・・+(Y12-(1.06+0.83X12))^2
実際のYiと回帰モデルの差の二乗を足し合わせたものだ。
上の例では ESS=23.28
統計の世界で、どのぐらい回帰モデルが当てはまっているかの目安として、
Rs(R square)=RSS/TSS
すなわち、総変動をどのぐらい回帰変動で表せるか?
上の例では、Rs=0.75(75%)
一般的な見方は、
この数字が80%以上なら、相関が大きい、60%以上なら相関があると言える
この場合、75%だから、Xが大きくなるほどYが大きくなるという相関はあると言っていいだろう。
TSS=RSS+ESS だから(今は証明しないが後ほど)
Rs=1-(ESS/TSS)
とも書ける。
*やや混乱があるのは、
RSSのことを、ESS(Explained Sum of Squares、説明可能な変動という意味)、
ESSのことを、RSS(Residual Sim of Squares、残差変動)
Rs=ESS/TSS
と書いてあるものがあることだ。混乱しなければ問題ないが、記号だけだと誤解を与えやすいのも、また事実。