重回帰分析3

重回帰分析を実行して、得られた回帰式がどれくらいデータに適合しているかを知る指標として
R2乗があります。これは、決定係数とよばれたり、適合度とよばれたり、寄与率と呼ばれたりしますが、
普通、R2乗と表現すれば、回帰分析をやっている方ならすぐに分かります。

R2乗は、データ全体の散らばりと（平均値と観測値の分散）、予測値の散らばり（回帰式上の予測値と
平均値の分散）の比をとったもので、0から1の範囲をとる数値です。

R2乗が1（＝100％）になるということは、得られた回帰式によってデータの散らばりの100％が説明できることを
意味し、回帰式が完全に適合していると判断されます。
これは、回帰式の直線上にすべての観測値が乗ってくる状態ですが、一般のデータでR2乗が1になるケースは
ほぼ皆無です。

したがって、R2乗が1に近いほど、データに対して高い適合度を示す回帰式である、と解釈して使います。
逆に0に近いほど、あてはまりがよくない回帰式であるということです。

さて、気になるのはいくつくらいのR2乗を目安にすればよいか、ということですが、これは残念ながら目安は
ありません。なぜなら、研究の分野によって、または研究の興味や事前の仮説や知見によって、
いくつくらいの適合度が求められるかが異なるからです。

例えば、0.8のR2乗が得られても「適合度が低い」と判断されることもありますし、0.4くらいのR2乗でも
目的やデータによっては「適合度が高い」と判断されることもあります。

複数の独立変数の組み合わせを試行してみて、もっともR2乗の高い回帰式が、一番適合度がよい、
と判断すればよいでしょう。

なお、一般論にすぎませんが、分析を行う場合は、データの半分以上の現象を説明しようとしますので、
R2乗も0.5以上を目安にしてみる、という方法もあるかもしれません。

統計解析道具箱～はじめての統計分析～

Statistics never lie but liars use Statistics

重回帰分析3