<相関係数の見方と検定の話し>
前回、GDPと給与の関係をとりあえず作成してみました。
これの、GDPをヨコに持って来たのが下図
赤い線は線形近似です。近似曲線、近似直線、まぁ何でもいいです。とりあえず右肩上がり
Y=0.77X-0.0
Y=給与
X=GDP
と出たところです。そして
R2=0.7862
R=0.8866
Rが相関係数で、赤い近似がどれだけ信頼性あるか、を示した数字になります。
%でいえばR=89%ですね。いま。
さて、さっそく相関係数の話しに入ります。89%と言われてもなんのこっちゃ、ですよね。それを詳しく説明していきます。
相関係数は-100%から100%までの値を取ります。
0から100%だとプラスなので比例、
-100から0%だとマイナスだから反比例の関係となります。
100%:完全一致(比例)
99%~70%:強い相関(比例)
69%~21%:微妙に相関(比例)
20%~-20%:誤差、気のせいでしょ
-21%~-69%:微妙に相関(反比例)
-70%~-99%:相関(反比例)
-100%:完全一致(反比例)
まぁ適当に見ていきましょう。
青い点と赤い線が完全に重なれば完全一致、相関係数は100%=1になります。
-100%の場合です。これもわかりやすいですね。
78%の場合です。強い相関です。確かに右に行けば行くほど、青い点はずれてはいますが、上にいける可能性は高そうだ、と判断できそうなパターンです。このくらいわかりやすいと嬉しい。
次は34%。ちなみにB列を0~10のランダム変数にして適当に作成しています。
エクセルなら =rand()*10 まぁそれはいいとして
ここまで低下すると、一応相関がある、、、右に行けば行くほど、上に上がる可能性が高くなるよ、、、とは微妙に言い難くなってきます笑 赤い予測線とずれすぎですね。
一番左の点よりは大きくなるでしょうが、、、読めないよね、って話しです。だから相関が低いと困ります。困るというか、使えない、と。こういうのは「この相関係数、本当に正しいの?」という統計の検定をすると引っかかることが多いですね。
また、逆に「AをすればBになるんだ~~~!」とネット上で理屈を叫ぶ人がたまにいますが、そういう人の根拠のない論説を崩すときに「まず成り立ってねーよ」と、いうときには使えますね。そういう人は根拠なく言っているパターンも多いので。
ちなみに「株価が上がればGDPが良くなる」「お金を刷れば(期待で)景気が良くなる」も、実はこのパターンです。真面目に。。
はい、次ー。18%です。誤差って話しのやつです。
一応赤い線は右肩上がりを示していますが「本当?」って話しのやつです。だって、右に行けば行くほど、、、本当に上がる?って思いませんか?A2とA5では落ちてます。だから機械的に判定して20%以下「誤差じゃね?」って判断されるわけです。
同様に-20%以内の場合です。
もう赤い線がどう役立つかわかりませんね。
次は-40%です。
これも弱いですね。A3より右にいけば、下に下がる可能性が出てくる、というくらいでしょうか。でもA4とA8で上がっちゃってますから、やはり信頼性が弱いですよね。だからこの程度の相関係数も微妙と言われるゆえんです。
では-71%。強い反比例と言われるやつです。
これは、キレイですね笑 A4より右に行けばかなりの可能性で下に下がると予測できそうです。こういうグラフこそありがたいですいよね。
とまぁ、相関係数とはこういうものです。そしてタイトルにもあるように、検定の話しです。途中でも少し触れましたが、相関係数の数字の信頼性を確認するものです。
本格的にやると大変難しいため、表計算ソフトの自動計算でできる検定です。
2003エクセルならメニューバー>ツール>分析ツール>回帰分析、と選択です。
しかし、この機能は無料ダウンロードして来ないと、ないと思います。
自分のエクセルのバージョンで分析ツールをダウンロードしてきてください。
ほかの表計算ソフトの人は、、、がんばってください笑
その場合は流し読みしてくださいw
すると、ネット上で見たことある人がいるかもしれませんがこちら
こんなシートが追加されます。また、小数点がたくさん出てくるので、軒並み%表示にしておきました。ちなみに元データはGDPと給与のやつです。上の表の重決定R2=79%と、下のグラフのR2=78.62%が同じです。
で、見方。書いておきました。
これ、何かと言えば、赤い線を詳しく分析したやつです。つまり直線
Y=0.7774X-0.0051
緑色で切片が-1%となっています。これ、切片なので-0.0051のことですね。
%表示したので四捨五入されてしまいました^^;
そして78%が0.7774のことです。
ここで一番重要なのがP値というやつです。
Y=AX+BのXYが
元のデータGDPと給与だったわけですが、
今はそこから計算した赤い線、
AB、0.7774と-0.0051が正しいの?
って確認しているわけですね。
すると0.7774=78%の方はP値が5%以下でOKとなっています。
しかし-0.0051がアウトです。
というわけで、
Y=0.7774X-0.0051はダメで
Y=0.7774X だよ
って話になります。
まぁもとよりほぼゼロだったので、今回は誤差程度ですが。
もう一度
なんでゼロにしたかというと、切片の右側を見ていくと、下限と上限ってありますよね。
いま切片が-1%となっていますが、これは下限~上限の間ってことです。
表のとおり、数字を当てはめてみると
-1% は -2% ~ 1% の間
-2%と1%の間ってことは、ゼロになる可能性もあります。つまり、あるかどうかもわからないよね、ってことです^^;
かたや78%は 67%~88%の間ってことで、ゼロの可能性はありません。しっかりと存在していますね。だからP値もOKを出しているわけです。
ちなみに95%というのは信頼区間で、100回中95回はこの上限下限に収まるんじゃない?って数字です。2回くり返しているのは、私が95%じゃない方を設定をしなかったからです。
例えば99%とか設定入れておけば、99%の場合も計算されました。「100中99回は参考にできなきゃP値OK出さないよ」みたいな。
なお、90%、95%、99%のP値が確保できれば、相関係数のそばに*印を1個から3個くっつけていきます。もちろん99%なら*3つです。私は面倒だし結果がだいたいわかっているのでやりませんが「検定したのか!」みたいな人がいそうならだまって***をつけておいてあげましょう。
以上、今回は相関係数の見方と、エクセルの分析ツール、回帰分析の見方でした。
◆ よかったらシェアやツイートください ◆
ランキングはクリックいただけると多くの人に読んでいただけるようになります。
ちなみにCTRL+左クリックで、別タブでリンク先ページを開けます。
----編集後記----
次回は話を戻して、給与とGDPのグラフを見たいと思います。相関係数がわかったところで「評価はわかった」「数字の上でもしっかり連動しているのがわかった」とはなりますが、
では「どっちを増やせばいいのか」「というか増やせるのか」などと言ったところですね。