統計解析道具箱~はじめての統計分析~ -18ページ目

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics



正規分布01


量的データ同士の直線の関係の強さを測るのが相関係数ですが、この相関係数には少しだけ統計上のお作法があります。

一般的に何の断りもなく「相関係数」と言った場合、Pearson(ピアソン)の相関係数を指しますが、この統計量を使用するには、量的データが正規分布にしたがう必要があるという条件がつきます。

正規分布(上記の図のイメージ)とは、統計をやっていく上でまず最初に学習する基本的な分布のことですが、自然発生する現象の多くがこの正規分布と呼ばれ る分布にしたがう性質を持っています。ちょうど富士山のような中央が盛り上がって左右対称の曲線を描きます。何かを測定したときの誤差もこの正規分布にし たがいます。

したがって、Pearsonの相関係数を使用するためには、厳密には事前に使用するデータが正規分布にしたがうかどうかを調べて、正規分布にしたがうと判断されれば、相関係数を計算していく流れになります。
もし、正規分布にしたがわない場合は、Pearsonの相関係数は正しい作法にしたがっていませんので、別の統計量を使用する必要があるのですが、それがSpearman(スピアマン)の相関係数です。

これは元の量的データを順位データに変換してから相関係数を計算する方法で、Excelでも利用できます。

ただし、Pearsonの相関係数もSpearmanの相関係数も結果に大きな差を生じないことが多いことから、実際の分析の場面では(特にデータが多い場合)、正規分布かどうかを問題にすることなく、Pearsonの相関係数を利用することが多いです。
データの要約をする際に平均値を使うのは常識ですが、この平均値なるものはデータの総和(すべて足し合わせたもの)をデータ数で割ることによって計算するところから、極端に大きな値や小さい値の影響を強く受ける統計量になります。

有名な話ですが、平均値は慎重に吟味する必要があるということです。

よく知られているのが、平均貯蓄額や平均所得などの例でしょう。
平成20年7月に公表された平均貯蓄額(二人以上の勤労者世帯、現在貯蓄高から負債額をマイナスしたもの)によると、全体平均は、1,294万円になるわけですが、一般的な世帯から見るとこの数字はかなり高いものに感じられるのではないでしょうか。

例えば、サラリーマンの平均的な所得は、400万円~500万円くらいといわれますが、この年収階級でみると平均貯蓄高は、768万円まで下がります。だいぶ低くなりますが、それでも実情にあわないと感じる方も多いのではないでしょうか。さらに、この層の詳細をみると、貯蓄高が100万円に満たない世帯が、この層の21%を占めることがわかります。

統計の有名なアイロニーに、以下のものがあります。
Statictics has been described as the science which tells you that ifyou lie with your head in the oven and your feet in the refrigerator,on average you'll be comfortably warm.
(統計学とは、頭がオーブンの中にあって、足が冷蔵庫の中にあれば、平均して快適である、と表現する科学である)

その平均値が本当にデータの実情を捉えているか、きちんと要約できているかを知るためには、標準偏差(SD)や最小値・最大値を調べる、データの中身をしっかりと吟味する必要があり、頭から平均値の数字を信用しないことが大切ではないでしょうか。

ちなみに、司法書士(不動産登記や商業登記を請け負う書士)の平均年収が1,400万円だそうですが、この数字だけを鵜呑みにして受験に挑戦する人も少なくないとか(試験はかなり難しいそうです)
しかし、知り合いの司法書士によれば、最頻値は400~500万円くらいじゃないだろうか、とのこと。

平均値は、データの真実をゆがめて表現してしまうこともあるので、取り扱いには注意です。

相関係数1


2つの量的データの関係性を分析する(関係の強さを測る)手法が、相関係数です。

具体的には、線型(直線)の関係を評価する指標で、小文字「r」で表現されます。
正確には、これをPearsonの積率相関係数と呼びます。

この相関係数は、本来は正規分布に従うデータに適用するのがお作法どおりのやり方なのですが、
一般的に「正規分布するかどうか」はそれほど重要なポイントではないので、ここでは省略します。

Excelを利用するのであれば、図のように2つの量的データ(図では「電気代」「ガス代」)を列に入力しておいて、
統計関数「CORREL()」を利用します。

相関係数(r)は、-1から+1の範囲を取り、絶対値で「1」に近いほど強い関係を示します。
一般的に使われる指標は下記の目安です。

0.0~0.2 ほとんど線型の相関なし
0.2~0.4 やや線型の相関あり
0.4~0.7 かなり線型の相関あり
0.7~1.0 強い線型の相関あり

上記の図では、「0.643」という数値が得られていますので「かなり、もしくは強めの相関が認められる」と解釈できることになります。符号は+ですので、「正の相関(一方が上昇するともう一方も上昇する)」であることが分かります。

なお、この相関係数(r)は、外れ値の影響を強く受けますので、事前に散布図でグラフ化するなどして、関係性の全体像や外れ値の有無をチェックしておくことが肝要です。