統計解析道具箱~はじめての統計分析~ -17ページ目

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics


KS検定2
量的な変数が正規分布にしたがうかどうかを調べるには、グラフで視覚的に調べる、統計量を調べるなどの方法がありますが、代表的な方法に仮説検定による方法があります。

よく知られている方法が、Kolmogolov-Smirnov(コルゴモロフ・スミルノフ)検定です。
SPSSでは、以下のように実行します。

① [分析]-[記述統計]-[探索的]メニューを選択します。
② 「従属変数」ボックスに、正規分布かどうかを調べたい量的変数を移動します。
③ 「作図」ボタンをクリックします。
④ 「正規性の検定とプロット」チェックボックスをオンにします。
⑤ 「続行」ボタンをクリックします。
⑥ 「OK」ボタンをクリックします。

統計量や自由度に関する情報も出力されますが、結果を判断するには有意確率の値を見ます。
この検定の帰無仮説は「変数は正規分布にしたがう」ですので、棄却されてしまうと「正規分布ではない」との結論を受け入れることになります。

上記の図はSPSSで実行した検定結果の例ですが、有意確率=0.182 が得られておりこれは一般的に用いられる有意水準(5%)を超えていますので、帰無仮説は棄却されず、「正規分布にしたがう」(本当は、正規分布にしたが わないとはいえない)との結論を受け入れることになります。

変数が正規分布にしたがえば、この分布を前提としたパラメトリック手法を利用して解析に進み、正規分布にしたがわない場合には、ノンパラメトリック手法を利用するという使い分けが一般的です。

ただし、仮説検定はサンプルサイズに大きく影響を受ける手法ですので、グラフも描いてみて複合的に観察することが大切です。

統計解析は、ある母集団を定義してその母集団に関するある結論を導き出すための手法ですので、母集団がどう定義されているかというのは、きわめて重要な論点です。

母集団は、一般的に非常に大量のデータの集合、場合によってはすべてを観測するのが不可能なほどのデータの集まりですので、そこから標本(サンプル)を抽出し、標本調査をして全体としての母集団を推測するわけで、この手法を推測統計と呼んでいます。

この場合、標本から得られる結論が適用できるのは、本来、事前に定義してある母集団についてのみであることが原則ですが、拡大解釈をしているケースが沢山あります。

「貯蓄残高、増加の傾向」

「高校生の70%が性体験済み」

「国民の90%が憲法改正に反対」

「顧客満足度平均4.8(5段階ポイント)」

とかいろんな記事の見出しがありますが、よくみなければならないのが
「誰を対象に調査したか」「何人に調査したか」というポイントです。

これらが表記されていない結果は、統計を知らないか、意図的に隠しているかのどちらかです。

例えば、上記の「高校生の70%が性体験済み」などといわれると、時代は変わったなあ、なんていう溜息が漏れそうですが、よくよく見ると、渋谷のセンター街で10人に聞いてみた、なんていうオチがあったりします。こんな結果を、高校生に一般化させても決して信頼できる数値じゃないのは明らかです。

リサーチ結果を見るときは、母集団がどう定義されていて、どのようにして何人に調査したか、という視点を忘れないようする、というのは鉄則としたいものです。
一般的によく利用されている仮説検定の手法にt検定があります。
これは、2群間(2つのグループ)の平均値の差を検出する手法ですが、ほかの仮説検定と同じようにサンプルサイズに大きな影響を受けます。

サンプルが少なければ「有意差が出にくく」、サンプルが増えれば「有意差が出やすくなる」わけです。このときの有意差とは、標本における差が母集団でも同じように認められるということでです。

サンプルさえ増やせば標本における2群間の差は有意差として認めやすくなる。



という点になり、この点を見落としているレポートや論文を見かけることが多いです。
研究上の差としては意味がなくても、有意差が出ることは断然としてあります。
サンプルさえ増やせばいいのだから・・・。

大量データを扱う分析者が仮説検定を利用しない、または仮説検定という手法を知らない事実は、この辺りにも理由があるのです。