ぜんっぜん中身わかってないんですけど、コルモゴロフ・スミルノフ検定(K-S検定)とシャピロ・ウィルク検定(S-W検定)の話を書いてみたくなりました。

すみません、私の不勉強でこれを読んだところで、違いが分かるようになるわけではありません。ってか、覚えにくい。数学をやっている人には、コルモゴロフさんは有名人みたいですけどね。スミルノフさんをスミノルフと書いているサイトもありました。

 

どちらの検定にしても、データが正規分布しているかどうかを数値的に確認する手段として用いられるようです。

正規分布しているかどうかを調べる場合に、私が先生に教わったところでは、

1.分布のグラフを描く(視覚的)

2.正規確率プロットで確認する(視覚的)

3.コルモゴロフ・スミルノフ検定やシャピロ・ウィルク検定で確認する(数値的)

ということなんですが、分布のグラフを見ても正規分布なのかどうかなんてあまりわからないですよね。一方で、正規確率プロットについては、直線上に並んでいるかどうかを確認するのですが、SPSSではなくてEZRの方は、このプロット内なら、正規分布という範囲を示してくれるので素人の私にも便利そうです。

 

なお、医療統計でしばしばお世話になっているページの『いちばんやさしい、医療統計』では、「しかし統計専門家からすると、正規性の検定は実施しない方が良いと考えます。」と書いてあります。「理由は主に2つ。①多重性の問題②サンプルサイズで検定結果は左右される」とのことです。

 

②のサンプルサイズについては、「SPSSのサイトに、「Shapiro-Wilk」は50件程度のデータに特化した手法になりますので、少ないケース数に対して正規性の検定を行う場合は、シャピロ・ウィルク検定」ということらしいです。

 

ちなみに、SPSSでは両方出てきます。

今回は15例の少ないケースなので、シャピロ・ウィルク検定ですね。SPSSでは両方出てきてしまいますが、有意確率が全然違うのでご注意を。

 

話は戻って、①の多重性の問題ですが、いまだに多重性の問題がよくわからないのです。。検定をたくさんすることで全体のαエラーが5%よりも増えてしまうという問題ですが、私は理解できていません。検定をいくつかしたとしても、その結果を受けた検定ではないのだから、なぜエラーが増えるのかがわからないのです。多重性の問題は前期から分かったようでわかっていないと思っていましたが、いまだにわかっておりません。