統計解析道具箱~はじめての統計分析~ -8ページ目

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics

正規性の評価(5)頑健性

t検定を利用するために必要な、量的変数の正規性ですが、この仮定は極めてゆるい前提です。
したがって、おおむね正規分布にしたがえばよいとされます。

その理由は、正規分布からの逸脱が認められたとしても、結果に大きな相違が出ないことが多いからです。特に前回の記事に記載したサンプルサイズの問題で、n≧30となる場合には、正規性の評価自体をしないケースもあります。

このように、仮定を満たさなくても結果に大きな影響がない場合を、「頑健(ロバスト)」と言います。

結果重視の場合や、参考程度にアンケート結果を考察したい場合などは、正規性の評価を省略して、t検定を行ってしまう例も少なくないでしょう。

しかし、レポートや論文に掲載するような場合は、正規性の評価が求められたり、確認されたりしますから、原則にしたがって、正規分布にしたがうデータかどうかを調べてから、t検定や代替となるノンパラメトリック検定を利用するのがよいでしょう。



正規性の評価(1)ヒストグラム
正規性の評価(2)正規性の検定
正規性の評価(3)歪度と尖度
正規性の評価(4)サンプルサイズ
正規性の評価(5)頑健性

正規性の評価(4)サンプルサイズ

量的変数の正規性を評価するためには、ヒストグラムや正規性の検定を用いますが、そのほかにサンプルサイズに注目することも大切です。

特に正規性の検定によって、正規分布かどうかを判定する場合、サンプル数が極端に多い場合や極端に少ない場合には、検定結果の有用性は低下しますので、注意が必要です。

そこで1つの目安として利用されることが多いのが、n=30です。
すなわち、サンプル数が30に満たない場合は、たとえ正規性の検定結果から正規性が仮定できそうでも、正規分布とは判定せず、逆にサンプル数が30を超える場合、正規性からの逸脱が認められても、正規分布と判定してしまう(ちょっと乱暴ですが)基準です。

統計をやっていると、サンプル数が30という目安をよく聞きます。
この根拠となるのは、中心極限定理と呼ばれるものです。

特に、「サンプル数が30に満たない場合は、正規分布とは考えずに、変数変換やノンパラメトリック検定を利用する」と考えてみるのもよいでしょう。



正規性の評価(1)ヒストグラム
正規性の評価(2)正規性の検定
正規性の評価(3)歪度と尖度
正規性の評価(4)サンプルサイズ
正規性の評価(5)頑健性

正規性の評価(3)歪度と尖度

一般的に、量的変数の正規性を評価する方法としてよく利用されるのは、グラフ正規性の検定 です。
したがって、統計を専門的にされる方を除いて、歪度と尖度による方法は気にしなくてもよいかもしれません。

歪度
分布のゆがみを表す統計量です。正規分布の場合は左右対称性を示しますので、歪度は0になります。つまり、歪度を見て0から大きくずれている場合は、正規分布ではないと判断します。

尖度
分布の尖りを表す統計量です。正規分布の場合、尖度は3になります。つまり、尖度を見て3から大きくずれてくる場合は、正規分布ではないと判断します。ただし、統計ソフトを利用する場合は注意が必要です。3を基準に判定するのは面倒であるため、正規分布の場合の尖度を0に調整しているものが多いからです。この場合は、尖度を見て0から大きくずれている場合に、正規分布ではないと判断します。

ところで、量的変数が正規分布にしたがうといえるかが重要なのは、標本においてではなく、母集団においてです。これはすべての推測統計と同じ考え方です。

したがって、上記の歪度と尖度も、母集団の数値を推定して、その信頼区間により判定します。


正規性の評価(1)ヒストグラム
正規性の評価(2)正規性の検定
正規性の評価(3)歪度と尖度
正規性の評価(4)サンプルサイズ
正規性の評価(5)頑健性