統計解析道具箱~はじめての統計分析~

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics

 
Amebaでブログを始めよう!
t検定などによって、母平均の差の検定を行う場合、基本的には母集団の等分散を仮定する必要があります。
これは、比較する群間でサンプルサイズに相違がある場合は特に重要になります。

この等分散をt検定に先駆けて事前に確認したい場合は、分散の比を検定するF検定を利用することができます。
オープンソースの統計解析ソフトウェア「R」では、関数var.testで検定できます。

この検定の帰無仮説は「2群の分散が等しい」ですので、棄却されなければ、分散が等しいと仮定します。
(検定の原則上、本来の表現は「分散が等しくないとはいえない」ですが)

ただし、この検定は他の検定同様、サンプルサイズの影響を受けますし、正規分布からの逸脱に敏感な傾向がありますので、この検定だけで結果を判定しないことも多々あります。

余談ですが、SPSSでは、Levene検定によって等分散かどうかを調べますが、この検定は正規分布からの逸脱に強いとされています。
スケール変数同士の関係性の強さを示す統計量に相関係数がありま
すが、これは正確にはPearson(ピアソン)の積率相関係数と呼ばれるものです。ほとんど厳密には評価しませんが本来は正規分布を仮定できるスケール変数に適用する統計量です。

変数が順序データとみなされる場合は、Spearman(スピアマン)の相関係数を用います。これはスケール変数に対しても適用され、いったんランクデータに変換したのち計算が行われます。
正規分布を仮定できない場合や、順序データを用いる場合、外れ値を含むデータ等で利用されます。

データによっては、ランクに変換する際には同順位(値が同じもの)が含まれることもありますが、同順位データを多く含みクロス集計表にまとめたほうがよいような場合は、Kendallのタウbという相関係数を利用します。
分散分析とは、
母集団において平均値に差があるかどうかを調べる統計手法です。
平均値の差を調べる統計手法には、あまりにも有名なt検定がありますが、t検定の場合、比較できるグループ(水準ともいいます)は2つまでです。分散分析はこれを拡張し、一度に3つ以上のグループ(水準)を比較することができます。

平均値を代表値として使うということは、とりもなおさず対象となる変数はスケール変数(金額、血圧値、得点、測定値など)です。そして、それをグループ化する変数はカテゴリ変数(性別、年代、地域、病院など)です。このとき、カテゴリ変数を1つだけ使用する形を「一元配置分散分析」といいます。

1元配置分散分析で検定すべき帰無仮説は、以下です。

帰無仮説(H0):μ1=μ2=・・・=μk
対立仮説(H1):μ1≠μ3≠・・・=μk

μ(母平均)、k(k番目の変数)

仮説の形からわかりますが、この分析で検定されているのは、「すべてのグループの平均値が同じ」かどうかです。つまり、グループたった1つでも平均値が異なれば、有意になるのです。言い換えれば、平均値に有意な差があるとコメントできるときに、どのグループ間に差があるかはわからず、どこかに差があるということしかわからないのです。

そこで、具体的なグループ間の差を調べる場合は、多重比較(下位検定)にかけていきます。