正規性の検定
先週t検定について取り上げました が、2群の平均値の差の比較である「t検定」や、3群以上の平均値の差の比較の「分散分析」は、データが正規分布をしているという前提の分析になります。
正規分布 とは言葉で簡単に説明すると「ヒストグラムを書くと、平均値を頂点として左右対称に釣鐘状にケースが分布している状態」です。Webで検索すると詳しく説明がされているでしょう。
コメントで補足をした先週の記事
では正規分布の確認がおろそかでしたが、SPSSでは「ヒストグラムのカタチがセクシー(?!)」というようなあやふやなものではなく、統計値として指定した数値変数が正規分布をしているかを検定することが出来ます。
SPSSに元々入っている「C:\Program Files\SPSS\Tutorial\sample_files\dietstudy.sav」を読み込みます。
SPSSのメニューから、[分析]→[記述統計]→[探索的]をクリックします。[従属変数]に検定対象の数値変数を投入します。今回は10月19日の記事 で使用した「体重0(体重)」と「体重4(体重の最終測定)」を投入しました。このあと「独立したサンプルのt検定」を行うなど、データをカテゴリ分けして分析するのであれば[因子]にもカテゴリ分けに使う変数を投入します。
ダイアログの[作図]ボタンをクリックすると、左中ほどに[正規性の検定とプロット]というチェックボックスがあります。チェックをして最初のダイアログに戻り、[OK]で実行します。
出力の中に[正規性の検定]というテーブルが出来ます。[有意確率]という項目を見て「.050」未満の値であれば、「この変数は正規分布している」という仮説が棄却され「この変数は正規分布していない」という結論になります。今回のデータではどちらも「.050」以上の値のため、「体重0(体重)と体重4(体重の最終測定)は正規分布をしている」と判断できます。
通常は「Kolmogorov-Smirnov の正規性の検定 (探索的)」のみ出力されますが、今回のデータのようにケース数が少ないと「Shapiro-Wilk」も出力されます(解釈の仕方は同じです)。データが正規分布をしていない場合はノンパラメトリック検定などを検討しましょう。
対応のあるサンプルのt検定
10月16日 、10月17日 、10月18日 の記事の続きで、対応のあるサンプルのt検定を実行してみます。
SPSSに元々入っている「C:\Program Files\SPSS\Tutorial\sample_files\dietstudy.sav」を読み込みます。
SPSSのメニューの、[分析]→[平均の比較]→[対応のあるサンプルのt検定]をクリックします。
今回のデータは患者ごとの中性脂肪および体重の推移のデータです。今回は「体重0(体重)」と「体重4(体重の最終測定)」のふたつの数値変数による測定値を比べて、「治療前と治療後に差はあるのか」を検定します。
今回のデータは正確性の検定をしたところ正規分布をしているようです。正確性の検定は次回記事にする予定です。
ダイアログ左上の変数リストより「体重0」をクリックすると、左下の[変数1]にこの変数が定義されます。続けて「体重4」をクリックすると、左下の[変数2]にこの変数が定義されます。この状態でボタンを押して右のリストに移動させることで「体重0」と「体重4」がひとつのセットで設定されます。この状態で[OK]をクリックして実行します。
実行すると、
という結果が出力されます。
[対応サンプルの統計量]、[対応サンプルの相関係数]、[対応サンプルの検定]というテーブルが出力されます。[対応サンプルの統計量]は「[分析]→[記述統計]→[記述統計]」、[対応サンプルの相関係数]は「[分析]→[相関]→[2変量]」で出るものと同じです。参考程度にみておき、[対応サンプルの検定]の[有意確率(両側)]をみて「.050」以上か未満かを確認します。
この分析ではあらかじめ「変数1と変数2の平均値に差はない」という仮説がたっており、[有意確率(両側)]が「.050」未満の場合は仮説が棄却され「変数1と変数2の平均値に差はある」となります。今回の分析では、「治療前の体重と治療後の体重に差はない」という仮説が棄却され、「治療前の体重と治療後の体重に差はある」という結論になります。
また、[差の95%信頼区間]の上限と下限の間に「0」が入らず、そこからも「ふたつのグループに有意な差はある」といえます。
次回 は後回しにしていた「正確性の検定」を行います。
独立したサンプルのt検定
10月16日 、10月17日 の記事の続きで、独立したサンプルのt検定を実行してみます。
SPSSに元々入っている「C:\Program Files\SPSS\1991 U.S. General Social Survey.sav」を読み込みます。
SPSSのメニューの、[分析]→[平均の比較]→[独立したサンプルのt検定]をクリックします。
今回は「就学年数」(数値変数・順序尺度)と「回答者の性別」(数値変数・名義尺度)という変数を利用して、「男性と女性で就学年数は異なるか?」を検定します。
なお「就学年数」は、正確性の検定をしたところ正規分布を認められませんでした(10月17日 のコメント参照)。申し訳ありませんが編集する時間がないのでこの変数を「正規分布している」と仮定して説明します。実際に「C:\Program Files\SPSS\1991 U.S. General Social Survey.sav」で試す方はご注意ください。正確性の検定については来週記事にする予定です。
[検定変数]に変数「就学年数」を投入し、[グループ化変数]に「性別」を投入し、さらに[グループの定義]ボタンで、グループはそれぞれ値「1」と「2」であることを指定します(数値変数の「グループ化変数」に対して閾値を指定して、この値以上と以下で2群を分けることも可能です)。[OK]をクリックして実行します。
実行すると、
という結果が出力されます。まずは[独立サンプルの検定]テーブルにある[等分散性のためのLeveneの検定]の[有意確率]をみます。これが「.050」以上なら[2つの母平均の差の検定]は上段の[等分散を仮定する。]をみます。「.050」未満なら[2つの母平均の差の検定]は下段の[等分散を仮定しない。]をみます。
というわけで今回は「.001」なので下段の[等分散を仮定しない。]をみるのですが、最終的には[2つの母平均の差の検定]の[有意確率(両側)]をみて「.050」以上か未満で判断をします。「ふたつのグループに差はない」という仮説があらかじめ立っており、有意確率が「.050」未満の場合は棄却されて「ふたつのグループに差はある」ということになります。
今回[2つの母平均の差の検定]の[有意確率(両側)]は「.000」(実際セルをクリックすると小さな値が入っています)という結果なので、「ふたつのグループに差はある」ということになります。男性の就学年数と女性の就学年数に差がないという仮説が棄却され、「男性の就学年数と女性の就学年数に差がある」という結論になります。
また、[差の95%信頼区間]の上限と下限の間に「0」が入らず、そこからも「ふたつのグループに有意な差はある」といえます。
明日
は「対応のあるサンプルのt検定」です。



