SPSS備忘録 -34ページ目

Clementineのノードの中に、「グローバル」という名前のノードがあることには皆さん気づいていると思われますが、これの使い方を知らない人は結構いるのでは？と個人的に予想しております。

一般的な報告書とかをみると、項目の下に「小計」とか「合計」といった全体をまとめた値がつくと思われます。Excelのレポートはそういったものが多いでしょう。しかしSPSSなど統計ソフトではデータに入力するのはケースサンプルのみで、合計などのデータ全体の統計値をケースサンプルと同様に入力しません。

しかし、データ加工などにおいて、「合計に対する割合を返したい」ですとか「平均値で穴埋めしたい」など統計値を用いたい場合も出てきます。さきほどの報告書ですと、表の下の欄に書いておけばいいですが、統計ソフトの場合はどこでこの値を持っておこうか？となります。

この役割を果たすのが「グローバル値」です。データ全体の統計値を算出し、別枠で持っておき、必要なときに引っ張り出します。

統計値を使いたいノードの前に「グローバル」ノードを設置し、統計値を出したいフィールドを指定します。このダイアログの[実行]ボタンを実行すると、チェックの入った統計値をストリームが保持します。

計算した値はどこにあるかというと、Clementineの下のほうにある[...]ボタンをクリックし、[グローバル]タブをクリックしますと、確認できます。

この「グローバル値」はCLEM式で「@GLOBAL」から始まる関数を用いることでストリームに呼び出すことが出来ます。CLEM関数式を用いてデータ加工に活用しましょう（画像では「"年齢"が平均以上のレコードを抽出」しております）。

10月10日の記事の続きで、実行してみます。

SPSSに元々入っている「C:\Program Files\SPSS\1991 U.S. General Social Survey.sav」を読み込みます。

[分析]→[ノンパラメトリック検定]→[カイ2乗]をクリックし、[検定変数リスト]に変数「回答者の性別」を投入します。

[期待度数]を[全てのカテゴリは同じ]のままにして、「このデータは男女比の差がないといえる」かを分析します。期待度数の設定＝仮説の設定と思っていいでしょう。

実行すると、以下のような結果になりました。

期待度数と観測度数の差は男も女もあり、漸近有意確率が「.000」なので、「このデータは男女比の差がないといえる」仮説が棄却され、「このデータは男女比の差がある」という結論になります。

[分析]→[記述統計]→[クロス集計表]で、[行]に「回答者の性別」、[列]に「幸福度」を投入し、[統計]ボタンをクリックして[カイ2乗]にチェックを入れて戻り、[OK]をクリックします。

実行するとクロス集計表の下に[カイ2乗検定]というテーブルが作成され、[Pearsonのカイ2乗]の[漸近有意確率（両側）]は「.021」と「.050」を下回るので、「回答者の性別と幸福度に関連性がない」という仮説が棄却され、「回答者の性別と幸福度に関連性がある」という結論になります。

クロス集計表を見るとこの調査では男性と女性で幸福度に差（男性の方が幸福と感じる人が多く、女性の方が不幸に感じる人が多い）がありますので、その結果を推す結果になります。

SPSSではカイ2乗検定を実行出来るところが複数存在します。

1.[分析]→[ノンパラメトリック検定]→[カイ2乗]をクリックし、[検定変数リスト]に変数をひとつ以上投入する。

2.[分析]→[記述統計]→[クロス集計表]でクロス集計表を作成するときに、ダイアログの[統計]ボタンをクリックし、[カイ2乗]にチェックを入れておいて戻り、最初のダイアログで[OK]をクリックしてクロス集計表を作成する。

3.[分析]→[テーブル]→[カスタムテーブル]でクロス集計表を設計し、[検定統計量]タブで[独立性の検定（カイ2乗）]にチェックを入れて、[OK]で実行する（SPSS Tables の機能）。

カイ二乗検定についての解説は、他にたくさんあるWebサイトに任せてしまい、このブログらしく最低限の説明をしますと・・・

質的変数（カテゴリカルな、文字型変数と文字型変数に置き換えられる数値変数）のみを用いて値の出現頻度を集計し、「そこで集計されている集計表が特異な結果なのか？」を判断する分析です。

「1.」は度数分布表に対しての適合度検定、「2.」や「3.」はクロス集計表に対しての2変数の独立性検定として、もっともらしさを出すためにあわせて実行すると良いでしょう。

最低限の解釈は、有意確率の項目を見て、「.050」未満かどうかを見ます。なお「.050を大きく下回るから強く言える」ということではありません。

「1.」ではあらかじめたてた「・・・という期待度数で値は分布している」という仮説が、「.050」未満の場合は棄却され、「・・・という期待度数で値は分布していない」ことになります。

「2.」や「3.」では、「2変数に関係性はない（独立している）」という仮説が、「.050」未満の場合は棄却され、「2変数に関係性はある」ことになります。

明日実際にやってみましょう。

SPSS備忘録