「グローバル」って何?
Clementineのノードの中に、「グローバル」という名前のノードがあることには皆さん気づいていると思われますが、これの使い方を知らない人は結構いるのでは?と個人的に予想しております。
一般的な報告書とかをみると、項目の下に「小計」とか「合計」といった全体をまとめた値がつくと思われます。Excelのレポートはそういったものが多いでしょう。しかしSPSSなど統計ソフトではデータに入力するのはケースサンプルのみで、合計などのデータ全体の統計値をケースサンプルと同様に入力しません。
しかし、データ加工などにおいて、「合計に対する割合を返したい」ですとか「平均値で穴埋めしたい」など統計値を用いたい場合も出てきます。さきほどの報告書ですと、表の下の欄に書いておけばいいですが、統計ソフトの場合はどこでこの値を持っておこうか?となります。
この役割を果たすのが「グローバル値」です。データ全体の統計値を算出し、別枠で持っておき、必要なときに引っ張り出します。
統計値を使いたいノードの前に「グローバル」ノードを設置し、統計値を出したいフィールドを指定します。このダイアログの[実行]ボタンを実行すると、チェックの入った統計値をストリームが保持します。
計算した値はどこにあるかというと、Clementineの下のほうにある[...]ボタンをクリックし、[グローバル]タブをクリックしますと、確認できます。
この「グローバル値」はCLEM式で「@GLOBAL」から始まる関数を用いることでストリームに呼び出すことが出来ます。CLEM関数式を用いてデータ加工に活用しましょう(画像では「"年齢"が平均以上のレコードを抽出」しております)。
カイ二乗検定(2)
10月10日の記事 の続きで、実行してみます。
SPSSに元々入っている「C:\Program Files\SPSS\1991 U.S. General Social Survey.sav」を読み込みます。
[分析]→[ノンパラメトリック検定]→[カイ2乗]をクリックし、[検定変数リスト]に変数「回答者の性別」を投入します。
[期待度数]を[全てのカテゴリは同じ]のままにして、「このデータは男女比の差がないといえる」かを分析します。期待度数の設定=仮説の設定と思っていいでしょう。
実行すると、以下のような結果になりました。
期待度数と観測度数の差は男も女もあり、漸近有意確率が「.000」なので、「このデータは男女比の差がないといえる」仮説が棄却され、「このデータは男女比の差がある」という結論になります。
[分析]→[記述統計]→[クロス集計表]で、[行]に「回答者の性別」、[列]に「幸福度」を投入し、[統計]ボタンをクリックして[カイ2乗]にチェックを入れて戻り、[OK]をクリックします。
実行するとクロス集計表の下に[カイ2乗検定]というテーブルが作成され、[Pearsonのカイ2乗]の[漸近有意確率(両側)]は「.021」と「.050」を下回るので、「回答者の性別と幸福度に関連性がない」という仮説が棄却され、「回答者の性別と幸福度に関連性がある」という結論になります。
クロス集計表を見るとこの調査では男性と女性で幸福度に差(男性の方が幸福と感じる人が多く、女性の方が不幸に感じる人が多い)がありますので、その結果を推す結果になります。
カイ二乗検定(1)
SPSSではカイ2乗検定 を実行出来るところが複数存在します。
1.[分析]→[ノンパラメトリック検定]→[カイ2乗]をクリックし、[検定変数リスト]に変数をひとつ以上投入する。
2.[分析]→[記述統計]→[クロス集計表]でクロス集計表を作成するときに、ダイアログの[統計]ボタンをクリックし、[カイ2乗]にチェックを入れておいて戻り、最初のダイアログで[OK]をクリックしてクロス集計表を作成する。
3.[分析]→[テーブル]→[カスタムテーブル]でクロス集計表を設計し、[検定統計量]タブで[独立性の検定(カイ2乗)]にチェックを入れて、[OK]で実行する(SPSS Tables の機能)。
カイ二乗検定についての解説は、他にたくさんあるWebサイトに任せてしまい、このブログらしく最低限の説明をしますと・・・
質的変数(カテゴリカルな、文字型変数と文字型変数に置き換えられる数値変数)のみを用いて値の出現頻度を集計し、「そこで集計されている集計表が特異な結果なのか?」を判断する分析です。
「1.」は度数分布表に対しての適合度検定、「2.」や「3.」はクロス集計表に対しての2変数の独立性検定として、もっともらしさを出すためにあわせて実行すると良いでしょう。
最低限の解釈は、有意確率の項目を見て、「.050」未満かどうかを見ます。なお「.050を大きく下回るから強く言える」ということではありません。
「1.」ではあらかじめたてた「・・・という期待度数で値は分布している」という仮説が、「.050」未満の場合は棄却され、「・・・という期待度数で値は分布していない」ことになります。
「2.」や「3.」では、「2変数に関係性はない(独立している)」という仮説が、「.050」未満の場合は棄却され、「2変数に関係性はある」ことになります。
明日 実際にやってみましょう。





