Clementineでデータ分割をすることを考える | SPSS備忘録

Clementineでデータ分割をすることを考える

9月7日の記事 に関連して、Clementineで数値フィールドをカテゴリ化することを考えます。


基本的には[フィールド作成ノード]の[セット型]を組んでいく方法になると思います。


セット型

SPSSより「以上・以下・未満」を設定するのはわかりやすいです。ただカテゴリが多い場合、これをセットしていくのは面倒ですね。


数値フィールドでヒストグラムを作成し、ヒストグラムをクリックしてバンドを作成して、それをもとにカテゴリを作成する方法があります。私もよく使います。


ヒストグラム


しかし、データを等分に分けたり、細かい値を指定するのは、この方法ですと難しいです。


データを等分する場合は[データ分割ノード]を使用することになります(ちなみに[データ分類ノード]という似た名前のノードもあり、こちらはカテゴリがたくさんあるフィールドをまとめたり、カテゴリを改名したりするセット型フィールドを対象にした処理です)。


データ分割ノード


[データ分割手段]を[固定幅]にすれば、最小値から最大値まで等間隔でデータを分割しますし、[分位(等カウント)]にすれば、全てのビンが等しい件数になるようにデータを分割します。


データ分割ノードによる分割をカスタマイズしたい場合は、一旦このノードを含むストリームを実行後、ふたたびこのデータ分割ノードを開き、[ノードの生成]タブを開きます。[フィールド作成ノードの生成]ボタンがありますのでこれをクリックしますと、セット型を指定したフィールド作成ノードを生成できますので、このフィールド作成ノードを編集しましょう。


[ノードの生成]タブ


フィールド作成ノードから作成するのではなく、ヒストグラムやデータ分割ノードで輪郭を作って、それをカスタマイズする方が作りやすい場合もありますので、参考にしていただければと思います。