Clementineでデータ分割をすることを考える
9月7日の記事 に関連して、Clementineで数値フィールドをカテゴリ化することを考えます。
基本的には[フィールド作成ノード]の[セット型]を組んでいく方法になると思います。
SPSSより「以上・以下・未満」を設定するのはわかりやすいです。ただカテゴリが多い場合、これをセットしていくのは面倒ですね。
数値フィールドでヒストグラムを作成し、ヒストグラムをクリックしてバンドを作成して、それをもとにカテゴリを作成する方法があります。私もよく使います。
しかし、データを等分に分けたり、細かい値を指定するのは、この方法ですと難しいです。
データを等分する場合は[データ分割ノード]を使用することになります(ちなみに[データ分類ノード]という似た名前のノードもあり、こちらはカテゴリがたくさんあるフィールドをまとめたり、カテゴリを改名したりするセット型フィールドを対象にした処理です)。
[データ分割手段]を[固定幅]にすれば、最小値から最大値まで等間隔でデータを分割しますし、[分位(等カウント)]にすれば、全てのビンが等しい件数になるようにデータを分割します。
データ分割ノードによる分割をカスタマイズしたい場合は、一旦このノードを含むストリームを実行後、ふたたびこのデータ分割ノードを開き、[ノードの生成]タブを開きます。[フィールド作成ノードの生成]ボタンがありますのでこれをクリックしますと、セット型を指定したフィールド作成ノードを生成できますので、このフィールド作成ノードを編集しましょう。
フィールド作成ノードから作成するのではなく、ヒストグラムやデータ分割ノードで輪郭を作って、それをカスタマイズする方が作りやすい場合もありますので、参考にしていただければと思います。


![[ノードの生成]タブ](https://stat.ameba.jp/user_images/23/f0/10030780819_s.gif?caw=800)