Clementineのデータ型

Excelの「セルの書式設定」のように、データベースにはCHAR（文字型）やDECIMAL（実数値）というような入力されたデータの型設定をフィールド単位で行っております。これはSPSSやClementineでも踏襲されております（SPSSは数学用語で「変数」、Clementineはデータベース用語で「フィールド」と呼びますが、内容は同じです）。

通常のデータベースはフィールドごとに数値なのか、文字なのか、日付なのかなどを型として設定するだけです。SPSSの変数の型設定も同様です。

しかしClementineは違います。データベースのようなフィールドに入っている値がどんな種類のデータなのかを型設定した上で、このフィールドには「どのような値が入っているのか」についても型設定する必要があります。

Clementineのデータ型は「ストレージ」と「データ型」の2種類があります。これはデータ型ノードの特定フィールドをクリックすると、そのノードのふたつのデータ型を確認できます。一般的な「データベースのデータ型」は「ストレージ」に相当します。

まず「ストレージ」が定義されます。これはClementineがデータを読み込んだ時点で設定され、データベースやSPSSファイルなど既に型を設定されているフォーマットについては、そのフォーマットが持っている型がClementineでも採用されます。可変長・固定長データは型を持っていないテキストファイルですが、可変長・固定長入力ノードには[データ]タブにてストレージを変更することが出来ます。通常は自動で設定されるため、必要な場合のみ[上書き]にチェックを入れて変更しましょう。

読み込んだ後でストレージを変更したい場合について7月11日の記事にします。

これに対して「Clementineのデータ型」では、「この実数のフィールドには10から99までの値が登場する」というような、主に「このフィールドにはどんな値が登場するのか？」を設定します。ストレージについては特に変わった用語はないと思いますが、データ型については独特なので、説明がいるかもしれません。なお当たり前ですが、データベースなどClementine外に出力する場合は「Clementineのデータ型」は持ち出されず捨てられます。

離散型：「一定ではない値」ということなのですが、一定な値のフィールドは分析に無意味です。要するに「Clementineのデータ型を設定していない」という型です。

範囲：範囲を定義した数値フィールドです。

フラグ型：「ある／なし」など、2値の文字またはカテゴリとみなした数値のフィールドです。旗の上げ下げと同じということなんでしょう。

セット型：3値以上の文字またはカテゴリとみなした数値のフィールドです。

順序セット型：セット型のうち、上下関係のあるフィールドのことです。「大・中・小」とかが該当します。

「Clementineのデータ型」が設定されていないと実行できない処理がありますので、データ型ノードなどで正しく設定しておきましょう（6月5日の記事のようにこれを考慮しなければならない問題もあります）。

つまりモデル作成のときに登場する値を明らかにしておくことがモデルの数式を組むときに役立つということなのでしょうが、SPSSにもある統計モデルについては「Clementineのデータ型」のような設定が不要なので、ちょっと面倒くさいなとは思います。今後SPSSみたいになりませんでしょうか？。

ブログ画像一覧を見る

このブログをフォローする

SPSS備忘録

SPSS社のソフトウェアについての備忘録。自分自身もこれを見て思い出すので、誤った記述がありましたらコメントしてください。

Clementineのデータ型