Clementineのデータ型
Excelの「セルの書式設定」のように、データベースにはCHAR(文字型)やDECIMAL(実数値)というような入力されたデータの型設定をフィールド単位で行っております。これはSPSSやClementineでも踏襲されております(SPSSは数学用語で「変数」、Clementineはデータベース用語で「フィールド」と呼びますが、内容は同じです)。
通常のデータベースはフィールドごとに数値なのか、文字なのか、日付なのかなどを型として設定するだけです。SPSSの変数の型設定も同様です。
しかしClementineは違います。データベースのようなフィールドに入っている値がどんな種類のデータなのかを型設定した上で、このフィールドには「どのような値が入っているのか」についても型設定する必要があります。
Clementineのデータ型は「ストレージ」と「データ型」の2種類があります。これはデータ型ノードの特定フィールドをクリックすると、そのノードのふたつのデータ型を確認できます。一般的な「データベースのデータ型」は「ストレージ」に相当します。
まず「ストレージ」が定義されます。これはClementineがデータを読み込んだ時点で設定され、データベースやSPSSファイルなど既に型を設定されているフォーマットについては、そのフォーマットが持っている型がClementineでも採用されます。可変長・固定長データは型を持っていないテキストファイルですが、可変長・固定長入力ノードには[データ]タブにてストレージを変更することが出来ます。通常は自動で設定されるため、必要な場合のみ[上書き]にチェックを入れて変更しましょう。
読み込んだ後でストレージを変更したい場合について7月11日の記事 にします。
これに対して「Clementineのデータ型」では、「この実数のフィールドには10から99までの値が登場する」というような、主に「このフィールドにはどんな値が登場するのか?」を設定します。ストレージについては特に変わった用語はないと思いますが、データ型については独特なので、説明がいるかもしれません。なお当たり前ですが、データベースなどClementine外に出力する場合は「Clementineのデータ型」は持ち出されず捨てられます。
離散型:「一定ではない値」ということなのですが、一定な値のフィールドは分析に無意味です。要するに「Clementineのデータ型を設定していない」という型です。
範囲:範囲を定義した数値フィールドです。
フラグ型:「ある/なし」など、2値の文字またはカテゴリとみなした数値のフィールドです。旗の上げ下げと同じということなんでしょう。
セット型:3値以上の文字またはカテゴリとみなした数値のフィールドです。
順序セット型:セット型のうち、上下関係のあるフィールドのことです。「大・中・小」とかが該当します。
「Clementineのデータ型」が設定されていないと実行できない処理がありますので、データ型ノードなどで正しく設定しておきましょう(6月5日の記事 のようにこれを考慮しなければならない問題もあります)。
つまりモデル作成のときに登場する値を明らかにしておくことがモデルの数式を組むときに役立つということなのでしょうが、SPSSにもある統計モデルについては「Clementineのデータ型」のような設定が不要なので、ちょっと面倒くさいなとは思います。今後SPSSみたいになりませんでしょうか?。
GUI版数量化理論プログラムのインストール後のサポート
知人から報告がありました。GUI版数量化理論 プログラムは、製作したのがSPSS社ではないので、SPSSではインストール以外をサポートをしてくれないそうです(といっても、3月21日の記事 のとおり、私は使いませんので、知ったことではありませんが・・・)。
知人によると、製作者の京都光華女子大学の山本嘉一郎先生(SPSSのGUI版数量化理論プログラムホームページ にも名前があります)に直接問い合わせて欲しいと言われるとのことです。
山本嘉一郎先生の数量化理論のホームページ
http://www.koka.ac.jp/yamamoto/spss/spss.htm
おっと、ここや日本法人のホームページ にてメールアドレスや問い合わせ方法を公開していないようですので、このブログで出せませんね。SPSSのサポートに山本先生への問い合わせ方法をご確認してください。
パラメータの使い方
Clementineでパラメータを指定しておくと、あとで入力したい値をCLEM式に代入することが出来ます。
Clementine右下の[...]ボタン、またはClementineのメニュー[ツール]→[ストリームのプロパティ]→[パラメータ]をクリックします。
[名前]にはフィールド名のようにパラメータの名前を入れます。[ロングネーム]はラベルのようなもので注釈を入れたい場合は利用します。[ストレージ]や[データ型]でこのパラメータのデータ型を指定します。そして[値]に実際に代入する値を入力します。
CLEM式ビルダーにて、[フィールド]を指定している右側のドロップダウンから[パラメータ]を選ぶことが出来るようになります。設定したパラメータの頭に「$P-」が付いたものが登場しますので、フィールドと同じようにCLEM式に投入します。
実行するとパラメータの値(例では「33<=年齢」を抽出する)を元に処理を行います。ストリームのプロパティにある「パラメータ」の値を変えるとその条件でストリームが実行されますので、条件式の値を変えてシミュレーションしたい場合に、最初の[...]ボタンから集中管理させることが出来ます。


![[...]ボタンでパラメータを設定](https://stat.ameba.jp/user_images/a9/e6/10024972075_s.gif?caw=800)

