Clementineを使って、どうすればいいかわからない。
7月20日の記事 に引き続き、本日はClementineをどう使えばいいかの考察です。
ちなみにClementineのモデルの一部はSPSSでも分析できますので、SPSSに含まれるそれらのモデル(回帰分析・ツリー分析・クラスタ分析など)もここに含めます。
統計ソフトのSPSSは仮説は正しさの確率を出しておりましたが、Clementineはデータマイニングのソフトです。データマイニングは大量データから「○○と□□という組み合わせがあった」とか「△△と○○がこの数値の主要因になっている」をあぶりだすものですので、統計ソフトのように仮説を検証するのではなく、無数の組み合わせから「○○と□□という組み合わせ」を有用な仮説として見出すためのソフトと思います。
データマイニングは統計ソフトとはアプローチの異なるソフトのため、SPSSもCRISP-DM という分析の仕方の提案をおこなっております。ちなみにSASのデータマイニングソフトもSEMMA という同じような提案をしておりますが、内容は似たようなものです。
CRISP-DMについては、ClementineのインストールディレクトリにもPDFが格納されておりますが、なんか製本の原稿そのまんま裁断ポイントとか付いているんですけど・・・。
C:\Program Files\SPSS Clementine\10.1\Help\i18n\japanese_jp\CRISP-DM.pdf
CRISP-DMは、要するに「今の問題と現状持っているデータを勘案してモデルを何度も作成してそのなかから最適なものを採用する」というものです。統計ソフトでは仮説は正しいか間違っているかを検証するので何度も分析をしなおすということはしないですし、データも仮説に対して取るのですが、データマイニングではそれらが逆の発想になります。
データマイニングソフトは「○○と□□という組み合わせがあった」を見つけるソフトで、統計ソフトは「○○と□□という組み合わせ」は起こりうるのかを統計的に検証することが出来るので、「Clementineで仮説を発見して、効果測定は別途SPSSでデータを取り直して検証をする」という使い方もアリだと思います。ClementineはSPSSのような統計ソフトと異なり、目的が見えてこないところから始めて目的を見つけるまでの分析です。だからある意味どうすればいいかわからないことは正しいです。
明確なところからスタートしないため、決まった内容から良いか悪いかを判定するSPSSのような統計ソフトよりも、設定を変えてモデルを作り直しそれらを比較するという作業が多くなると思います。データマイニングとはそういうものですので、どんどん調整しましょう。調整をする過程で目的が見つかった時がモデルの完成です。
手法にはニューラルネットワークや、ニューラルネットワークの技術を用いているKohonenというクラスタモデルがあるのですが、これはあとでモデル内容を説明しづらいので、初心者は最初に使わないほうがいいかもしれません。モデルの内容を説明しやすい手法からやってみることが現実的だと思います。
くどいようですがClementineは「○○と□□という組み合わせ」を発見するためのソフトです。その組み合わせはClementineがたくさん出ると思うのですが、現実世界で発見した知見を活用できるリソースには限りがあるはずですので、活用する組み合わせは絞ることになると思います。あれもこれも同時に出来ませんよね。
データをモデルに照らし合わせて、各レコードにモデルの傾向による予測値を割り出すことが出来ます。これは有用だとは思いますが、実際に当ったかどうか効果測定はした方がいいと思います。なおあくまでモデルという傾向ですので、関西人は「必ず」阪神 ファンで納豆を食べないということがないように、100点満点のモデルということはありえません(何百万項目も特定すれば100点満点のモデルを作成できるのかもしれませんが、もうそれはモデルではなく一個人の特定ですね)。過度に正確さを求めても運用には限界があると思います。トータルでモデルは有益であったのならば良しとするのがデータマイニングということをご理解いただければと思います。