データマイニングをある目的で行おうとすると、非常に大変な作業が掛かる。
決して、格好よく、最先端のマーケティングに従事している作業イメージではなく、地べたを這いつくばっている感じである。
使用するシステムデータは、もともと分析を行うために蓄積されたデータではなく、業務を遂行するために蓄積されている。
情報系サーバーやDWHを保有している企業でも、単に業務システムからのデータをそのまま溜め込んでいたり、逆にサマリー化したために、データマイニングに使用できないことが多い。
そればかりか、数値データやキャラクターデータなどの定義があり、フラグデータは意味のあるカテゴリーになっているケースは皆無である。
分析を行うのには、先ずビジネス構造を理解し、必要データを作成するところから始める。いわゆるパンチ入力と同じ。この段階で生成データにミスがあると、分析結果が上手く出ないこともある。
その後、使用データと連結させるクレンジング工程だが、これがまた大変だ。同じようなデータを違う社内システムで保有しているため、条件を与えてマジを行う。しかし・・・、指定条件でマージをすると合わない。
基礎統計分析、ドリルスルーを行ってさらにカテゴリーデータを生成して、再度、基礎統計に返し、漸くデータマイニングです。
作業時間やウェイトをつけると、
①データ生成とクレンジング・・・・40%
②基礎統計・・・・30%
③非定型分析・・・・20%
④データマイニング・・・・10%
このようなウェイトになります。
つまりデータマイニングはたった10%ですので、皆さんが保有しているシステムデータをそのままデータマイニングツールに使用してもまず、精度の高い結果が得られないでしょう。
また、データマイニングのツールのアルゴリズムにはいくつかの特徴があり、データ使用変数の数、フラグ・数値などの定義、目的により全く違った結果となります。
何を導き出すのか?の最初の目的を先ずはっきりさせて、データを作成していく作業が分析業務の大半の作業です。