データマイニングをある目的で行おうとすると、非常に大変な作業が掛かる。


決して、格好よく、最先端のマーケティングに従事している作業イメージではなく、地べたを這いつくばっている感じである。


使用するシステムデータは、もともと分析を行うために蓄積されたデータではなく、業務を遂行するために蓄積されている。

情報系サーバーやDWHを保有している企業でも、単に業務システムからのデータをそのまま溜め込んでいたり、逆にサマリー化したために、データマイニングに使用できないことが多い。


そればかりか、数値データやキャラクターデータなどの定義があり、フラグデータは意味のあるカテゴリーになっているケースは皆無である。


分析を行うのには、先ずビジネス構造を理解し、必要データを作成するところから始める。いわゆるパンチ入力と同じ。この段階で生成データにミスがあると、分析結果が上手く出ないこともある。


その後、使用データと連結させるクレンジング工程だが、これがまた大変だ。同じようなデータを違う社内システムで保有しているため、条件を与えてマジを行う。しかし・・・、指定条件でマージをすると合わない。


基礎統計分析、ドリルスルーを行ってさらにカテゴリーデータを生成して、再度、基礎統計に返し、漸くデータマイニングです。

作業時間やウェイトをつけると、


①データ生成とクレンジング・・・・40%

②基礎統計・・・・30%

③非定型分析・・・・20%

④データマイニング・・・・10%

このようなウェイトになります。


つまりデータマイニングはたった10%ですので、皆さんが保有しているシステムデータをそのままデータマイニングツールに使用してもまず、精度の高い結果が得られないでしょう。


また、データマイニングのツールのアルゴリズムにはいくつかの特徴があり、データ使用変数の数、フラグ・数値などの定義、目的により全く違った結果となります。


何を導き出すのか?の最初の目的を先ずはっきりさせて、データを作成していく作業が分析業務の大半の作業です。