データマイニングに使用するデータの適正とツールの適性について

データマイニングをある目的で行おうとすると、非常に大変な作業が掛かる。

決して、格好よく、最先端のマーケティングに従事している作業イメージではなく、地べたを這いつくばっている感じである。

使用するシステムデータは、もともと分析を行うために蓄積されたデータではなく、業務を遂行するために蓄積されている。

情報系サーバーやDWHを保有している企業でも、単に業務システムからのデータをそのまま溜め込んでいたり、逆にサマリー化したために、データマイニングに使用できないことが多い。

そればかりか、数値データやキャラクターデータなどの定義があり、フラグデータは意味のあるカテゴリーになっているケースは皆無である。

分析を行うのには、先ずビジネス構造を理解し、必要データを作成するところから始める。いわゆるパンチ入力と同じ。この段階で生成データにミスがあると、分析結果が上手く出ないこともある。

その後、使用データと連結させるクレンジング工程だが、これがまた大変だ。同じようなデータを違う社内システムで保有しているため、条件を与えてマジを行う。しかし・・・、指定条件でマージをすると合わない。

基礎統計分析、ドリルスルーを行ってさらにカテゴリーデータを生成して、再度、基礎統計に返し、漸くデータマイニングです。

作業時間やウェイトをつけると、

①データ生成とクレンジング・・・・40%

②基礎統計・・・・30%

③非定型分析・・・・20％

④データマイニング・・・・10%

このようなウェイトになります。

つまりデータマイニングはたった10%ですので、皆さんが保有しているシステムデータをそのままデータマイニングツールに使用してもまず、精度の高い結果が得られないでしょう。

また、データマイニングのツールのアルゴリズムにはいくつかの特徴があり、データ使用変数の数、フラグ・数値などの定義、目的により全く違った結果となります。

何を導き出すのか？の最初の目的を先ずはっきりさせて、データを作成していく作業が分析業務の大半の作業です。