生データを一件一件みたほうが、アルゴリズムを考えるより有効です![]()
機械学習とは、最先端の理論を使うものでは無いのか?と聞かれそうですが![]()
それはそうなのですが、それ以前でつまづいている人が多過ぎます![]()
例えるなら、生データを見ずにモデルを決めるのは、
当日何人来るかわからないのに野球をするかサッカーをするか話してるようなものです![]()
そもそも、AIにデータを入れれば何か出るみたいに考えている人がいますが![]()
それは、AI業者が売りたいから盛ってるのに乗せられてるだけなんですよね![]()
まともなデータサイエンティストは絶対そんな事は言いません![]()
生データを見ると、以下のようなご利益があります。
- ガベージインガベージアウトかわかる
- ルールベースで処理できるかわかる
- 無相関データかわかる
ガベージインガベージアウト
データの前処理などが間違っている場合。
この場合、もとのデータが間違っている(gabage・ごみ)ので、どんなすごいAIに入れても出てくるのは間違った予測結果です。
入力ミス・SQLミス・空欄・損傷などいろんな要因があります。
ルールベース
そもそもAIを使う必要がないくらい、生データを見た時点で解が明らかな場合。
if文でプログラムを書けば十分です。
無相関
そもそもデータに法則性が無い場合。
例えば、ある広告が売上に全く寄与しない場合、広告出稿額と売上は無相関となります。
この場合、どんなAIにそのデータを入れても無駄です![]()
一見相関があってもそれは偶然で、長期では無相関であることもしばしばあります。気をつけましょう![]()