生データを一件一件みたほうが、アルゴリズムを考えるより有効ですニコニコ


機械学習とは、最先端の理論を使うものでは無いのか?と聞かれそうですがキョロキョロ


それはそうなのですが、それ以前でつまづいている人が多過ぎますガーン


例えるなら、生データを見ずにモデルを決めるのは、


当日何人来るかわからないのに野球をするかサッカーをするか話してるようなものですガーン


そもそも、AIにデータを入れれば何か出るみたいに考えている人がいますがえー


それは、AI業者が売りたいから盛ってるのに乗せられてるだけなんですよねネガティブ


まともなデータサイエンティストは絶対そんな事は言いません照れ


生データを見ると、以下のようなご利益があります。


  • ガベージインガベージアウトかわかる
  • ルールベースで処理できるかわかる
  • 無相関データかわかる

 ガベージインガベージアウト

データの前処理などが間違っている場合。


この場合、もとのデータが間違っている(gabage・ごみ)ので、どんなすごいAIに入れても出てくるのは間違った予測結果です。


入力ミス・SQLミス・空欄・損傷などいろんな要因があります。


 ルールベース

そもそもAIを使う必要がないくらい、生データを見た時点で解が明らかな場合。


if文でプログラムを書けば十分です。


 無相関

そもそもデータに法則性が無い場合。


例えば、ある広告が売上に全く寄与しない場合、広告出稿額と売上は無相関となります。


この場合、どんなAIにそのデータを入れても無駄ですガーン


一見相関があってもそれは偶然で、長期では無相関であることもしばしばあります。気をつけましょうおねがい