Kaggleで学んでハイスコアをたたき出す!Python機械学習&データ分析 | ナナとトモのブログ

ナナとトモのブログ

最近は書評メインですがナナ(ダックスフント)のかわいさを世界に広めるブログです。

データサイエンスではデータに応じてさまざまなアルゴリズムを試してみる必要が

あります。分類の iris、ネットワークの karate club、文字認識の MNIST など、

公開データだけでもそれなりに感触はつかめますが、もっと大規模な実データでは

どうなるのかを個人で試すことはなかなか難しい。そういう意味で Kaggle という

データ分析コンペを利用することがよく行なわれています。

 
データ分析の初心者がいろいろなデータを扱うため Kaggle を利用するというのは
あくまでも「実験用の実データ」に触ることがメインですが、どうせなら高得点を
上げて賞金やメダルをもらってしまおうというのもモチベーションとしてはアリ。
賞金やメダルがもらえるくらいになればデータサイエンティストとしてもかなりの
レベルに達することでしょう。
 
データサイエンスの理論的な深みはあまりありませんが、手っ取り早く性能の高い
モデルを学習するためには何をすればよいかという「実践的手法」が詰め込まれて

参考になります。個人的にはステップに応じて学習率をどう変えたらよいかという

話が役に立ちました。バッチサイズもそうですが、このあたりは意外と性能に効く

割にいい値を見つけるのが大変なので。