Kaggleで学んでハイスコアをたたき出す！Python機械学習＆データ分析

データサイエンスではデータに応じてさまざまなアルゴリズムを試してみる必要が

あります。分類の iris、ネットワークの karate club、文字認識の MNIST など、

公開データだけでもそれなりに感触はつかめますが、もっと大規模な実データでは

どうなるのかを個人で試すことはなかなか難しい。そういう意味で Kaggle という

データ分析コンペを利用することがよく行なわれています。

データ分析の初心者がいろいろなデータを扱うため Kaggle を利用するというのは

あくまでも「実験用の実データ」に触ることがメインですが、どうせなら高得点を

上げて賞金やメダルをもらってしまおうというのもモチベーションとしてはアリ。

賞金やメダルがもらえるくらいになればデータサイエンティストとしてもかなりの

レベルに達することでしょう。

データサイエンスの理論的な深みはあまりありませんが、手っ取り早く性能の高い

モデルを学習するためには何をすればよいかという「実践的手法」が詰め込まれて

参考になります。個人的にはステップに応じて学習率をどう変えたらよいかという

話が役に立ちました。バッチサイズもそうですが、このあたりは意外と性能に効く

割にいい値を見つけるのが大変なので。

ナナとトモのブログ