データサイエンスではデータに応じてさまざまなアルゴリズムを試してみる必要が
あります。分類の iris、ネットワークの karate club、文字認識の MNIST など、
公開データだけでもそれなりに感触はつかめますが、もっと大規模な実データでは
どうなるのかを個人で試すことはなかなか難しい。そういう意味で Kaggle という
データ分析コンペを利用することがよく行なわれています。
データ分析の初心者がいろいろなデータを扱うため Kaggle を利用するというのは
あくまでも「実験用の実データ」に触ることがメインですが、どうせなら高得点を
上げて賞金やメダルをもらってしまおうというのもモチベーションとしてはアリ。
賞金やメダルがもらえるくらいになればデータサイエンティストとしてもかなりの
レベルに達することでしょう。
データサイエンスの理論的な深みはあまりありませんが、手っ取り早く性能の高い
モデルを学習するためには何をすればよいかという「実践的手法」が詰め込まれて
参考になります。個人的にはステップに応じて学習率をどう変えたらよいかという
話が役に立ちました。バッチサイズもそうですが、このあたりは意外と性能に効く
割にいい値を見つけるのが大変なので。