強化学習に関する本はいろいろ出ていますが、状態価値関数やら行動価値関数やら
方策やらベルマン方程式やらややこしい話が満載で、結局何をどうすればよいのか
よくわからなくなります。
この本はタイトルに「実践」とあるように、理論よりもプログラムを動かして体で
理解することを目指しているのがわかりやすくてよいところ。プログラムも著者と
関係者が少しずつ拡張してきたものらしいので、かなりわかりやすいと思います。
ただ転移学習については自分があまりやりたいと思う状況がなく斜め読みしたので
ちゃんと読んでプログラムも動かそうと思うとどうなのかはわかりません。しかし
数式は読みやすいので、これをもとに他の本を読むという使い方もありでしょう。