強化学習アルゴリズム入門

前に読んだときも「あまりよくわからないなあ」という印象を受けましたが、

今回改めて読んでもやっぱりよくわかりませんでした。

価値、方策、報酬といった強化学習の考え方がちゃんと身についてない

ことに加え、それらを関数近似するためにニューラルネットワークを使う

点がややこしく絡み合っているせいでしょうか。単純なトイプログラムでは

何とか理解できるのですが、実問題に適用しようと思うと何をどうすれば

よいのかが途端にわからなくなります。もっと事例が豊富な本を読んで、

なるべく実例に基づいて理解を進めるべきでしょうか…。

ナナとトモのブログ