前に読んだときも「あまりよくわからないなあ」という印象を受けましたが、
今回改めて読んでもやっぱりよくわかりませんでした。
価値、方策、報酬といった強化学習の考え方がちゃんと身についてない
ことに加え、それらを関数近似するためにニューラルネットワークを使う
点がややこしく絡み合っているせいでしょうか。単純なトイプログラムでは
何とか理解できるのですが、実問題に適用しようと思うと何をどうすれば
よいのかが途端にわからなくなります。もっと事例が豊富な本を読んで、
なるべく実例に基づいて理解を進めるべきでしょうか…。