おはようございます。


今日も読みに来ていただき、ありがとうございます。



今日は、『強化学習』について書いていきます。




強化学習は、機械学習の一部で、


与えられたデータをもとに試行錯誤して学習し、


データの価値を最大化する方法です。



強化学習では、環境と学習目的を設定します。


環境は状態、行動、報酬、遷移確率などを内包します。


行動主体であるエージェントが環境内で学習目的


を達成するように、状態に対する最適な行動選択


の学習を行います。


また、行動選択の結果、エージェントは報酬を


得ます。


学習目的に近づく行動選択であったか報酬に基づ


いて評価することで行動選択を改善します。




学習の時にエージェントが持つ行動選択のルール


方策と言います。


この方策を最適にする一連の行動による報酬和


を最大にすることが強化学習のゴールと言えま


す。




ディープラーニングの一つである深層強化学習


勉強に入る前に復習をしました。


順不同ですが、深層強化学習に入る前に、


機械学習とディープラーニングの関係、


機械学習の種類について振り返りたいと思いま


す(ブログでは初記事)。




それでは、また👋