おはようございます。
今日も読みに来ていただき、ありがとうございます。
今日は、『強化学習』について書いていきます。
強化学習は、機械学習の一部で、
与えられたデータをもとに試行錯誤して学習し、
データの価値を最大化する方法です。
強化学習では、環境と学習目的を設定します。
環境は状態、行動、報酬、遷移確率などを内包します。
行動主体であるエージェントが環境内で学習目的
を達成するように、状態に対する最適な行動選択
の学習を行います。
また、行動選択の結果、エージェントは報酬を
得ます。
学習目的に近づく行動選択であったか報酬に基づ
いて評価することで行動選択を改善します。
学習の時にエージェントが持つ行動選択のルール
を方策と言います。
この方策を最適にする、一連の行動による報酬和
を最大にすることが強化学習のゴールと言えま
す。
ディープラーニングの一つである深層強化学習の
勉強に入る前に復習をしました。
順不同ですが、深層強化学習に入る前に、
機械学習とディープラーニングの関係、
機械学習の種類について振り返りたいと思いま
す(ブログでは初記事)。
それでは、また👋