メモ代わりに英文翻訳したものを載せていく
へっぽこ英語なので参考までにどうぞ
あと読むの遅いので1セクション1記事で書いていく予定です

今回は
Gaussian Processes for Fast Policy Optimisation of POMDP-based Dialogue Managers
POMDPに基づく対話制御の高速政策最適化のためのガウス過程

というわけで、対話研究と強化学習をキーワードに調べたらこんなのが見つかりました
Active learningって言葉は出てくるんだけど能動学習ではないらしい

では今回はIntroductionを翻訳します

1 Introduction
対話制御で行われている主要な研究の一つに発話理解エラーの効果的な処理がある.対話ステップのためのエラー処理を手動で行う代わりに,統計的アプローチでは自動的に学習する最適対話制御を行う.
強化学習(Reinforcement Learning:RL)では,対話制御基準に組み込まれる計画の概念を使うことができる.対話制御は,最も多くの長期的な報酬を導くような行動を選ぶ対話状態になることを目的としている.
このことをこのフレームワークではQ-functionと定義する.これは教師あり学習とは対照的であり,教師あり学習は与えられたコーパスの振る舞いと似たような対話戦略を考える.しかし,Q-functionは対話全体の成功を直接最適化することはできない.
POMDPとしての対話のモデル化は全体の報酬だけでなく,各対話状態で異なるレベルの不確定性に基づいた行動選択を行う.このアプローチでは,各ターンで維持される状態の分布が必要となる.
POMDPでの不確定性の明確な表現は,より頑強な対話政策を生み出す可能性を与える(Young et al.,2010).
POMDPアプローチでのもっとも重要な課題は学習過程の従順さである.
離散状態空間POMDPはオリジナルPOMDPの新年状態で構成される状態空間MDPの連続空間として知覚される.
政策最適化のためのグリッドベースアプローチでは状態の離散化を仮定する.これは学習に利用する離散空間MDPアルゴリズムを認めることを意味する.したがって,これは最適Q-functionに近似する.
このようなアプローチは現実の対話制御訓練のために100,000単位の対話を用いる.実際にそんなことは無理なので,訓練はシミュレーションユーザで行われる.
これは近似値としてだけでなく,シミュレーションと現実のユーザの振る舞いの潜在的な不一致についての問題を発生させる.
ガウス過程は連続空間MDPsのための強化学習に成功している.この論文では学習過程を高速化し,近似の不確実性を得るためのPOMDP対話制御でのGP強化学習の使用を提案する.
この論文ではシミュレーションユーザ以上に絞り込まれた現実のユーザとの相互作用によって得られる政策を許可する可能性があるので,モデルフリーなアプローチを選ぶ.


以上がIntroductionの内容でした.
やっぱり勉強不足というか離散空間とか忘れてしまってる.
このへんも復習しながら読んでいこうかな.

ガウス過程って難しいらしいんだよなぁ・・・