Abstract
本研究では、オフラインのモデルベース強化学習の文脈において、ほぼ最適なエキスパート軌道から遷移ダイナミクスT^* を推定する問題を考えます。私たちは新規の制約ベース手法である Inverse Transition Learning(逆遷移学習)を提案します。これは、エキスパート軌道の限られたカバレッジを \emph{特徴}として扱い、エキスパートがほぼ最適であるという事実を用いて T^* の推定に反映させます。制約はベイズ的アプローチに統合します。合成環境の両方と、低血圧における集中治療室(ICU)の患者管理のような実環境の医療シナリオのいずれにおいても、意思決定の顕著な改善だけでなく、事後分布(posterior)が移行(transfer)が成功するかどうかをいつ情報提供できるかを示すことを実証します。


