ベイズ的逆遷移学習:準最適軌道から学習ダイナミクスを獲得する

arXiv stat.ML / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、オフラインのモデルベース強化学習において、準最適なエキスパート軌道のみから真の遷移ダイナミクスを推定する方法を扱っています。
  • 「Invers​e Transition Learning(逆遷移学習)」と呼ばれる制約ベースの手法を提案し、エキスパートデータのカバー範囲が限られていることを不利ではなく有用な特徴として捉えます。
  • これらの制約をベイズ的アプローチに統合し、遷移ダイナミクスに関する事後分布を得られるようにしています。
  • 合成環境と、低血圧下でのICU(集中治療室)患者管理のような実医療シナリオの両方で、意思決定の改善だけでなく、移送(トランスファー)が成功する見込みを事後分布から示せることを報告しています。
  • 総じて、本研究は準最適な行動がモデル同定とオフライン設定における制御の信頼性を大きく高め得ることを示しています。

Abstract

本研究では、オフラインのモデルベース強化学習の文脈において、ほぼ最適なエキスパート軌道から遷移ダイナミクス T^* を推定する問題を考えます。私たちは新規の制約ベース手法である Inverse Transition Learning(逆遷移学習)を提案します。これは、エキスパート軌道の限られたカバレッジを \emph{特徴}として扱い、エキスパートがほぼ最適であるという事実を用いて T^* の推定に反映させます。制約はベイズ的アプローチに統合します。合成環境の両方と、低血圧における集中治療室(ICU)の患者管理のような実環境の医療シナリオのいずれにおいても、意思決定の顕著な改善だけでなく、事後分布(posterior)が移行(transfer)が成功するかどうかをいつ情報提供できるかを示すことを実証します。