最大エントロピー半教師あり逆強化学習

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、見習い学習(apprenticeship learning)を逆強化学習(IRL)の問題として定式化し、最大エントロピー原理を用いるアプローチを扱っています。
  • 専門家の軌跡に加えて、学習者が追加の未ラベル(未監督)軌跡を利用できる半教師ありの設定に焦点を当てています。
  • 著者らは、軌跡に対するペアワイズなペナルティによって未監督データを最大エントロピーIRLへ統合することで、MaxEnt-IRLと半教師あり学習を組み合わせた新手法MESSIを提案しています。
  • 実験(高速道路の運転シナリオとグリッドワールド)では、MESSIが未監督軌跡を活用して標準のMaxEnt-IRLより高い性能を示すことが報告されています。