遅延フィードバックを伴う環境に対する遅延同型強化学習

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、フィードバックが遅延する環境における強化学習を研究し、遅延がマルコフ仮定を破り、学習と制御の両方を妨げることを示す。
  • 先行する状態拡張手法は、(1) クリティックの負担のみを軽減するにとどまる、または(2) アクター/クリティックを不整合な形で扱う、といった限界があるだけでなく、状態空間の爆発(state-space explosion)や高いサンプル複雑性にも悩まされると論じる。
  • 著者らは、MDP同型(MDP homomorphisms)に基づく遅延同型強化学習(DHRL)を提案し、信念(belief)同値な拡張状態を抽象MDPへと折りたたむ(collapsing)。
  • 本フレームワークは最適性の保持を目的としつつ、理論的な状態空間圧縮の上界(bounds)とサンプル複雑性の解析を提供するよう設計されている。
  • MuJoCo の連続制御ベンチマークに対する実験では、実用的なDHRLアルゴリズムが、特に遅延が長い場合において、強力な拡張ベースラインを上回ることが示される。