遅延フィードバックを伴う環境に対する遅延同型強化学習

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フィードバックが遅延する環境における強化学習を研究し、遅延がマルコフ仮定を破り、学習と制御の両方を妨げることを示す。
先行する状態拡張手法は、(1) クリティックの負担のみを軽減するにとどまる、または(2) アクター／クリティックを不整合な形で扱う、といった限界があるだけでなく、状態空間の爆発（state-space explosion）や高いサンプル複雑性にも悩まされると論じる。
著者らは、MDP同型（MDP homomorphisms）に基づく遅延同型強化学習（DHRL）を提案し、信念（belief）同値な拡張状態を抽象MDPへと折りたたむ（collapsing）。
本フレームワークは最適性の保持を目的としつつ、理論的な状態空間圧縮の上界（bounds）とサンプル複雑性の解析を提供するよう設計されている。
MuJoCo の連続制御ベンチマークに対する実験では、実用的なDHRLアルゴリズムが、特に遅延が長い場合において、強力な拡張ベースラインを上回ることが示される。

日経XTECH

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to