オフラインの目標条件付き強化学習における効率的な階層型暗黙フローQ学習

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長期ホライズンのオフライン目標条件付き強化学習に取り組み、既存の階層的手法（例：HIQL）が、ガウス方策の表現力の制約や、高位ポリシーによるサブゴール生成の弱さによって苦戦している点を指摘している。
著者らは、高位成分と低位成分の双方に対して平均速度場をモデル化する、目標条件付き平均フローポリシーを提案し、効率的な1ステップの行動サンプリングを可能にする。
目標表現の質を向上させるため、学習中に目標埋め込みベクトルを反発させるLeJEPA損失を追加し、弁別的な表現の生成とより良い汎化を目指す。
OGBenchベンチマークでの実験により、本手法は状態ベースおよびピクセルベースの両タスクで強い結果を示し、低次元環境に限らないより広い適用可能性を示唆している。