HRLエージェントのためのマルチ解像度スキル(MRS)

arXiv cs.RO / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、機敏さを要するタスクで階層型強化学習(HRL)が弱くなる主因として、サブゴールに基づくHRLでは到達可能性や現在状態からの時間的距離といった制約なしにマネージャの目標表現が学習されがちである点を特定します。
  • サブゴール距離の最適値はタスクと状態の両方に依存し、近いサブゴールは局所的な制御を高める一方で予測ノイズを増やし、遠いサブゴールは運動を滑らかにするが幾何学的な精度を損なうことを示します。
  • 著者らはMulti-Resolution Skills(MRS)を提案し、固定された時間ホライズンごとに特化した複数の目標予測モジュールを学習し、現在の状態に応じてそれらをメタコントローラで選択します。
  • 実験では、MRSが固定解像度のベースラインを上回り、DeepMind Control Suite、Gym-Robotics、長期ホライズンのAntMazeにおいてHRLとノンHRLの最先端手法の性能ギャップを大きく縮小することを示します。
  • この研究は、目標予測に時間ホライズンを明示的に取り込むことで、長期計画と局所的な機敏さの両立にHRLが有利になる可能性を示唆しています。

Abstract

階層型強化学習(HRL)は方策をマネージャとワーカーに分解し、長期の計画を可能にする一方で、俊敏さを要するタスクでは性能ギャップが生じます。私たちはその根本原因を特定します。すなわち、サブゴールに基づくHRLでは、マネージャの目標表現が現在の状態からの到達可能性や時間的距離に関する制約なしに学習されることが多く、その結果、正確な局所サブゴールの選択が妨げられます。さらに、最適なサブゴール距離はタスクと状態の両方に依存することを示します。近いサブゴールは精密な制御を可能にする一方で予測ノイズを増幅し、遠いサブゴールは幾何学的な精度を犠牲にする代わりに、より滑らかな運動をもたらします。固定された時間ホライズンごとに特化した複数の目標予測モジュールを学習することで、これらの問題に対処するMulti-Resolution Skills(MRS)を提案します。そして、現在の状態に基づいてそれらを選択するよう共同学習されたメタコントローラを用います。MRSは一貫して固定解像度のベースラインを上回り、DeepMind Control Suite、Gym-Robotics、ならびに長期ホライゾンのAntMazeタスクにおいて、HRLと非HRLの最先端手法の間にある性能ギャップを大幅に縮小します。[プロジェクトページ: https://sites.google.com/view/multi-res-skills/home]