HRLエージェントのためのマルチ解像度スキル(MRS)
arXiv cs.RO / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、機敏さを要するタスクで階層型強化学習(HRL)が弱くなる主因として、サブゴールに基づくHRLでは到達可能性や現在状態からの時間的距離といった制約なしにマネージャの目標表現が学習されがちである点を特定します。
- サブゴール距離の最適値はタスクと状態の両方に依存し、近いサブゴールは局所的な制御を高める一方で予測ノイズを増やし、遠いサブゴールは運動を滑らかにするが幾何学的な精度を損なうことを示します。
- 著者らはMulti-Resolution Skills(MRS)を提案し、固定された時間ホライズンごとに特化した複数の目標予測モジュールを学習し、現在の状態に応じてそれらをメタコントローラで選択します。
- 実験では、MRSが固定解像度のベースラインを上回り、DeepMind Control Suite、Gym-Robotics、長期ホライズンのAntMazeにおいてHRLとノンHRLの最先端手法の性能ギャップを大きく縮小することを示します。
- この研究は、目標予測に時間ホライズンを明示的に取り込むことで、長期計画と局所的な機敏さの両立にHRLが有利になる可能性を示唆しています。



