FastDSAC: 高次元ヒューマノイド制御における最大エントロピー強化学習の可能性を引き出す

arXiv cs.AI / 2026/3/16

💬 オピニオンModels & Research

要点

  • 本論文は、FastDSAC というフレームワークを提示する。これにより、最大エントロピーの確率的方策を用いて高次元の連続制御をヒューマノイドタスクに対処できるようになり、大規模並列性を用いた決定論的方策勾配への依存という現状に挑戦する。
  • 次元別エントロピー調整(DEM)を導入し、探索予算を動的に再分配して、次元間の方策の多様性を維持する。
  • 価値の忠実度を向上させ、高次元での過大評価を抑制するための連続分布を用いたクリティックを提案する。
  • HumanoidBench および他の連続制御タスクにおける実験結果は、確率的方策が決定論的ベースラインと同等またはそれを上回ることを示し、特に Basketball および Balance Hard タスクで顕著な改善を示した。

要約: 高次元のヒューマノイド制御へ最大エントロピー強化学習(RL)をスケールさせることは依然として大きな課題であり、次元の呪いが広大な行動空間で深刻な探索の非効率性と学習の不安定さを誘発します。したがって、最近の高スループットパラダイムは主に巨大な並列シミュレーションと組み合わせた決定論的方策勾配へと集約されている。私たちはこの妥協に挑むべく、複雑な連続制御のための最大エントロピー確率的方策の潜在能力を効果的に解き放つフレームワーク FastDSAC を提案します。私たちは次元別エントロピー制御(DEM)を導入し、探索予算を動的に再配分し、多様性を確保する一方で、値の忠実性を保証し高次元の値の過大評価を緩和するよう設計された連続分布型クリティックを併設します。HumanoidBenchや他の連続制御タスクにおける広範な評価は、厳密に設計された確率的方策が決定論的ベースラインと一貫して同等またはこれを上回ることを示し、難易度の高い \textit{Basketball} および \textit{Balance Hard} タスクで 180% および 400% の顕著な利得を達成しています。