要旨: 最近の強化学習(RL)の進展は、シミュレーション上で印象的なヒューマノイド挙動を実現しましたが、これらの成果を新しいロボットへ移行することは依然として困難です。多くの実世界展開において、主要なボトルネックはもはやシミュレーションのスループットやアルゴリズム設計ではなく、環境検証、訓練、評価、展開を一貫したループで結びつける体系的なインフラストラクチャの欠如です。これらのギャップに対処するため、AGILEを提案します。AGILEはヒューマノイドRLのエンドツーエンドのワークフローで、ポリシー開発ライフサイクルを標準化し、一般的なシムツーリアルの障害モードを緩和します。AGILEは4つの段階から構成されます:(1)対話的な環境検証、(2)再現可能な訓練、(3)統一された評価、(4)ロボット/タスク構成記述子による記述子主導の展開。評価段階では、AGILEはシナリオベースのテストと共有された動作品質診断スイートの下でのランダム化されたロールアウトの両方をサポートし、自動リグレッションテストと体系的な頑健性評価を可能にします。AGILEはまた、最適化の安定性とシミュレーションから実機への移行を改善するために、訓練段階での訓練安定化とアルゴリズムの強化を組み込みます。これらのパイプラインを整えた状態で、AGILEを5つの代表的なヒューマノイド技能(移動、回復、モーション模倣、ロコマニピュレーションを含む)にわたって検証し、2つのハードウェアプラットフォーム(Unitree G1とBooster T1)上で検証しました。これにより一貫したsim-to-real移行を達成しています。総じて、標準化されたエンドツーエンドのワークフローは、ヒューマノイドRL開発の信頼性と再現性を大幅に向上させることができる、ということを示しています。
AGILE: 人型ロボットのロコモーションと操作学習のための包括的ワークフロー
arXiv cs.RO / 2026/3/23
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- AGILEは、環境検証、訓練、評価、デプロイメントを結びつけるエンドツーエンドの人型RLワークフローを提供し、シミュレーションから実機への移行の信頼性を向上させます。
- 4つの段階から成り、対話的な環境検証、再現性のあるトレーニング、統一された評価、およびロボット/タスク設定記述子を用いた記述子主導のデプロイメントを含みます。
- 評価はシナリオベースのテストと動作品質診断を備えたランダム化ロールアウトを用い、自動回帰テストと原理的な堅牢性評価を可能にします。
- 本アプローチは Unitree G1 と Booster T1 の 2 つのハードウェアプラットフォーム上で、移動、回復、模倣、およびロコモーションと操作を含むロコモーションにわたり検証され、一貫した sim-to-real 転送を達成しています。




