広告

自律性を追い求めて:高性能かつ制御可能なヒューマノイドの走行のための、ダイナミックなリタゲティングと制御誘導型強化学習

arXiv cs.RO / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、硬い制約を伴う最適化ルーチンによってヒューマノイドの動作を動的にリタゲティングし、単一の人間デモから周期的な参照ライブラリを生成するパイプラインを提案する。
  • 参照となる運動の選択と報酬設計の両方が速度追従に大きく影響することを示し、動的に最適化された人間データに追従する、目標条件付きかつ制御誘導型の報酬設計が最良の性能をもたらすと結論づける。
  • 得られた強化学習(RL)ポリシーをUnitree G1ロボットに実装し、最大3.3 m/sでの高速かつ持久志向の走行と、実環境での数百メートルに及ぶ走行を実証する。
  • さらに本研究は、走行中の屋外障害物回避のために、コントローラを知覚・計画の自律スタックへ統合することで、移動の制御可能性も示している。

要旨: ヒューマノイドロボットは、人間のように移動できる可能性を秘めており、速くてダイナミックな走行も含まれます。近年、人間の動作を模倣できる強化学習(RL)コントローラが人気になっています。これらは非常にダイナミックな振る舞いを生成できる一方で、単一の動作再生に制限されることが多いため、長時間の運用や自律移動への展開が妨げられています。本論文では、単一の人間のデモンストレーションから、最適化ルーチンにおける厳密な制約(hard constraints)を用いて、人間の動作を動的に再ターゲットし、改良された周期的な参照ライブラリを生成するためのパイプラインを提案します。次に、参照動作と報酬構造の両方が、参照および指令された速度の追従に与える影響を調べます。その結果、動的に最適化された人間データを追跡する、目標条件付きかつ制御ガイド付きの報酬が最良の性能をもたらすことを結論づけます。さらに、方策をハードウェアに展開し、Unitree G1ロボットで最大3.3 m/sの走行速度を達成し、実環境で数百メートルを移動することで、その速度と耐久性を実証します。加えて、移動の制御可能性を示すために、屋外で走行しながら障害物回避を行う、全知覚・計画の自律スタックに対してコントローラを用います。

広告