自由形式言語によるヒューマノイドの制御:統一モーション語彙を備えた大規模言語アクションモデル

arXiv cs.RO / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 論文では、自由形式の自然言語からヒューマノイドロボットが実行可能な身体全体の動作へ変換する、大規模言語アクションモデル「Humanoid-LLA」を提案する。
  • 人間およびヒューマノイドのモーション・プリミティブを共通の離散空間へ写像する統一モーション語彙を提案し、もっともらしさを維持しつつ動作多様性を向上させる。
  • 特権付きポリシーから蒸留した、語彙指向コントローラを用いて生成された動作の物理的実現可能性を保つ。
  • 動力学を考慮した報酬による強化学習を用いた、物理インフォームドな微調整を含め、ロバスト性と安定性を向上させる。
  • シミュレーションおよび Unitree G1 と Booster T1 のヒューマノイドでの実験により、先行の言語条件付きコントローラよりも、言語の汎化性能が向上し、動作の自然さ、安定性、および実行成功率が良好であることを示す。

Abstract

Enabling humanoid robots to follow free-form language commands is critical for seamless human-robot interaction, collaborative task execution, and general-purpose embodied intelligence. While recent advances have improved low-level humanoid locomotion and robot manipulation, language-conditioned whole-body control remains a significant challenge. Existing methods are often limited to simple instructions and sacrifice either motion diversity or physical plausibility. To address this, we introduce Humanoid-LLA, a Large Language Action Model that maps expressive language commands to physically executable whole-body actions for humanoid robots. Our approach integrates three core components: a unified motion vocabulary that aligns human and humanoid motion primitives into a shared discrete space; a vocabulary-directed controller distilled from a privileged policy to ensure physical feasibility; and a physics-informed fine-tuning stage using reinforcement learning with dynamics-aware rewards to enhance robustness and stability. Extensive evaluations in simulation and on real-world Unitree G1 and Booster T1 humanoids show that Humanoid-LLA delivers strong language generalization while maintaining high physical fidelity, outperforming existing language-conditioned controllers in motion naturalness, stability, and execution success rate.