猿人型（ヒューマノイド）歩行の効率的な強化学習のための、コスト・マッチング型モデル予測制御

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、重心（セントロイダル）ダイナミクスに基づくパラメータ化されたMPCコスト定式化を用いて、MPCと強化学習を統合し、最適なヒューマノイド歩行を実現するコスト・マッチング手法を提案する。
記録された状態-行動軌跡に沿ってコスト・トゥ・ゴーを評価し、MPCが予測した値と測定されたリターンの差を縮めるようにパラメータを更新することで、効率的な勾配ベース学習を可能にする。
本手法は、学習中にMPC最適化を繰り返し解くことを避けるよう設計されており、より直接的なMPC-in-the-loop型の学習設定と比べて計算負荷を大幅に低減する。
市販のヒューマノイドプラットフォーム上でのシミュレーション実験により、手動で調整したベースラインと比べて歩行性能が向上し、モデル不一致や外乱に対する頑健性が高まることが示される。