選択的な逆運動学（AMP）モーション優先を用いた強化学習による二足歩行ロボットの多様な歩容学習

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、ポリシー構造・行動空間・報酬設計を一貫させながら、ヒューマノイドロボットに5種類の移動歩容（歩行、ゴースーステップ、走行、階段昇降、ジャンプ）を統合的に学習させる強化学習手法を提案します。
中核となるのは「選択的」Adversarial Motion Prior（AMP）戦略で、周期的かつ安定性が重要な歩容（歩行、ゴースーステップ、階段昇降）のみにAMPを適用することで、収束を加速し、挙動の乱れを抑制します。
さらに、より動的な歩容（走行・ジャンプ）ではAMPの正則化をあえて省略し、機敏な動きを過度に制約しないようにしています。
学習はシミュレーション上でドメインランダム化を用い、PPOで訓練し、12自由度の実機ヒューマノイドロボットにはゼロショットのsim-to-real転送で適用します。
実験では、選択的AMPが一律にAMPを適用する方針よりも5歩容すべてで優れ、安定性重視の歩容で収束が速く、追従誤差が小さく、成功率が高いことが示されています。

概要: ヒト型ロボットに対して、多様な移動（ロコモーション）の技能を統一的な強化学習フレームワークの中で学習することは、異なる歩容（gait）間で安定性と動的表現力の相反する要求があるため、依然として困難です。本研究では、ヒト型ロボットが5つの異なる歩容――歩行、ゴースステッピング、走行、階段の登坂、ジャンプ――を、同一のポリシー構造、行動空間、報酬定式化を用いて習得できる多歩容（multi-gait）学習手法を提案します。主要な貢献は、選択的な選択的敵対的モーション・プライオリ（Adversarial Motion Prior: AMP）戦略です。AMPは、周期的で安定性にとって重要な歩容（歩行、ゴースステッピング、階段の登坂）に適用し、収束を加速し、荒れた（erratic）挙動を抑制します。一方で、非常に動的な歩容（走行、ジャンプ）では意図的にAMPを適用しません。これは、規則化（regularization）が動作を過度に拘束してしまうためです。ポリシーは、シミュレーション上でドメインランダマイゼーションを用いてPPOにより学習し、ゼロショットのシム・トゥ・リアル転移を通じて、物理の12自由度（12-DOF）ヒト型ロボットへ展開します。定量的な比較により、選択的AMPは、5つすべての歩容において一様なAMPポリシーよりも優れていることが示されます。その結果、収束がより速くなり、追従誤差が低くなり、安定性に焦点を当てた歩容で成功率が高まる一方で、動的歩容に必要な俊敏さを損なうことはありません。