動作生成と動作トラッキングによる全身型ヒューマノイドのロコモーション学習

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、制御が高次元であること、形態学的な不安定性、さらにオンボード知覚により変化する地形へリアルタイム適応する必要があることから、全身型ヒューマノイドのロコモーションを扱う難しさに取り組んでいる。
拘束条件となりやすい固定参照動作の「再生」に留まらず、拡散モデルによる地形対応の参照動作生成と、RLで学習した全身型動作トラッカーを組み合わせる枠組みを提案している。
生成された参照動作が不完全であっても破綻しにくくするため、生成器を固定したままクローズドループでトラッカーを微調整し、頑健性を高めている。
この手法により、方向指定のゴール到達と、地形を踏まえた全身適応を実現し、オンボード知覚と計算を用いるUnitree G1ヒューマノイドロボット上で検証している。
定量評価では、オンラインの動作生成とクローズドループでのトラッカー微調整が、参照動作の再生に依存する手法よりも汎化性と頑健性を向上させることが示されている。

概要: 全身型のヒューマノイド歩行は、高次元の制御、形態の不安定性、そして搭載した知覚を用いて様々な地形に対してリアルタイムに適応する必要があるため、困難である。ヒューマノイド歩行に対して報酬設計（reward shaping）を用いた強化学習（RL）を直接適用すると、下半身に支配された振る舞いにつながりやすい。一方で、模倣ベースのRLはより協調的な全身スキルを学習できるものの、一般に、地形を考慮した歩行のために知覚からの情報を用いて参照動作をオンラインで適応させる仕組みなしに、参照動作を単に再生することに限られている。このギャップを埋めるために、我々は参照動作から学んだスキルと地形を考慮した適応を組み合わせた、全身型ヒューマノイド歩行の枠組みを提案する。まず、拡散モデルを訓練し、地形を考慮した参照動作をリアルタイムに予測するために、リターゲットされた人間の動作を用いる。並行して、この動作データを用いてRLによって全身参照トラッカーを訓練する。生成された参照が不完全な場合に頑健性を向上させるため、さらに、閉ループ設定においてモーション生成器を凍結したままトラッカーを微調整する。得られたシステムは、地形を考慮した全身適応による方向付けられた目標到達制御を支援し、搭載の知覚と計算機能を備えたUnitree G1のヒューマノイドロボットに展開できる。ハードウェア実験では、箱、ハードル、階段、そして混合地形の組み合わせに対する通過が成功したことを示す。さらに定量結果により、オンラインのモーション生成とモーショントラッカーの微調整を組み込むことが、汎化性能と頑健性の向上に有益であることが示される。