MoE（モジュール型専門家）ベースの頑健な四足歩行に向けた、信頼できるシミュレーション・ツー・リアル予測可能性

arXiv cs.RO / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MoE（Mixture of Experts）ベースの頑健な四足歩行に対して、シミュレーション・ツー・リアルのギャップと複雑な地形での報酬過学習によって引き起こされる失敗を対象とした、統一的なシムトゥリアル信頼性アプローチを提案する。
潜在的な地形とコマンドのモデリングを分解する、ゲート付きの専門家エキスパート群を備えたMoE歩行ポリシーを導入し、プロプリオセプションのみのセンシングにより頑健な汎化を可能にする。
フレームワークには、シム・ツー・シムテストから導出される多次元のプロプリオセプションベース指標を用いて、シミュレーションから現実への移植可能性を定量化する予測評価スイート「RoboGauge」が含まれる。
Unitree Go2での実験により、雪、砂、階段、斜面、30cmの障害物といった、これまで見たことのない困難な地形への正常な展開が示される。
高速テストでは最大4m/sの性能が報告され、高速域での安定性向上に関連する、幅の狭い（ナローワイド）歩容が創発的に現れる。

Abstract

強化学習は、固有感覚のみのセンシングでも四足の機敏な移動に対して強い可能性を示してきました。しかし実際には、シミュレーションと現実のギャップ（sim-to-real gap）や、複雑な地形における報酬の過適合によって、転移に失敗する方策が生じることがあります。一方で、物理的な検証は危険で非効率です。これらの課題に対処するために、本研究では、RoboGaugeと呼ぶ予測的な評価スイートと組み合わせて、ロバストな多地形表現のためのMixture-of-Experts（MoE）ロコモーション方策を包含する統一フレームワークを提案します。このフレームワークは、sim-to-real転移可能性を定量化します。MoE方策は、潜在的な地形とコマンドのモデリングを分解するために、ゲート付きの専門家（エキスパート）の集合を用い、固有感覚のみで、展開時のロバスト性と汎化性能をさらに高めます。RoboGaugeは、地形、難易度、ドメインランダム化にまたがるシム間（sim-to-sim）テストにより、固有感覚に基づく多次元の指標を提供し、大規模な物理実験を行わずに、信頼できるMoE方策の選択を可能にします。Unitree Go2での実験では、雪、砂、階段、斜面、30 cmの障害物を含む、未見の困難な地形に対してロバストな移動を実現しました。専用の高速テストでは、ロボットは4 m/sに到達し、高速域で安定性が向上したことに関連する、幅が狭い歩容が創発的に現れることが観察されました。