四足ロボットのパルクール学習:視覚入力を用いたスパースゲート付きMixture of Experts

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚ベースのロボティック・パルクールにおいて、スパースゲート付きMixture of Experts(MoE)アーキテクチャが標準的なMLP制御ポリシーより有効かを検証している。
  • 実機のUnitree Go2四足ロボットでの実験では、MoEベースのポリシーがMLPベースラインを大きく上回り、大きな障害物の通過に成功した試行が約2倍になった。
  • 推論時のアクティブなパラメータ数を揃えると、MoEの方が良い結果を示し、MLPで同等の性能を得るにはMoE全体のパラメータ数に合わせてMLPをスケールする必要がある。
  • そのMLPスケールは計算時間を14.3%増やす結果となり、スパースゲート付きMoEが性能と計算効率の両立に有利であることを示している。
  • 追試や発展的な検証を支えるため、匿名化されたコードベースへのリンクも提供されている。

要旨: ロボティック・パルクールは、高い段差のような大きな不連続を含む、非常に困難な地形上での移動(ロコモーション)を進展させるための説得力のあるベンチマークを提供します。近年のアプローチでは、動的な登攀やジャンプといった印象的な能力が示されてきましたが、通常は、密に活性化された層を備える逐次的な多層パーセプトロン(MLP)アーキテクチャに依存しています。これに対して、推論時にパラメータの一部のみを有効化することでスケーラビリティと性能を向上させる効果的なパラダイムとして、疎にゲートされた混合専門家(MoE)アーキテクチャが大規模言語モデルの領域で登場しています。本研究では、視覚ベースのロボティック・パルクールに対する疎にゲートされたMoEアーキテクチャの適用を検討します。推論時に有効なパラメータ数を一致させた制御された条件の下で、標準MLPとMoEアーキテクチャに基づく制御ポリシーを比較します。実機のUnitree Go2四足ロボットに対する実験結果では、MoEポリシーが標準MLPのベースラインと比べて、大きな障害物をまたいで移動する際の成功試行数が2倍になるなど、明確な性能向上が示されました。さらに、標準MLPで同等の性能を達成するには、そのパラメータ数をMoEモデル全体の総パラメータ数に合わせてスケールさせる必要があり、その結果として計算時間が14.3
%増加することを示します。これらの結果は、疎にゲートされたMoEアーキテクチャが、性能と計算効率の間に好ましいトレードオフをもたらし、視覚ベースのロボティック・パルクールに対する制御ポリシーのより良いスケーリングを可能にすることを示唆しています。コードベースへの匿名化されたリンクはhttps://osf.io/v2kqj/files/github?view_only=7977dee10c0a44769184498eaba72e44です。