StaMo: コンパクトな状態表現からの汎用的なロボット運動の教師なし学習

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • StaMoは、軽量エンコーダと事前学習済みDiffusion Transformer(DiT)デコーダを用いて、2トークンから成る非常に圧縮された状態表現を教師なしで獲得する手法を提案する。
  • この圧縮表現は既存のVLA(Visual-Language-Action)系モデルに容易に組み込め、LIBEROで14.3%の性能向上や実環境でのタスク成功率30%改善を含む効果が報告されている。
  • 2トークン間の差分(潜在補間で得られる)が「潜在アクション」として自然に機能し、さらにロボットの実行アクションへ復号できることが示されている。
  • 潜在アクションはポリシーのコトレーニングにも有効で、既存手法より10.4%上回り、解釈可能性も改善したとされる。
  • StaMoは静止画像から状態表現をエンコードし、動画や複雑なアーキテクチャに依存しがちな既存アプローチに対し、実ロボデータ・シミュレーション・人の視点動画など多様なデータソースへスケールする。

抽象: 身体性のあるインテリジェンスにおける基本的な課題は、効率的なワールドモデリングと意思決定のための、表現力がありコンパクトな状態表現を開発することです。しかし、既存の手法ではこのバランスを達成できないことが多く、その結果、表現が過度に冗長であるか、あるいはタスクに決定的に重要な情報を欠いてしまいます。私たちは、軽量なエンコーダと、事前学習済みのDiffusion Transformer(DiT)デコーダを用いて、強力な生成的事前知識を活用することで、非常に圧縮された2トークンの状態表現を学習する教師なしアプローチを提案します。私たちの表現は効率的で解釈可能であり、既存のVLAベースのモデルにシームレスに統合でき、推論時のオーバーヘッドを最小限にしつつ、LIBEROで14.3%の性能向上と、実環境タスク成功において30%の改善をもたらします。さらに重要なのは、潜在空間内補間によって得られるこれら2トークン間の差が、自然に非常に有効な潜在アクションとして機能し、それをさらにデコードして実行可能なロボットの行動へと変換できることを私たちが見出した点です。この創発的な能力は、明示的な監督なしに、私たちの表現が構造化されたダイナミクスを捉えていることを示しています。私たちは、この方法がコンパクトな状態表現(静止画像から符号化される)から一般化可能なロボティックなMotionを学習する能力にちなんで、StaMoと名付けました。これは、複雑なアーキテクチャや動画データに潜在アクション学習を依存することが一般的であるという、広く見られる傾向に挑むものです。得られる潜在アクションはまた、ポリシーの共同学習も強化し、解釈可能性を向上させながら、従来手法を10.4%上回ります。加えて、私たちのアプローチは、実環境ロボットデータ、シミュレーション、そして人の一人称視点動画など、多様なデータソースに対して効果的にスケールします。