LaMP：3D Scene Flowを潜在モーションの事前分布として用いて学習する視覚・言語・行動ポリシー

arXiv cs.RO / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

LaMPは、ロボット操作向けのVision-Language-Action（VLA）フレームワークで、2D特徴から直接行動を回帰する従来手法の「暗黙的な3D物理理解の負担」を、3D scene flowを潜在モーションの事前分布として埋め込むことで軽減します。
Motion Expertが部分的にノイズ除去した1ステップの3D scene flowを生成し、その隠れ状態をAction Expertへゲート付きクロスアテンションで条件付けすることで、フルの多ステップ再構成なしにアクション予測へつなげる設計になっています。
LIBERO / LIBERO-Plus / SimplerEnv-WidowXのシミュレーションに加え、実世界実験でも既存VLAベースラインを一貫して上回り、同一の学習予算における平均成功率が最上位だったと報告されています。
LIBERO-PlusのOOD（外れ分布）摂動では、最強のpriorベースラインに対して平均9.7%の改善を示し、未知の空間ダイナミクスへの頑健性が強化されたことを示唆しています。

要旨: 本稿では、ロボットによるマニピュレーションのために高密度3Dシーンフローを潜在的な運動（モーション）の事前知識として埋め込む、デュアルエキスパートのVision-Language-Action（VLA）フレームワークである\textbf{LaMP}を提案する。既存のVLAモデルは、2Dのセマンティックな視覚特徴から直接アクションを回帰するため、複雑な3Dの物理的相互作用を暗黙的に学習せざるを得ない。この暗黙的学習戦略は、見慣れない空間ダイナミクスのもとでは劣化する。LaMPは、ゲート付きクロスアテンションによって、フローマッチング\emph{Motion Expert（運動エキスパート）}を、ポリシーを予測する\emph{Action Expert（アクションエキスパート）}へ整合させることで、この制限に対処する。具体的には、Motion Expertは1ステップの部分的にノイズが除去された3Dシーンフローを生成し、その隠れ状態が、完全な多ステップ再構成なしでAction Expertを条件付ける。LIBERO、LIBERO-Plus、SimplerEnv-WidowXのシミュレーションベンチマークに加えて、実世界での実験でもLaMPを評価する。LaMPは、LIBERO、LIBERO-Plus、SimplerEnv-WidowXの各ベンチマークにおいて、評価したVLAのベースラインを一貫して上回り、同一の学習予算のもとで報告されている平均的な成功率の最高値を達成する。LIBERO-PlusのOOD摂動においては、LaMPは最も強力な事前知識ベースラインに対して平均9.7%の向上となり、頑健性が改善される。本プロジェクトのページは https://summerwxk.github.io/lamp-project-page/ で利用可能である。