広告

SIMPACT:視覚言語モデルを用いたシミュレーション対応行動計画

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SIMPACTは、VLMが物理の因果ダイナミクスを持たないという課題に対し、シミュレーションを介して物理理解をテスト時に補う「シミュレーション内蔵の行動計画」フレームワークを提案している。
  • 追加学習なしで、単一のRGB-D観測から効率的に物理シミュレーション(world modeling)を構築し、VLMがアクション提案→シミュレーションロールアウト観測→反復的に推論を更新できるとしている。
  • 言語推論と物理予測を統合することで、接触ダイナミクスやアクション結果を物理的に根拠づけて理解・計画することを目指している。
  • 5つの難易度の高い実世界の剛体・変形物の操作タスクで最先端性能を示し、汎用的なロボット操作モデルより優れたと報告している。
  • 物理理解を「効率的なテスト時シミュレーション」でVLM推論に埋め込むことが、より一般化された身体性(embodied intelligence)への有望な道だと結論づけている。

要旨: 視覚言語モデル(VLMs)は、常識的および意味論的推論能力において顕著な特性を示します。しかし、それらは物理ダイナミクスに対する基盤(グラウンディングされた)理解を欠いています。この制約は、因果的な相互作用や、行動に条件付けられた変化を含まない、静的なインターネット規模の視覚言語データでVLMを学習することに起因します。その結果、物理的な理解、推論、そしてそれに対応する行動計画を必要とする、細粒度のロボティック・マニピュレーション課題に対してVLMを活用することは依然として困難です。
これを克服するために、本研究ではSIMPACTを提示します。SIMPACTは、追加学習を必要とせずに、シミュレーションをループに組み込む(simulation-in-the-loop)世界モデリングを通じてVLMに物理的推論を与える、テスト時(test-time)のSIMulation対応ACTion Planningフレームワークです。単一のRGB-D観測から、SIMPACTは物理シミュレーションを効率的に構築し、VLMが情報に基づく行動を提案し、シミュレーションしたロールアウトを観測し、推論を反復的に洗練できるようにします。言語推論と物理予測を統合することで、シミュレーション対応VLMは接触ダイナミクスや行動の結果を、物理的に根拠づけられた形で理解できます。本手法は、細粒度の物理的推論を必要とする5つの難しい現実世界の剛体・変形体マニピュレーション課題において最先端の性能を示し、既存の汎用的なロボティック・マニピュレーションモデルを上回ります。これらの結果は、テスト時に効率的なシミュレーションを介してVLMの推論に物理理解を埋め込むことが、汎用的な身体性(embodied)知能へ向けた有望な道筋であることを示しています。プロジェクトのWebページは https://simpact-bot.github.io で確認できます

広告