SIMPACT：視覚言語モデルを用いたシミュレーション対応行動計画

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SIMPACTは、VLMが物理の因果ダイナミクスを持たないという課題に対し、シミュレーションを介して物理理解をテスト時に補う「シミュレーション内蔵の行動計画」フレームワークを提案している。
追加学習なしで、単一のRGB-D観測から効率的に物理シミュレーション（world modeling）を構築し、VLMがアクション提案→シミュレーションロールアウト観測→反復的に推論を更新できるとしている。
言語推論と物理予測を統合することで、接触ダイナミクスやアクション結果を物理的に根拠づけて理解・計画することを目指している。
5つの難易度の高い実世界の剛体・変形物の操作タスクで最先端性能を示し、汎用的なロボット操作モデルより優れたと報告している。
物理理解を「効率的なテスト時シミュレーション」でVLM推論に埋め込むことが、より一般化された身体性（embodied intelligence）への有望な道だと結論づけている。

要旨: 視覚言語モデル（VLMs）は、常識的および意味論的推論能力において顕著な特性を示します。しかし、それらは物理ダイナミクスに対する基盤（グラウンディングされた）理解を欠いています。この制約は、因果的な相互作用や、行動に条件付けられた変化を含まない、静的なインターネット規模の視覚言語データでVLMを学習することに起因します。その結果、物理的な理解、推論、そしてそれに対応する行動計画を必要とする、細粒度のロボティック・マニピュレーション課題に対してVLMを活用することは依然として困難です。
これを克服するために、本研究ではSIMPACTを提示します。SIMPACTは、追加学習を必要とせずに、シミュレーションをループに組み込む（simulation-in-the-loop）世界モデリングを通じてVLMに物理的推論を与える、テスト時（test-time）のSIMulation対応ACTion Planningフレームワークです。単一のRGB-D観測から、SIMPACTは物理シミュレーションを効率的に構築し、VLMが情報に基づく行動を提案し、シミュレーションしたロールアウトを観測し、推論を反復的に洗練できるようにします。言語推論と物理予測を統合することで、シミュレーション対応VLMは接触ダイナミクスや行動の結果を、物理的に根拠づけられた形で理解できます。本手法は、細粒度の物理的推論を必要とする5つの難しい現実世界の剛体・変形体マニピュレーション課題において最先端の性能を示し、既存の汎用的なロボティック・マニピュレーションモデルを上回ります。これらの結果は、テスト時に効率的なシミュレーションを介してVLMの推論に物理理解を埋め込むことが、汎用的な身体性（embodied）知能へ向けた有望な道筋であることを示しています。プロジェクトのWebページは https://simpact-bot.github.io で確認できます