要旨: 視覚言語モデル(VLM)は静的な視覚理解において強い性能を示してきましたが、自我中心(エゴセントリック)な運動のもとでシーンがどのように変化するかを想像する必要のある動的な空間推論には、依然として難しさがあります。これまでの取り組みは、この制限に対して、合成データにより空間的な教師信号をスケールする方法、または推論時にVLMをワールドモデルと結合する方法のいずれかによって対応してきました。しかし前者は動きに条件づけられた状態遷移の明示的なモデル化を欠いていることが多く、後者は実質的に大きな計算オーバーヘッドを伴います。本研究では、生成的なワールドモデルからVLMへと空間的な想像(imagination)を蒸留する学習フレームワークであるWorld2VLMを提案します。初期観測とパラメータ化されたカメラ軌道が与えられると、視点整合性のあるワールドモデルを用いて幾何学的に整合した将来の視点を合成し、前向き(行動から結果へ)および逆向き(結果から行動へ)の両方の空間推論に対する構造化された教師信号を導出します。このパイプラインによって生成されたコンパクトなデータセット上で、二段階のレシピによりVLMを事後学習(post-train)し、複数の空間推論ベンチマークで評価します。World2VLMは、SAT-Real、SAT-Synthesized、VSI-Bench、MindCubeといった多様なベンチマークにわたって、基盤モデルに対して一貫した改善をもたらします。また、高価な推論時生成を不要にしつつ、テスト時にワールドモデルを結合する手法よりも優れた性能を示します。これらの結果は、ワールドモデルが単に推論時のツールとしてだけでなく、学習時の教師としても有効に機能し得て、VLMに空間的な想像をスケーラブルかつ効率的な方法で内在化させられることを示唆しています。
World2VLM:生成的ワールドモデルからVLMへ「世界の想像力」を蒸留し、動的な空間推論を実現する
arXiv cs.CV / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 視覚と言語を扱うモデル(VLM)は静的な視覚理解では高い性能を示す一方、自己中心的な移動によってシーンがどう変化するかを想像する必要がある動的な空間推論は依然として苦手です。
- 本論文ではWorld2VLMという学習フレームワークを提案し、カメラ軌道に条件付けされた「将来視点」を、整合した形状の合成観測として生成できる生成的ワールドモデルからVLMへ蒸留します。
- 合成された将来視点を幾何学的に整列させることで、順方向の空間推論(行動→結果)と逆方向の空間推論(結果→行動)の双方に対する構造化された教師データを作ります。
- このパイプラインで生成したデータを用い、2段階レシピでVLMを追加学習(post-train)したところ、SAT-Real、SAT-Synthesized、VSI-Bench、MindCubeなど複数のベンチマークで基底モデルより一貫した改善が得られたと報告されています。
- 世界モデルを推論時に結合する方式よりも良い成績を示しつつ、推論時の高コストな生成を不要にするため、ワールドモデルを「推論時の道具」だけでなく「学習時の教師」として活用できることを示唆しています。




