要旨: 多視点画像からの正確な空間理解は、マルチモーダル大規模言語モデル(MLLM)にとって依然として基本的な課題である。これは、これらのモデルの視覚表現が主に意味論的であり、明示的な幾何学的基盤を欠いているためである。既存の手法では、視覚幾何モデルからの幾何学的手がかりを用いて視覚トークンを拡張することで対応しているが、その場合でも、MLLMは拡張されたトークンからシーンの基礎となる3D構造を暗黙的に推論する必要があり、これが空間推論能力を制限している。そこで本研究では、Cog3DMapという枠組みを提案する。この枠組みは、多視点画像から明示的な3Dメモリを反復的に構築し、各トークンを3D空間に基礎づけるとともに、意味情報と幾何情報の両方を持たせる。これらのトークンをMLLMに入力することで、提案手法は空間的に構造化された3Dマップに対する直接的な推論を可能にし、さまざまな空間推論ベンチマークで最先端の性能を達成する。コードは公開予定である。
Cog3DMap:3D認知マップによるマルチビュー視覚言語推論
arXiv cs.CV / 2026/3/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のマルチモーダルLLMのアプローチでは、視覚トークンが主に意味論的であり、明示的な幾何学的根拠を提供しないため、正確な空間理解が難しいと主張している。
- そこで、Cog3DMapという枠組みを提案し、マルチビュー画像から明示的な3D認知マップを反復的に構築する。さらに、このトークンには3D空間に結び付いた意味情報と幾何情報の両方を含める。
- モデルに対して、拡張された手がかりから3D構造を暗黙的に復元させるのではなく、Cog3DMapは空間的に構造化された3Dマップ上で直接推論させる。
- 本手法は、複数の空間推論ベンチマークで最先端の結果を達成したと報告されている。
- 著者らはコードを公開する予定であると述べており、再現性および下流の実験を支援する。




