マルチ視点推論のためのアクティブ3Dシーン探索によるMLLMの空間理解の強化

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMは、明示的な3Dジオメトリや柔軟な視点を活用するのではなく主に2Dの視覚的な先入観に依存しているため、3D空間推論が依然として難しいと主張している。
  • それは、学習を要しないパイプラインとして、MLLMに導かれた「Visual Chain-of-Thought」を用い、マルチ粒度のキーワード抽出とマスク生成によって単一画像から高精細な3Dメッシュを再構成する手法を提案する。
  • 続いて、この手法は外部の知識ベースを用いてカメラの外部パラメータを最適に逐次推定し、新たな視点を生成する。これにより、人間の視点の取り方(パースペクティブ・テイキング)を模倣し、多視点推論を目指す。
  • 実験では、3DSRBenchやRel3Dのようなベンチマークで大幅な改善が報告されており、特化型の空間モデルだけでなく、GPT-5.2やGemini-2.5-Flashを含む汎用のMLLMも上回る。
  • このアプローチは、限られた3Dデータセットに対する高価な事後学習を回避し、固定的なツール呼び出しではなく、明示的な3D再構成と動的な視点合成に基づいて推論を行う。

要旨: マルチモーダル大規模言語モデルは目覚ましい進歩を遂げている一方で、2Dの視覚的な事前知識への依存により、複雑な3D空間推論では依然として苦手です。既存の手法はこの制約を通常、限られた3Dデータセットに対する計算コストの高い事後学習手続きによって緩和するか、あるいは明示的な幾何学的理解や視点の柔軟性を欠く、硬直的なツール呼び出しメカニズムによって緩和するかのいずれかで対応しています。これらの課題に対処するために、明示的な3D再構成に基づく extit{学習不要(training-free)}の枠組みとして、Visual Chain-of-Thoughtメカニズムを提案します。提案するパイプラインは、まず、MLLMに導かれたキーワード抽出と複数の粒度でのマスク生成を用いて、単一画像から高精細な3Dメッシュを再構成します。続いて、この枠組みは外部の知識ベースを活用し、最適なカメラ外部パラメータを反復的に計算し、新しい視点を合成することで、人間の視点の取り方(perspective-taking)を模倣します。大規模な実験の結果、提案手法は空間理解を大幅に向上させることが示されました。具体的には、この枠組みは、3DSRBenchやRel3Dといった主要ベンチマークにおいて、 extit{GPT-5.2}や extit{Gemini-2.5-Flash}を含む、専用の空間モデルおよび汎用のMLLMを上回ります。