広告

マルチモーダル言語モデルは空間的不整合を見抜けない

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル大規模言語モデル(MLLMs)が、同一シーンの複数視点にわたる3D幾何学的・空間的な不整合の検出において依然として弱いと主張する。
  • 2つの視点が与えられた状況で、3D運動の整合性を破っている物体がどれかを特定する、より難度の高い新しい評価タスクを提案する。
  • 著者らは、多視点シーンを用いて空間的に不整合な、現実的な画像ペアを生成するためのスケーラブルな手法を提案し、体系的な検証を可能にする。
  • 実験結果では、最先端のMLLMは人間の観察者に大きく劣っており、シーン属性によって性能が幅広く変動することが示される。
  • これらの発見は、MLLMが3D構造に対する理解が脆弱で不完全であることを示唆し、より物理に根ざしたアプローチの動機づけとなる。

概要: 空間的一貫性は視覚世界の基本的な性質であり、物理的現実を理解しようとするモデルにとって重要な要件です。近年の進歩にもかかわらず、多モーダル大規模言語モデル(MLLMs)は、多視点にまたがって3D幾何を推論することにしばしば苦戦します。シーン属性をモデルに記述させるのではなく、より難易度の高い課題を提案します。すなわち、同一のシーンに対する2つの視点が与えられたとき、3D運動の一貫性を破っている物体を特定するという課題です。私たちは、マルチビューのシーンから、現実的でありながら空間的に不整合な画像ペアを生成するための、シンプルで拡張可能な手法を提案し、この能力を体系的に評価できるようにします。結果として、最先端のMLLMは人間の観察者に比べて大幅に性能が劣り、さらに異なるシーン属性間で大きなばらつきが見られることが分かりました。これは、3D構造に対する理解が脆弱で不完全であることを示しています。私たちは、本研究の発見が、物理世界に対するより深く根拠のある理解を育むアプローチの必要性を強調することにつながればと考えています。

広告