CVT-Bench: Counterfactual Viewpoint Transformations によりマルチモーダルLLMの不安定な空間表現が明らかにされる

arXiv cs.CV / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像を再レンダリングすることなく反実仮想の軌道変換によって仮想的なカメラ視点を変えたとき、マルチモーダルLLMが関係/空間表現を安定に保てるかどうかを検証するための合成ベンチマーク「CVT-Bench」を提案する。
  • 100シーンと6,000件の関係クエリにわたる実験の結果、最先端のMLLMであっても視点変化により目立って性能が劣化し、サイクル整合性の破れが頻発し、関係の安定性が急速に低下することが示される。
  • 研究では表現の選び方が重要であることが判明している。例えば、より構造化された入力(テキストによるバウンディングボックス、特にシーングラフ)を追加すると、構造化の弱い視覚入力よりも視点安定性が向上する。
  • 結果は、強い単一視点の空間精度が頑健性を過大評価してしまう可能性を示している。反実仮想の視点推論によって誘導される空間表現は不安定になり得るためである。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、単一視点の空間推論タスクにおいて強い性能を示しますが、反実仮想的な視点変更のもとで、それらが安定した空間状態表現を維持できるかどうかは未だ不明です。本研究では、画像を再レンダリングすることなく、仮想的なカメラ軌道変換に対する関係の一貫性を評価する、制御された診断用ベンチマークを導入します。100の合成シーンと6,000の関係クエリにわたって、視点一貫性、360{\deg} サイクル整合性、および連続する変換に対する関係安定性を測定します。単一視点での精度が高いにもかかわらず、最先端のMLLMは反実仮想的な視点変更のもとで体系的な性能劣化を示し、サイクル整合性の破れが頻発し、関係安定性が急速に低下します。さらに、複数の入力表現(視覚入力、テキストによるバウンディングボックス、構造化されたシーングラフ)を評価し、表現の構造を増やすことで安定性が向上することを示します。本結果は、単一視点の空間精度が、誘導された空間表現の頑健性を過大評価している可能性を示唆しており、表現構造が反実仮想的な空間推論において重要な役割を果たすことを示しています。