CVT-Bench: Counterfactual Viewpoint Transformations によりマルチモーダルLLMの不安定な空間表現が明らかにされる
arXiv cs.CV / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像を再レンダリングすることなく反実仮想の軌道変換によって仮想的なカメラ視点を変えたとき、マルチモーダルLLMが関係/空間表現を安定に保てるかどうかを検証するための合成ベンチマーク「CVT-Bench」を提案する。
- 100シーンと6,000件の関係クエリにわたる実験の結果、最先端のMLLMであっても視点変化により目立って性能が劣化し、サイクル整合性の破れが頻発し、関係の安定性が急速に低下することが示される。
- 研究では表現の選び方が重要であることが判明している。例えば、より構造化された入力(テキストによるバウンディングボックス、特にシーングラフ)を追加すると、構造化の弱い視覚入力よりも視点安定性が向上する。
- 結果は、強い単一視点の空間精度が頑健性を過大評価してしまう可能性を示している。反実仮想の視点推論によって誘導される空間表現は不安定になり得るためである。
