空間推論はタダのランチではない:LLaVAにおける統制研究
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論は、視覚言語モデルが依然として基本的な2D空間推論に苦戦しており、その一因をCLIP風エンコーダの設計や画像を1Dトークン列へ平坦化し1Dの位置情報エンコーディングを用いる設計選択に起因すると指摘する。
- LLaVAフレームワーク内で、エンコーダ設計と位置情報構造が空間的グラウンディングに与える影響を分離する統制的診断研究を提示する。
- 著者らは、CLIPベースのエンコーダを、より密度の高い(dense)または生成的な目的で訓練された代替手法、および2D位置エンコーディングを追加した変種と比較し、空間ベンチマークの一連にわたって評価している。
- 結果は、モデル間で一貫した空間推論のギャップが見られることを示しており、エンコーダの学習目的と2D位置情報構造が空間理解を左右するものの、それだけでは空間理解の課題を完全には解決しないことを示唆している。




