AI Navigate

空間推論はタダのランチではない:LLaVAにおける統制研究

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論は、視覚言語モデルが依然として基本的な2D空間推論に苦戦しており、その一因をCLIP風エンコーダの設計や画像を1Dトークン列へ平坦化し1Dの位置情報エンコーディングを用いる設計選択に起因すると指摘する。
  • LLaVAフレームワーク内で、エンコーダ設計と位置情報構造が空間的グラウンディングに与える影響を分離する統制的診断研究を提示する。
  • 著者らは、CLIPベースのエンコーダを、より密度の高い(dense)または生成的な目的で訓練された代替手法、および2D位置エンコーディングを追加した変種と比較し、空間ベンチマークの一連にわたって評価している。
  • 結果は、モデル間で一貫した空間推論のギャップが見られることを示しており、エンコーダの学習目的と2D位置情報構造が空間理解を左右するものの、それだけでは空間理解の課題を完全には解決しないことを示唆している。

Abstract

視覚言語モデル(VLMs)は急速に進化しているが、基本的な空間推論にはなお苦戦している。一般的なベンチマークで高い性能を示す一方で、現代のVLMは2D空間関係である相対的な位置、レイアウト、カウントといった理解に脆さを残している。我々はこの失敗は単なるデータの問題だけでなく、現在のVLMパイプラインにおける支配的な設計選択、すなわちCLIP風の画像エンコーダへの依存と、画像を1Dのトークン列へフラット化し1D位置エンコーディングを用いる点に密接に結びついていると主張する。LLaVAフレームワーク内で制御された診断研究を提示し、これらの選択が空間的グラウンディングにどのように影響するかを分離する。最先端モデルとLLaVAの派生モデルを、空間ベンチマークの一連で評価し、CLIPベースのエンコーダを、より高密度な学習目的または生成的な目的で訓練された代替手法と比較し、さらに2D位置エンコーディングを追加した派生モデルとも比較する。我々の結果は、モデル間で一貫した空間性能のギャップが見られ、エンコーダの目的と位置情報の構造が空間的挙動を形作ることを示唆するが、それだけでは完全には解決されていない。