なぜMLLMは物体の向きを判断するのが難しいのか

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多様なモダリティの大規模言語モデル(MLLMs)が画像内の2D物体の向きについて推論することに苦戦する理由を調査し、視覚エンコーダの限界に関する先行仮説を発展させる。
  • 制御された実験プロトコルを用いて、著者らはSigLIP/VitおよびCLIPベースのセットアップにおける、LLaVAとQwen2.5-VLから得られる特徴量に対し線形回帰器を学習することで、向きの情報がエンコーダ埋め込みに保存されているかどうかを検証する。
  • 帰無仮説/受容された仮説とは逆に、本研究では単純な線形モデルによってエンコーダ表現から物体の向きを高精度に復元できることが示される。
  • この結果は、向きの失敗が主に、視覚エンコーダが幾何学的な向きを表現できないことに起因するという考えに反する。
  • 著者らはさらに、向きの情報は存在するものの、ごく大量の特徴の間に拡散的に分布していることを観察しており、問題は情報が符号化されているかどうかではなく、MLLM/ヘッドがその情報をどのように活用したり注目したりするかにある可能性が示唆される。