セマンティックな豊かさか、それとも幾何学的推論か? VLMの視覚的不変性の脆弱性

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では最先端の視覚言語モデル(VLM)を検証し、回転・スケーリング・アイデンティティの変更といった単純な幾何学的変換に対して、空間的不変性/同変性をしばしば維持できないことを明らかにする。
  • これらの失敗は、意味的手がかりが乏しい場合(記号的なスケッチや抽象画など)に特に顕著であり、モデルの性能が急激に低下する。
  • 本研究では複数の視覚ドメインを評価し、問題が特定のデータセットやモデルに限られた孤立的なものではなく、セマンティック理解と幾何学的/空間的推論の間にギャップがあることを示す。
  • 結果は、異なるアーキテクチャ、モデル規模、プロンプト戦略にわたって一貫しており、弱点が現在のVLM設計に根本的に内在していることを示唆する。
  • 著者らは、将来のマルチモーダルシステムでは、変換下で物体の同一性を確実に判断するために、より強い幾何学的な基盤(グラウンディング)が必要だと結論づける。