セマンティックな豊かさか、それとも幾何学的推論か？ VLMの視覚的不変性の脆弱性

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では最先端の視覚言語モデル（VLM）を検証し、回転・スケーリング・アイデンティティの変更といった単純な幾何学的変換に対して、空間的不変性／同変性をしばしば維持できないことを明らかにする。
これらの失敗は、意味的手がかりが乏しい場合（記号的なスケッチや抽象画など）に特に顕著であり、モデルの性能が急激に低下する。
本研究では複数の視覚ドメインを評価し、問題が特定のデータセットやモデルに限られた孤立的なものではなく、セマンティック理解と幾何学的／空間的推論の間にギャップがあることを示す。
結果は、異なるアーキテクチャ、モデル規模、プロンプト戦略にわたって一貫しており、弱点が現在のVLM設計に根本的に内在していることを示唆する。
著者らは、将来のマルチモーダルシステムでは、変換下で物体の同一性を確実に判断するために、より強い幾何学的な基盤（グラウンディング）が必要だと結論づける。

日経XTECH

Dev.to

Dev.to

MarkTechPost

Dev.to