VLMsには言葉が必要:視覚言語モデルは意味的アンカーを優先して視覚の細部を無視する
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)が微細な視覚タスクで劣るのは、学習パイプラインが視覚コンテンツをテキスト(言語)空間へ写像することを重視しているためだと主張している。
- これにより、VLMは既存で名前付け可能な言語概念に結び付けられる視覚的実体についてのみ、信頼性の高い推論ができる一方で、名前付け不可能/新規な視覚的実体では、記述が脆くなったり幻覚的なテキスト記述になったりすると論じている。
- 視覚的対応関係のタスクに関する実験では、対象となる実体が言語で名前付け可能である場合のVLMの精度が、名前付け不可能な場合よりも大幅に高いことが示されている(意味・形状・顔のマッチングなど)。
- Logit Lens解析はこのメカニズムを支持している。すなわち、モデルは名前付け可能な実体に対してより明確な意味ラベルを割り当て、対応する固有のトークンをより多く用いる。
- 著者らは、未知の実体に対して恣意的な名前を与えることで性能が向上することを見出しているが、言語的な事前知識に依存しない形での、タスク固有の微調整のほうがさらに汎化が改善するとしている。




