VLMsには言葉が必要：視覚言語モデルは意味的アンカーを優先して視覚の細部を無視する

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）が微細な視覚タスクで劣るのは、学習パイプラインが視覚コンテンツをテキスト（言語）空間へ写像することを重視しているためだと主張している。
これにより、VLMは既存で名前付け可能な言語概念に結び付けられる視覚的実体についてのみ、信頼性の高い推論ができる一方で、名前付け不可能／新規な視覚的実体では、記述が脆くなったり幻覚的なテキスト記述になったりすると論じている。
視覚的対応関係のタスクに関する実験では、対象となる実体が言語で名前付け可能である場合のVLMの精度が、名前付け不可能な場合よりも大幅に高いことが示されている（意味・形状・顔のマッチングなど）。
Logit Lens解析はこのメカニズムを支持している。すなわち、モデルは名前付け可能な実体に対してより明確な意味ラベルを割り当て、対応する固有のトークンをより多く用いる。
著者らは、未知の実体に対して恣意的な名前を与えることで性能が向上することを見出しているが、言語的な事前知識に依存しない形での、タスク固有の微調整のほうがさらに汎化が改善するとしている。

Abstract

言語視覚モデル（VLMs）は、幅広いマルチモーダル課題において印象的な性能を発揮します。しかし、細かな視覚認識を必要とする一部の課題では、必要な情報が内部表現内に存在している場合でも失敗することがよくあります。本研究では、このギャップが、視覚情報をテキスト空間へ移すことに焦点を当てた狭い学習パイプラインに起因して生じることを示します。その結果、VLMsは、言語空間における既知の概念へ写像できる視覚的実体についてのみ推論でき、視覚対応（visual correspondence）や新規の視覚的実体についての推論といった、視覚に焦点を当てた課題は十分に支えられていません。そのため、VLMsは、テキスト表現へ写像できない視覚的実体に対して脆い（壊れやすい）幻覚的なテキスト記述に依存してしまうことで、いくつかの重要なマルチモーダル能力が厳しく制限されます。私たちはこの挙動を、VLMsが2枚の画像間で一致する実体を検出する必要がある視覚対応タスクを通じて検証します。意味対応・形状対応・顔対応の各タスクにわたって評価した結果、関連する実体が言語で名付け可能である場合の方が、名付け不可能である場合よりもVLMsの性能が大幅に向上することがわかりました。機構的には、Logit Lens分析により、VLMsが名付け可能な実体に対して明示的に意味ラベルを割り当て、名付け不可能な実体と比べてより多様で一意性の高い対応トークンを提示することを確認しました。さらに、未知の実体に対して完全に任意の名前を教えることでも性能が向上することを示しますが、一方で、課題固有の微調整（task-specific finetuning）を行うと、言語的事前知識に依存せずに、より強い汎化が得られます。これらの結果は、現在のVLMの視覚タスクにおける失敗が、マルチモーダル・アーキテクチャの根本的な限界というよりも、学習によって獲得された近道（ショートカット）を反映していることを示唆しています。