仲裁の失敗こそ原因であって、知覚の盲目ではない:視覚言語モデルは視覚と言語の衝突をどう解決するか

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデル(VLM)の視覚と言語の衝突における誤りが、知覚の弱さに起因するのか、それとも画像の根拠と事前にあるテキスト知識との間の仲裁(アービトレーション)がうまく管理されていないことに起因するのかを調査する。
  • 10のVLMにわたって、「失敗」した回答であっても初期層から強い線形にデコード可能な視覚根拠が保持されており(AUC > 0.86)、成功した場合とのエンコーディングの強さはほぼ同一である。
  • 粒度別(層ごと)のMultimodal Arbitration Crossover(MAC)と、最終層のロジットギャップが、視覚エンコーディング強度そのものよりも、グラウンディングの成否をよりよく予測できることが示される。
  • シーケンス全体に対する因果テスト(full-sequence activation patching)により、因果的な影響の大部分は画像トークンにあり(テキストトークンはなし)、さらに初期層に対する標的化された、学習不要のアクティベーション・スティアリングによって、一部の設定では視覚グラウンディングを最大 +3.8% 向上できることが分かる。
  • 著者らは、VLMは「すでによく見えている」が、重要な失敗モードは“見えている内容に基づいて行動する”ことができない点にあり、標的化された介入がこのギャップを埋められると結論づけている。

要旨: あるヴィジョン・ランゲージ・モデル(VLM)が青いバナナを見て「黄色」と答えるとき、その問題は知覚なのか調停(arbitration)なのか?私たちは、さまざまなサイズの10のVLMにおいてこの問いを探究し、**エンコーディング—グラウンディングの解離**を明らかにする。すなわち、見えている内容を報告できず(その結果誤答を返す)モデルであっても、正答を返すモデルと同程度の強さで視覚的証拠をエンコードしている。Multimodal Arbitration Crossover(MAC)解析と、層ごとのLogit Lensによるプロービングを用いて、各モデルのあらゆる層にわたる視覚信号と事前(prior)信号の競合を追跡する。視覚属性は初期層から線形にデコード可能であることを示す(AUC > 0.86)。正答サンプルと誤答サンプルの双方で精度はほぼ同一のままである。しかし、エンコーディングの強さではなく最終層のlogitのギャップの方が、グラウンディングの成否をより良く予測し、その相関は. である。VLMが、画像の手掛かりではなく事前知識に基づいて答えるのはいつかを調べたうえで、私たちは因果関係を理解したい。私たちは、全シーケンスの活性化パッチングによって因果性を確立する。LLM解釈可能性における標準的な最後トークン介入は、VLMには影響しない。対照的に、MACで特定された層においてトークン列全体を置き換えると、出力の60〜84%が変化する。部分トークン分解から、画像トークンがほぼすべての因果的インパクトを担っており、テキストトークンにはそれがないことが分かる。残るアーキテクチャ上の差異はスケーリングによって解消し、完全な保持を達成する。診断から介入へと進み、訓練なしの活性ステアリング—線形および疎(sparse)自己符号化器(autoencoder)ガイド—を初期層で行うことで、いくつかの設定で性能を低下させつつも、視覚グラウンディングを最大+3.8%改善できることを示す。総合すると、これらの発見は明確な結論につながる。すなわちVLMはすでにうまく見えているが、課題は「見えているものに対して行動する」ことにある。標的化された介入は、このギャップを埋めるのに役立つ。