When Sinks Help or Hurt: 大規模ビジョン言語モデルにおけるアテンション・シンクのための統一フレームワーク

arXiv cs.CV / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模ビジョン言語モデル(LVLMs)における「アテンション・シンク(attention sinks)」を研究し、過剰に大きな注目を集めるトークンとして定義したうえで、その挙動がモダリティ間でどのように転移するかを検討します。
  • 視覚のアテンション・シンクを2種類に分類します。すなわち、視覚エンコーダから生じるViT由来のシンク(V-sinks)と、深いLLM層の内部から生じるLLM由来のシンク(L-sinks)です。
  • 分析の結果、性能にはトレードオフがあることが分かります。シンクは大域的なシーンレベルの事前知識を符号化することで有益になり得ますが、過度な優位性は局所的な認識に必要な微細な視覚エビデンスを抑制してしまう可能性があります。
  • 著者らは、シンクを調整した際に下流の性能に最も強く影響する機能層を特定し、それに基づいてLayer-wise Sink Gating(LSG)を提案します。
  • LSGは、LVLMバックボーンを凍結したまま標準的な次トークン予測で学習される軽量なプラグアンドプレイ型モジュールであり、大域的推論と局所的な視覚精度のバランスをとることでマルチモーダルのベンチマークにおける性能を向上させます。

Abstract

注意サンク(attention sinks)とは、過剰な注意を引き寄せるトークンとして定義されます。これらは単一モダリティのトランスフォーマでは研究されてきた一方で、大規模ビジョン・言語モデル(LVLM)におけるそれらのクロスモーダルな影響は、ほとんど未検討のままです。つまり、それらは冗長なアーティファクトなのでしょうか、それとも不可欠なグローバルな事前知識なのでしょうか。本論文はまず、視覚サンクを2つの異なるカテゴリに分類することから始めます。具体的には、視覚エンコーダから伝播するViTエマージェント・サンク(V-sinks)と、深いLLM層の内部から生じるLLMエマージェント・サンク(L-sinks)です。この新たな定義に基づく分析により、重要な性能上のトレードオフが明らかになります。すなわち、サンクはグローバルなシーンレベルの事前知識を効果的に符号化する一方で、それらが優勢になることで、局所的な知覚に必要な微細な視覚的証拠が抑制されてしまい得るのです。さらに、これらのサンクを調節したときに、下流の性能に最も大きく影響する特定の機能層も特定します。これらの知見を活用するために、本論文ではLayer-wise Sink Gating(LSG)を提案します。これは、V-sinkおよびそれ以外の視覚トークンの注意寄与を動的にスケーリングする、軽量でプラグアンドプレイ可能なモジュールです。LSGは標準的な次トークン予測によって学習され、タスク固有の教師信号を一切必要としません。また、LVLMのバックボーンは凍結したままです。多くの層において、LSGは代表的なマルチモーダル・ベンチマークで改善をもたらし、グローバルな推論と正確な局所的証拠のバランスを効果的に取ることができます。