When Sinks Help or Hurt: 大規模ビジョン言語モデルにおけるアテンション・シンクのための統一フレームワーク
arXiv cs.CV / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、大規模ビジョン言語モデル(LVLMs)における「アテンション・シンク(attention sinks)」を研究し、過剰に大きな注目を集めるトークンとして定義したうえで、その挙動がモダリティ間でどのように転移するかを検討します。
- 視覚のアテンション・シンクを2種類に分類します。すなわち、視覚エンコーダから生じるViT由来のシンク(V-sinks)と、深いLLM層の内部から生じるLLM由来のシンク(L-sinks)です。
- 分析の結果、性能にはトレードオフがあることが分かります。シンクは大域的なシーンレベルの事前知識を符号化することで有益になり得ますが、過度な優位性は局所的な認識に必要な微細な視覚エビデンスを抑制してしまう可能性があります。
- 著者らは、シンクを調整した際に下流の性能に最も強く影響する機能層を特定し、それに基づいてLayer-wise Sink Gating(LSG)を提案します。
- LSGは、LVLMバックボーンを凍結したまま標準的な次トークン予測で学習される軽量なプラグアンドプレイ型モジュールであり、大域的推論と局所的な視覚精度のバランスをとることでマルチモーダルのベンチマークにおける性能を向上させます。




