SinkTrack: 大規模言語モデルのためのAttention Sinkに基づくコンテキストアンカリング

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SinkTrackは、生成中に<BOS>トークンへ高い注意(attention)を保ち続ける傾向のある固有の「attention sink」挙動を活用する、LLM向けの提案するコンテキストアンカリング手法である。
  • この手法は、入力指示や画像などの主要な文脈特徴を<BOS>表現へ注入し、注意のドリフトを抑えることで、幻覚や文脈の忘却を緩和する。
  • SinkTrackは学習不要(training-free)、プラグアンドプレイであり、推論時のオーバーヘッドはごくわずかであるため、既存のLLMパイプラインへの統合が現実的である。
  • 報告された実験では、アーキテクチャや規模をまたいで、テキストおよびマルチモーダルの両ベンチマークで一貫した改善が示されている(例:Llama3.1-8B-InstructでSQuAD2.0が+21.6%、Qwen2.5-VL-7B-InstructでM3CoTが+22.8%)。
  • 本論文は、情報伝達の観点からメカニズムの分析を含み、オープンソースのコードも提供している。

Abstract

大規模言語モデル(LLM)は幻覚(hallucination)と文脈の忘却(context forgetting)に悩まされる。先行研究では、注意ドリフト(attention drift)がこれらの問題の主因であることが示唆されている。すなわち、LLMの注意が新たに生成されたトークンへと移り、最初の入力の文脈からそれてしまうのである。これに対抗するために、我々はLLMの関連する本質的特性である注意シンク(attention sink)を用いる。注意シンクとは、系列の最初のトークン(すなわち)に対して一貫して高い注意を割り当てる傾向である。具体的には、を情報アンカーとして扱い、重要な文脈的特徴(たとえば入力画像や指示から得られる特徴など)をその表現へ注入する、先進的な文脈アンカリング手法であるSinkTrackを提案する。これにより、生成プロセス全体を通してLLMは初期の入力文脈に固定された状態を保つ。SinkTrackは学習不要で、プラグアンドプレイであり、推論時のオーバーヘッドもごくわずかである。実験により、SinkTrackはテキストタスク(例:Llama3.1-8B-InstructでSQuAD2.0に対して+21.6%)およびマルチモーダルタスク(例:Qwen2.5-VL-7B-InstructでM3CoTに対して+22.8%)の両方において、幻覚と文脈の忘却を軽減することが示される。異なるアーキテクチャやスケールにわたって一貫して得られる改善は、その頑健性と汎用性を裏付けている。さらに、情報伝達の観点から、その基盤となる作動メカニズムを分析する。ソースコードはhttps://github.com/67L1/SinkTrackで公開されている。