要旨: 現代の機械学習における基盤となるアーキテクチャであるトランスフォーマーは、さまざまなAI領域において目覚ましい進歩をもたらしてきました。その変革的な影響にもかかわらず、さまざまなトランスフォーマーに共通して依然として存在する課題として、注意のシンク(Attention Sink, AS)が挙げられます。ASとは、特定ではあるものの情報をほとんど持たないトークンのごく一部に対して、注意が不釣り合いなほど集中してしまう現象です。ASは解釈可能性を複雑にし、学習と推論のダイナミクスに大きな影響を与えるだけでなく、幻覚(hallucinations)のような問題を一層悪化させます。近年、このASを理解し、活用するために多くの研究が行われてきました。しかし、AS関連の研究を体系的に統合し、今後の発展に向けた指針を与える包括的なサーベイは、いまだ欠けています。このギャップに対処するために、本稿ではASに関する最初のサーベイを提示します。現在の研究状況を定義する3つの主要な次元、すなわち「基礎的な活用(Fundamental Utilization)」「機構的な解釈(Mechanistic Interpretation)」「戦略的な軽減(Strategic Mitigation)」に基づいて構成しています。本研究は、重要な概念を明確化し、研究者が当該分野の進化とトレンドをたどれるように導くことで、決定的な貢献を提供します。本サーベイは、現在のトランスフォーマーのパラダイムの中でASを効果的に管理できるよう研究者と実務者を後押しすると同時に、次世代のトランスフォーマーに向けた革新的な発展を促す決定版となることを目指しています。本研究の論文リストは https://github.com/ZunhaiSu/Awesome-Attention-Sink で利用可能です。
トランスフォーマーにおけるアテンション・シンク:利用・解釈・緩和に関するサーベイ
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トランスフォーマーにおける「Attention Sink(AS)」について、なぜモデルが情報を持たない少数のトークンに不釣り合いに注意を向けてしまうのかに焦点を当てた、初めての包括的なサーベイを提示する。
- ASが学習と推論のダイナミクスの双方にどのように影響し、トランスフォーマーの解釈可能性をより困難にするとともに、幻覚などの下流の問題を悪化させる可能性があることを説明する。
- 本サーベイは、既存のAS研究を3つの次元に整理する:基礎的な利用(ASがどこ/どのように現れ、どのように活用されるか)、メカニズムに基づく解釈(なぜそれが起きるのか)、戦略的な緩和(負の影響をどのように減らすか)。
- 概念を統合し、分野の進化やトレンドを踏まえることで、本論文は、今日のトランスフォーマーのパラダイムのもとでASを管理したい研究者や実務者のための参照となることを目指す。
- さらに、提示されたGitHubリポジトリ(“Awesome-Attention-Sink”)を通じて、関連リソースのキュレーション済みリストも読者に案内する。




