焦点と希釈：注意（アテンション）の多段階学習プロセス

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文はトランスフォーマーの学習ダイナミクスを調べ、注意（アテンション）学習が時間とともに「焦点−希釈」サイクルを繰り返すことを見出しています。
1層トランスフォーマーとマルコフデータを対象に、勾配フロー解析によってそのメカニズムを厳密に説明し、1サイクルを複数の段階に分解します。
学習の初期では、埋め込みと射影が素早くランク1構造へ収束する一方、アテンションのパラメータはほぼ凍結されたままです。
その後、アテンションのパラメータが変化し始め、高周波トークンへ向けた周波数依存の焦点づけを誘発し、さらに埋め込みへの摂動が発生して質量再分配による焦点の希釈につながります。
低周波トークン間の小さな非対称性が縮退した臨界点を解き、新しい埋め込み方向を開いて次のサイクルを開始し、合成マルコフデータおよびWikiText/TinyStoriesの実験で予測された段階と循環ダイナミクスが裏付けられています。