非圧縮なアテンションのもとでの、圧縮可能なソフトマックス付き言語アテンション

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、複数のTransformer言語モデル(124M〜7Bパラメータ、4つのアーキテクチャファミリ)にまたがるアテンションヘッドにおいて、アテンションのロジット・エネルギー場が、少数の特異成分によってのみ捉えられることを見出している(分散の90%に到達するのにおよそ2〜11成分)。
  • 学習されたクエリ—キー相互作用行列は、ヘッド次元が示唆するよりもはるかに低い次元の複雑さしか持たず、同じ分散閾値に到達するのに、ヘッドサイズd_h=64または128の場合で38〜75成分しか必要としないことを報告している。
  • 著者らはスペクトルギャップが大きいことを観察している(およそ5〜25倍)。これは、実際にはアテンション計算が有効ランクを大幅に低減した状態で動作していることを示唆する。
  • ソフトマックス・アテンション機構は、全てのヘッド次元に対して容量を一様に配分するにもかかわらず、実際の言語データは有意な相互作用をわずかな方向に集中させる。そして、この「圧縮可能性」は解析フレームワークではなくデータに起因するとされている。

Abstract

5つのトランスフォーマー言語モデル(124M--7Bパラメータ、4つのアーキテクチャファミリー)におけるあらゆる注意ヘッドについて、対数itエネルギー場 ilde{E} は、2--11の特異成分によって、その分散の90 ext{}を達成する。 \\emph{学習された} 相互作用行列 W_Q^\mathrm{T} W_K は、同じ閾値を d_h \in \{64, 128\} の次元のうちで満たすために、38--75成分を必要とする。スペクトルギャップは、実効ランクにおいて 5--25\times である。注意メカニズムはすべての d_h 次元に対して計算資源を一様に配分するが、言語は実際の相互作用を少数の成分に集中させる。ソフトマックスで注意付けされた言語の圧縮可能性は、それを解析する枠組み(フレーム)ではなくデータの性質である。