Abstract
5つのトランスフォーマー言語モデル(124M--7Bパラメータ、4つのアーキテクチャファミリー)におけるあらゆる注意ヘッドについて、対数itエネルギー場 ilde{E} は、2--11の特異成分によって、その分散の90 ext{}を達成する。 \\emph{学習された} 相互作用行列 W_Q^\mathrm{T} W_K は、同じ閾値を d_h \in \{64, 128\} の次元のうちで満たすために、38--75成分を必要とする。スペクトルギャップは、実効ランクにおいて 5--25\times である。注意メカニズムはすべての d_h 次元に対して計算資源を一様に配分するが、言語は実際の相互作用を少数の成分に集中させる。ソフトマックスで注意付けされた言語の圧縮可能性は、それを解析する枠組み(フレーム)ではなくデータの性質である。



