Abstract
本稿では、トランスフォーマの注意(attention)層における代表トークン選択のコストを、深さ方向にわたる代表集合の整合性(coherence)を活用することで削減する手法を提示する。Activation Decorrelation Attention(ADA)は、グラム(Gram)しきい値により各層で r \ll T 個の代表トークンを選択し、圧縮された r \times r の問題に対して注意計算を行うが、その選択には各層ごとに T \times T のグラム行列が必要となる。ここで導入するカスケード機構は、代表集合を層 l から層 l+1 に引き継ぎ、(T - r) \times r のクロス・グラム(cross-Gram)計算によってそれを検証し、少数の加算と削除によって更新する。選択ステップのコストは、層あたり O(T^2 d) から O(T r d) に低下する。AMD MI300X 上で、3つのモデルファミリ(GPT-2 124M、GPT-J 6B、OPT 6.7B)に対して検証した結果、グラム演算の節約は 22\% から 63\%、連続する層間の平均Jaccard一致度は 0.83 から 0.94 であった。カスケードは、情報のあるトークンの集合が入力の構造的性質であり、それがネットワークの深さを通じて整合的に伝播することを明らかにする。すなわち、層 l と層 l+1 の両方において、同じトークンが冗長でない情報(non-redundant information)を担っている。