トランスフォーマー注意機構の加速のためのカスケード・トークン選択

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、連続する層間で代表トークン集合を再利用するカスケード手法により、トランスフォーマーの注意における代表トークン選択の高速化を提案している。
  • Activation Decorrelation Attention(ADA)では通常、各層で高価なグラム行列(T×T)が必要だが、カスケードではクロス・グラム計算によってより安価に検証・更新することで負担を下げる。
  • トークン選択ステップの計算コストは、1層あたり O(T^2 d) から O(T r d) に削減され、注意計算を圧縮された小規模問題(r×r)で行えるようになる。
  • GPT-2 124M、GPT-J 6B、OPT 6.7B をAMD MI300Xで検証したところ、グラム演算の削減は22%〜63%で、隣接層の代表トークン集合のJaccard一致度は0.83〜0.94と高かった。
  • 有益なトークン集合は入力の構造的な性質であり、ネットワークの深さ方向にわたって一貫して伝播し、層lと層l+1の双方で冗長でない情報を担うトークンが同じになりやすいことを示唆している。

Abstract

本稿では、トランスフォーマの注意(attention)層における代表トークン選択のコストを、深さ方向にわたる代表集合の整合性(coherence)を活用することで削減する手法を提示する。Activation Decorrelation Attention(ADA)は、グラム(Gram)しきい値により各層で r \ll T 個の代表トークンを選択し、圧縮された r \times r の問題に対して注意計算を行うが、その選択には各層ごとに T \times T のグラム行列が必要となる。ここで導入するカスケード機構は、代表集合を層 l から層 l+1 に引き継ぎ、(T - r) \times r のクロス・グラム(cross-Gram)計算によってそれを検証し、少数の加算と削除によって更新する。選択ステップのコストは、層あたり O(T^2 d) から O(T r d) に低下する。AMD MI300X 上で、3つのモデルファミリ(GPT-2 124M、GPT-J 6B、OPT 6.7B)に対して検証した結果、グラム演算の節約は 22\% から 63\%、連続する層間の平均Jaccard一致度は 0.83 から 0.94 であった。カスケードは、情報のあるトークンの集合が入力の構造的性質であり、それがネットワークの深さを通じて整合的に伝播することを明らかにする。すなわち、層 l と層 l+1 の両方において、同じトークンが冗長でない情報(non-redundant information)を担っている。