トランスフォーマー注意機構の加速のためのカスケード・トークン選択

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、連続する層間で代表トークン集合を再利用するカスケード手法により、トランスフォーマーの注意における代表トークン選択の高速化を提案している。
Activation Decorrelation Attention（ADA）では通常、各層で高価なグラム行列（T×T）が必要だが、カスケードではクロス・グラム計算によってより安価に検証・更新することで負担を下げる。
トークン選択ステップの計算コストは、1層あたり O(T^2 d) から O(T r d) に削減され、注意計算を圧縮された小規模問題（r×r）で行えるようになる。
GPT-2 124M、GPT-J 6B、OPT 6.7B をAMD MI300Xで検証したところ、グラム演算の削減は22%〜63%で、隣接層の代表トークン集合のJaccard一致度は0.83〜0.94と高かった。
有益なトークン集合は入力の構造的な性質であり、ネットワークの深さ方向にわたって一貫して伝播し、層lと層l+1の双方で冗長でない情報を担うトークンが同じになりやすいことを示唆している。

Abstract

本稿では、トランスフォーマの注意（attention）層における代表トークン選択のコストを、深さ方向にわたる代表集合の整合性（coherence）を活用することで削減する手法を提示する。Activation Decorrelation Attention（ADA）は、グラム（Gram）しきい値により各層で

r \ll T

個の代表トークンを選択し、圧縮された

r \times r

の問題に対して注意計算を行うが、その選択には各層ごとに

T \times T

のグラム行列が必要となる。ここで導入するカスケード機構は、代表集合を層

l

から層

l+1

に引き継ぎ、

(T - r) \times r

のクロス・グラム（cross-Gram）計算によってそれを検証し、少数の加算と削除によって更新する。選択ステップのコストは、層あたり

O(T^2 d)

から

O(T r d)

に低下する。AMD MI300X 上で、3つのモデルファミリ（GPT-2 124M、GPT-J 6B、OPT 6.7B）に対して検証した結果、グラム演算の節約は

22\%

から

63\%

、連続する層間の平均Jaccard一致度は

0.83

から

0.94

であった。カスケードは、情報のあるトークンの集合が入力の構造的性質であり、それがネットワークの深さを通じて整合的に伝播することを明らかにする。すなわち、層

l

と層

l+1

の両方において、同じトークンが冗長でない情報（non-redundant information）を担っている。

AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化

日経XTECH

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

SIFS（SIFS Is Fast Search）— コーディングエージェント向けのローカル・コード検索

Dev.to

BizNodeのセマンティック・メモリ（Qdrant）でボットが時間とともに賢くなる——過去の会話を記憶して回答

Dev.to

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

トランスフォーマー注意機構の加速のためのカスケード・トークン選択

要点

Abstract

関連記事

AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

SIFS（SIFS Is Fast Search）— コーディングエージェント向けのローカル・コード検索

BizNodeのセマンティック・メモリ（Qdrant）でボットが時間とともに賢くなる——過去の会話を記憶して回答

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer