ゲート付きサブスペース推論によるトランスフォーマー加速

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、各層におけるトークン活性化マニフォールドの実効ランクが低い点を利用して、トランスフォーマー言語モデルの推論を高速化する手法を提案しています。
各トークンの活性化をサブスペース成分と残差に分解し、サブスペース側はキャッシュされた低ランクの線形重みを使って計算しつつ、残差の計算をトークンごとにゲートでスキップ可能にします。
ゲーティング方式により、出力分布が制御可能な許容誤差の範囲でベースラインに近く保たれるように設計されています。
GPT-2 124M、GPT-J 6B、OPT 6.7Bを用いた実験では、AMD MI300X上で線形層の重み読み出しに対して3.0倍〜10.5倍の速度向上を示し、パープレキシティ比が1.00未満、top-1一致率が98%以上でした。
この手法は再学習やアーキテクチャ変更を不要とし、注意機構（attention）を近似せずに維持し、さらにGPT-J 14 6Bで特定の動作点（k=256、ε=0.05）では出力が文字ごとに完全一致すると報告しています。