ゲート付きサブスペース推論によるトランスフォーマー加速
arXiv cs.LG / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、各層におけるトークン活性化マニフォールドの実効ランクが低い点を利用して、トランスフォーマー言語モデルの推論を高速化する手法を提案しています。
- 各トークンの活性化をサブスペース成分と残差に分解し、サブスペース側はキャッシュされた低ランクの線形重みを使って計算しつつ、残差の計算をトークンごとにゲートでスキップ可能にします。
- ゲーティング方式により、出力分布が制御可能な許容誤差の範囲でベースラインに近く保たれるように設計されています。
- GPT-2 124M、GPT-J 6B、OPT 6.7Bを用いた実験では、AMD MI300X上で線形層の重み読み出しに対して3.0倍〜10.5倍の速度向上を示し、パープレキシティ比が1.00未満、top-1一致率が98%以上でした。
- この手法は再学習やアーキテクチャ変更を不要とし、注意機構(attention)を近似せずに維持し、さらにGPT-J 14 6Bで特定の動作点(k=256、ε=0.05)では出力が文字ごとに完全一致すると報告しています。




