LayerBoost:層に配慮した注意機構の削減による効率的なLLM
arXiv cs.LG / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、全層一律で注意機構を置き換えるのではなく、層ごとに注意の方式を選択的に変更することで計算量を削減する「LayerBoost」を提案している。
- 事前学習済みモデルに対する感度解析を行い、高感度層ではソフトマックス注意を維持、中程度の感度層では線形スライディングウィンドウ注意に置換し、低感度層では注意を完全に除去すると分類する。
- アーキテクチャ変更後の性能回復には、追加学習トークン1,000万のみで済む軽量な蒸留ベースの「ヒーリング」段階を導入している。
- LayerBoostは高い同時実行(コンカレンシー)条件で、推論レイテンシとスループットを最大68%改善しつつ、ベンチマークで競争力のある品質を維持し、従来の注意の線形化手法より優れている。
- 本手法は、推論コストやメモリ使用量がボトルネックとなる高同時実行のサービングや、ハードウェア制約下でのデプロイに特に適している。

