LayerBoost:層に配慮した注意機構の削減による効率的なLLM

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、全層一律で注意機構を置き換えるのではなく、層ごとに注意の方式を選択的に変更することで計算量を削減する「LayerBoost」を提案している。
  • 事前学習済みモデルに対する感度解析を行い、高感度層ではソフトマックス注意を維持、中程度の感度層では線形スライディングウィンドウ注意に置換し、低感度層では注意を完全に除去すると分類する。
  • アーキテクチャ変更後の性能回復には、追加学習トークン1,000万のみで済む軽量な蒸留ベースの「ヒーリング」段階を導入している。
  • LayerBoostは高い同時実行(コンカレンシー)条件で、推論レイテンシとスループットを最大68%改善しつつ、ベンチマークで競争力のある品質を維持し、従来の注意の線形化手法より優れている。
  • 本手法は、推論コストやメモリ使用量がボトルネックとなる高同時実行のサービングや、ハードウェア制約下でのデプロイに特に適している。

Abstract

トランスフォーマーは主にソフトマックス注意(softmax attention)に依存しており、これによりシーケンス長に対して二次的な計算量が生じ、効率的な推論における主要なボトルネックのままになっています。線形またはハイブリッド注意に関する従来研究では、通常、ソフトマックス注意を全層一様に置き換えることが多く、その結果として大幅な性能低下につながるか、モデル品質を回復するために大規模な再学習が必要になることがよくあります。 本研究では、各トランスフォーマー層の感度(sensitivity)に基づいて注意機構を選択的に変更する、層に着目した注意削減手法 LayerBoost を提案します。まず、事前学習済みモデルに対して体系的な感度分析を行い、性能維持に重要な層を特定します。この分析に導かれて、3つの異なる戦略を適用できます。すなわち、高い感度を示す層では標準のソフトマックス注意を保持し、比較的感度が中程度の層ではそれを線形スライディングウィンドウ注意に置き換え、感度が低い層では注意を完全に取り除きます。 アーキテクチャ変更後の性能回復のために、我々は軽量な蒸留ベースのヒーリング(healing)フェーズを導入します。これには追加で必要な学習トークンはわずか 10M だけです。LayerBoost は、低い遅延と高いスループットを実現し、高い同時実行(high concurrency)条件下で最大 68% の改善を達成しつつ、競争力のあるモデル品質を維持します。複数のベンチマークでベースモデルの性能に一致し、他のベンチマークではわずかな劣化にとどまる一方で、最先端の注意の線形化(attention linearization)手法を大きく上回ります。これらの効率化による利点は、本手法を、高い同時実行での提供(serving)や、推論コストとメモリ占有が重大なボトルネックとなるハードウェア制約下でのデプロイメントに特に適したものにします。