要旨:
アクティベーションのスパース性は、計算量とメモリ移動を削減することにより、巨大言語モデル(LLM)の推論を加速する有望なアプローチです。
しかし、既存のアクティベーション・スパース性手法は通常、射影ごとに一様なスパース性を適用し、トランスフォーマーの重みの異質な統計特性を無視して、それによって性能劣化を増幅させます。
本論文では、ActTailを提案します。これは、TopK 振幅ベースのアクティベーションスパース性手法で、Heavy-Tailed Self-Regularization (HT-SR) 理論に基づくグローバルなアクティベーションスパース性割り当てを特徴とします。
具体的には、各射影の経験的スペクトル密度(ESD)から計算されるヘビー尾指数を用いてこの異質性を捉え、それを射影ごとに特定のスパース予算を割り当てる定量的指標として用います。
重要なのは、HT-SR レジーム下でアクティベーションスパース比とヘビー尾指数との明確な関係を確立する理論分析を提供し、ヒューリスティックな設計を超えたスパース性配分の原理的指針を提示することです。
LLaMAおよびMistralモデルを対象とした実験は、均一割り当てと比べて、高いスパース性においてパープレキシティと下流タスクの性能の両方を改善することを示しています。
80%のスパース性では、LLaMA-2-7Bでパープレキシティが21.8%、LLaMA-2-13Bで40.1%、Mistral-7Bで9.4%低下します。
ActTail: 大規模言語モデルにおけるグローバル活性化スパース性
arXiv cs.LG / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ActTailは、大規模言語モデル向けにグローバル割り当てを用いたTopKの大きさに基づく活性化スパース性手法を導入し、推論時の計算量とメモリ移動を削減することを目的とする。
- トランスフォーマーの重みの不均質性を明示的に考慮し、各射影の経験的スペクトル密度からヘビー尾部指数を算出して、射影ごとに特有のスパース予算を割り当てる。
- 本論文は、HT-SRレジーム下における活性化スパース比とヘビー尾部指数との理論的関係を提供し、ヒューリスティックな規則を超えたスパース性の意思決定を導く。
- LLaMAとMistralを対象とした実験結果は、高いスパース性にも関わらずパープレキシティと下流タスクの性能が向上し、80%のスパース性で計算量・メモリ移動の顕著な削減を達成した(例: LLaMA-2-7Bで21.8%、LLaMA-2-13Bで40.1%、Mistral-7Bで9.4%)。