スパース性は大規模言語モデルの深さの呪いをいつ緩和するのか

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、スパース性が分散の伝播を調整することにより、LLMsの深さの呪いを緩和し、より深い層をより有効に活用できるようになると主張している。
本研究は、暗黙のスパース性を訓練・データ条件（ウェイト減衰によるウェイトのスパース性、長文コンテキスト注意のスパース性）と、アーキテクチャ設計による明示的スパース性（グループ化されたクエリ注意、キー/バリューの共有、Mixture-of-Expertsの専門家活性化のスパース性）とを区別している。
深さのスケーリングを制御した実験を通じて、スパース性は出力分散を低減し、層間での機能的差別化を促進することで、深さの利用を一貫して改善することを示した。
著者らは、深さを効率的に活用するLLMsを訓練するための実用的な経験則を導出し、下流タスクで約4.6％の精度向上を報告している。
本研究は、方法の実装コードを指定のGitHubリポジトリにオープンソースとして提供している。

note

note

note

note

note