AI Navigate

スパース性は大規模言語モデルの深さの呪いをいつ緩和するのか

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、スパース性が分散の伝播を調整することにより、LLMsの深さの呪いを緩和し、より深い層をより有効に活用できるようになると主張している。
  • 本研究は、暗黙のスパース性を訓練・データ条件(ウェイト減衰によるウェイトのスパース性、長文コンテキスト注意のスパース性)と、アーキテクチャ設計による明示的スパース性(グループ化されたクエリ注意、キー/バリューの共有、Mixture-of-Expertsの専門家活性化のスパース性)とを区別している。
  • 深さのスケーリングを制御した実験を通じて、スパース性は出力分散を低減し、層間での機能的差別化を促進することで、深さの利用を一貫して改善することを示した。
  • 著者らは、深さを効率的に活用するLLMsを訓練するための実用的な経験則を導出し、下流タスクで約4.6%の精度向上を報告している。
  • 本研究は、方法の実装コードを指定のGitHubリポジトリにオープンソースとして提供している。