現代のLLMにおける早期終了デコーディングの逓減する効果

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現代のLLMにおける早期終了(early-exit)デコーディングを再評価し、新しい学習レシピやアーキテクチャでは層の冗長性がより小さい可能性があり、それによって早期終了の機会が減ると論じている。
  • 「固有適合度(intrinsic suitability)」という指標と、モデルやワークロード間で早期終了の利益を測定・比較するためのベンチマークを導入する。
  • 著者らは、新しいモデル世代が進むほど早期終了の有効性に逓減傾向が見られることを見出し、モデルが進化するにつれて早期停止による得られる利益が小さくなることを示唆している。
  • 本研究では、密な(dense)トランスフォーマーモデルは、Mixture-of-ExpertsやState Space Modelsよりも一般に早期終了の可能性が高いと報告している。
  • また、より大規模なモデル(特に約20Bパラメータ以上)や、特殊なチューニングを行っていないベースの事前学習モデルほど、早期終了の可能性が高いことも見出している。

要旨: 大規模言語モデル(LLM)の推論において、early-exit(早期終了)とは、予測が十分に確信できるようになった時点で中間層で計算を停止し、それによりレイテンシとコストを削減することを指します。しかし、近年のLLMは、層の冗長性を減らす改良された事前学習レシピやアーキテクチャを採用しており、early-exitの機会が制限される可能性があります。私たちは、現代的なLLMにおける層ごとのearly-exitを再評価し、学習中に中間表現がどのように変化していくかを分析します。early-exitに対するモデル固有の適性を定量化するための指標を導入し、研究者が異なるモデルやワークロードに対してearly-exitの潜在的な利点を探るためのベンチマークを提案します。私たちの結果は、より新しいモデル世代においてearly-exitの有効性が低下する傾向を示しています。さらに、密なトランスフォーマは、Mixture-of-ExpertsおよびState Space Modelsよりも一般にearly-exitの潜在力が大きいことを見出します。加えて、より大規模なモデル、特に200億パラメータ超のモデル、ならびに専門的なチューニングを行わないベース事前学習モデルは、より高いearly-exitの潜在力を示す傾向があります。