推測デコードのスケーリング則(SDSL):スループット最適化をシンプルに

arXiv cs.CL / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 推測的デコードは、推論を加速しスループットを向上させるために複数の言語モデルを用います。
  • 本論文は、従来のスループット最適化がLLMの訓練に結びついた高コストな実験的アプローチに依存していたことを指摘しています。
  • 下流の SD(Speculative Decoding)ベース推論システムのスループット効率と、事前学習済みLLMの主要なハイパーパラメータを分析的につなぐ理論を提案します。
  • この理論は、事前訓練前にスループット最適なハイパーパラメータを予測できるようにし、モデルとシステム設計の指針を提供します。
本文: arXiv:2603.11053v1 告知タイプ: 新着 要旨:推測的デコードは、推論を加速させるために複数の言語モデルを用いる技術です。従来の研究は、推論パイプラインのスループットを最適化するために実験的アプローチを用いており、これはLLMの訓練を伴い、費用がかかることがあります。推測的デコードの本研究は、事前学習済みLLMの主要なハイパーパラメータを、下流の SD(Speculative Decoding)ベースの推論システムのスループット効率と分析的につなぐ理論を提案します。この理論は、推論システムの構成要素のための、事前訓練前にスループット最適なハイパーパラメータを予測できるようにします。