推測デコードのスケーリング則(SDSL):スループット最適化をシンプルに
arXiv cs.CL / 2026/3/13
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 推測的デコードは、推論を加速しスループットを向上させるために複数の言語モデルを用います。
- 本論文は、従来のスループット最適化がLLMの訓練に結びついた高コストな実験的アプローチに依存していたことを指摘しています。
- 下流の SD(Speculative Decoding)ベース推論システムのスループット効率と、事前学習済みLLMの主要なハイパーパラメータを分析的につなぐ理論を提案します。
- この理論は、事前訓練前にスループット最適なハイパーパラメータを予測できるようにし、モデルとシステム設計の指針を提供します。
本文: arXiv:2603.11053v1 告知タイプ: 新着
要旨:推測的デコードは、推論を加速させるために複数の言語モデルを用いる技術です。従来の研究は、推論パイプラインのスループットを最適化するために実験的アプローチを用いており、これはLLMの訓練を伴い、費用がかかることがあります。推測的デコードの本研究は、事前学習済みLLMの主要なハイパーパラメータを、下流の SD(Speculative Decoding)ベースの推論システムのスループット効率と分析的につなぐ理論を提案します。この理論は、推論システムの構成要素のための、事前訓練前にスループット最適なハイパーパラメータを予測できるようにします。



