要旨: LLM推論をスケジューリングするためには、 extit{最短ジョブ優先}(SJF)の原則が有利です。これは、出力長が短いリクエストを優先して、先頭行待ち(HOL)によるブロッキングを回避するためです。既存の手法では通常、スケジューリングを容易にするために、各リクエストについて単一の出力長を予測します。しかし、我々は、そのような extit{点推定}は、LLM推論の extit{確率的}デコード過程とは一致していないと主張します。LLM推論では、出力長は本質的に extit{不確実}であり、終端系列(EOS)トークンがサンプリングされる時点によって決まります。したがって、各リクエストの出力長は、単一の値ではなく分布で適合させるべきです。実データと確率的デコード過程を詳細に分析した結果、出力長は裾が重い分布(heavy-tailed distribution)に従い、log-t分布で適合できることを観察しました。これに基づき、SJFスケジューリングにおける出力長の代わりに、Tail Inflated Expectation(TIE)と呼ぶ単純な指標を提案します。これは、log-t分布の期待値を、その裾確率で調整することで、リクエストが長い出力を生成するリスクを考慮します。TIEスケジューラを評価するために、3つの強力なベースラインと比較したところ、その結果は、TIEがオンライン推論における1トークン当たりのレイテンシを2.31 imes低減し、オフラインのデータ生成におけるスループットを1.42 imes向上させることを示しています。
不確実性を考慮した出力長予測によるLLM推論のスケジューリング
arXiv cs.LG / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、確率的デコーディングとEOS(終端)サンプリングにより、LLM推論の出力長は本質的に不確実であるため、スケジューラは単一の出力長推定値に依存すべきではないと主張する。
- 実証分析により、出力長は裾の重い分布(heavy-tailed distribution)に従い、log-t分布でモデル化できることを見出す。
- 予測における一点推定値を、SJF(最短ジョブ優先)型のスケジューリングに置き換えるための、新たなリスク感度指標としてTail Inflated Expectation(TIE)を提案する。
- 実験の結果、TIEは推論性能を改善し、オンライン推論ではトークンあたりのレイテンシを2.31×削減し、オフラインでのデータ生成スループットは強力なベースラインに比べて1.42×向上したことを示す。
