不確実性を考慮した出力長予測によるLLM推論のスケジューリング

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、確率的デコーディングとEOS（終端）サンプリングにより、LLM推論の出力長は本質的に不確実であるため、スケジューラは単一の出力長推定値に依存すべきではないと主張する。
実証分析により、出力長は裾の重い分布（heavy-tailed distribution）に従い、log-t分布でモデル化できることを見出す。
予測における一点推定値を、SJF（最短ジョブ優先）型のスケジューリングに置き換えるための、新たなリスク感度指標としてTail Inflated Expectation（TIE）を提案する。
実験の結果、TIEは推論性能を改善し、オンライン推論ではトークンあたりのレイテンシを2.31×削減し、オフラインでのデータ生成スループットは強力なベースラインに比べて1.42×向上したことを示す。

要旨: LLM推論をスケジューリングするためには、 extit{最短ジョブ優先}（SJF）の原則が有利です。これは、出力長が短いリクエストを優先して、先頭行待ち（HOL）によるブロッキングを回避するためです。既存の手法では通常、スケジューリングを容易にするために、各リクエストについて単一の出力長を予測します。しかし、我々は、そのような extit{点推定}は、LLM推論の extit{確率的}デコード過程とは一致していないと主張します。LLM推論では、出力長は本質的に extit{不確実}であり、終端系列（EOS）トークンがサンプリングされる時点によって決まります。したがって、各リクエストの出力長は、単一の値ではなく分布で適合させるべきです。実データと確率的デコード過程を詳細に分析した結果、出力長は裾が重い分布（heavy-tailed distribution）に従い、log-t分布で適合できることを観察しました。これに基づき、SJFスケジューリングにおける出力長の代わりに、Tail Inflated Expectation（TIE）と呼ぶ単純な指標を提案します。これは、log-t分布の期待値を、その裾確率で調整することで、リクエストが長い出力を生成するリスクを考慮します。TIEスケジューラを評価するために、3つの強力なベースラインと比較したところ、その結果は、TIEがオンライン推論における1トークン当たりのレイテンシを $2.31 imes$ 低減し、オフラインのデータ生成におけるスループットを $1.42 imes$ 向上させることを示しています。

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

GIGAZINE

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

Zenn

遺産であるCOBOLを現代化し、その正確性を自ら証明するAIを開発した話

Zenn

不確実性を考慮した出力長予測によるLLM推論のスケジューリング

要点

関連記事

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

遺産であるCOBOLを現代化し、その正確性を自ら証明するAIを開発した話

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer