証明可能な安定性保証を備えたLLM推論のフロー制御型スケジューリング

arXiv cs.LG / 2026/4/14

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未知のデコード長に起因するLLM推論の安定性問題に取り組む。これにより、リクエストごとのメモリ(例:KVキャッシュ)の増加が上限を超えてサービングシステムを不安定化し得る。
  • 新規プロンプトが「アクティブ集合」に入る速度を制限する、フロー制御型スケジューリングの枠組みを提案する。安定性をキューイング/フロー制御の問題として扱う。
  • 著者らは、任意のシステムに対する必要な安定性条件を導出し、さらに、提案手法のアルゴリズムが安定性を達成すると証明できる十分条件を示す。
  • 実験結果から、いくつかの広く使われている実用的なスケジューリング戦略と比較して、トークン/リクエストスループットの向上、平均およびテールレイテンシの低減、ならびにより安定したKVキャッシュ利用が示された。