コスト効率と信頼性を両立するLLM提供のためのデュアルプール・トークン予算ルーティング
arXiv cs.CL / 2026/4/10
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、プロダクションのvLLMフリートにおける重要な非効率を指摘している。すなわち、インスタンスが最悪ケースの長いコンテキストに合わせて冗長に確保されるため、大多数の短いリクエストでKVキャッシュが過剰割り当てとなり、有効スループットが4〜8倍低下してしまう。
- 提案手法は「デュアルプール・トークン予算ルーティング」であり、同質なLLM提供フリートを短コンテキストの高スループット・プールと長コンテキストの高キャパシティ・プールに分割し、推定した総トークン予算に基づいてリクエストを振り分ける。
- ルーティングの推定には、オンラインで指数移動平均(EMA)により更新される、カテゴリーごとのバイト対トークン比の学習値を用いる。これにより、プロンプトトークンのフィードバックから推定を更新でき、トークナイザを必要としない。
- Azure LLM InferenceのトレースおよびLMSYS-Chat-1M(A100 GPU上でLlama-3-70Bを提供)での実験では、GPU時間を31〜42%削減できることが示され、規模に応じた年換算の約$2.86Mの節約につながる。さらに、プリエンプト率が5.4倍低下し、P99のTTFT(Time To First Token)が6%改善する。
- このアプローチは派遣(ディスパッチ)のオーバーヘッドをO(1)に抑えつつ、異種ワークロードへ適応し、PagedAttention、連続バッチ処理、プリフィル–デコードの分離など、一般的なvLLM最適化と併用可能である。



