ParetoBandit:非定常なLLMサービングに向けた予算ペース適応ルーティング

Reddit r/MachineLearning / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、非定常なリクエストパターン下でのLLMサービングを改善することを目的とした、予算ペース型の適応ルーティング手法であるParetoBanditを提案する。
  • 推論時のレイテンシ/コスト予算を考慮しながら、トラフィックを動的にルーティングするために、バンディット型の意思決定プロセスを用いる。
  • 需要分布が時間とともに変化しても有効性を維持するよう設計されており、現実の導入における重要な課題に対処する。
  • 本研究は、サービス品質と計算資源や支出に対する制約を両立させる形で、ルーティングをオンライン最適化問題として位置づける。
  • この記事は、即時の製品リリースではなく、非定常なLLMトラフィック管理における手法とその位置づけを示す研究投稿である。