広告

ParetoBandit:非定常なLLMサービングのための予算ペース駆動型適応ルーティング

arXiv cs.LG / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • ParetoBandit は、品質を最適化しつつ、リクエストあたりのコスト上限をドル建ての予算として強制する、非定常なLLMサービング向けのオープンソース適応ルーティング層です。
  • オンラインのプライマル・デュアル予算ペースカーと幾何学的フォーゲッティングを用いることで、オフラインのチューニングを置き換え、連続トラフィックの中で価格や品質の変化に適応できるクローズドループ制御を実現します。
  • レジストリによる実行時のモデルホットスワップに対応しており、短い強制探索フェーズで新モデルをオンボーディングした後、ライブデータを用いてその品質・コストのニッチ領域を学習します。
  • 4つのシナリオにまたがる1,824のプロンプトと、3モデルのポートフォリオを用いた実験では、ParetoBandit は平均的なリクエストあたりコストを目標内に収め、その乖離は最大0.4%にとどまり、大きな価格/品質の変化後もダウンタイムなしで適応しました。
  • ルーティングのオーバーヘッドは低く(CPUでエンドツーエンド9.8 ms、ルーティング判断は約22.5 µs)、本番向けの推論パイプラインに適しています。

広告