ParetoBandit:非定常なLLMサービングのための予算ペース駆動型適応ルーティング
arXiv cs.LG / 2026/4/2
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- ParetoBandit は、品質を最適化しつつ、リクエストあたりのコスト上限をドル建ての予算として強制する、非定常なLLMサービング向けのオープンソース適応ルーティング層です。
- オンラインのプライマル・デュアル予算ペースカーと幾何学的フォーゲッティングを用いることで、オフラインのチューニングを置き換え、連続トラフィックの中で価格や品質の変化に適応できるクローズドループ制御を実現します。
- レジストリによる実行時のモデルホットスワップに対応しており、短い強制探索フェーズで新モデルをオンボーディングした後、ライブデータを用いてその品質・コストのニッチ領域を学習します。
- 4つのシナリオにまたがる1,824のプロンプトと、3モデルのポートフォリオを用いた実験では、ParetoBandit は平均的なリクエストあたりコストを目標内に収め、その乖離は最大0.4%にとどまり、大きな価格/品質の変化後もダウンタイムなしで適応しました。
- ルーティングのオーバーヘッドは低く(CPUでエンドツーエンド9.8 ms、ルーティング判断は約22.5 µs)、本番向けの推論パイプラインに適しています。