ParetoBandit：非定常なLLMサービングのための予算ペース駆動型適応ルーティング

arXiv cs.LG / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

ParetoBandit は、品質を最適化しつつ、リクエストあたりのコスト上限をドル建ての予算として強制する、非定常なLLMサービング向けのオープンソース適応ルーティング層です。
オンラインのプライマル・デュアル予算ペースカーと幾何学的フォーゲッティングを用いることで、オフラインのチューニングを置き換え、連続トラフィックの中で価格や品質の変化に適応できるクローズドループ制御を実現します。
レジストリによる実行時のモデルホットスワップに対応しており、短い強制探索フェーズで新モデルをオンボーディングした後、ライブデータを用いてその品質・コストのニッチ領域を学習します。
4つのシナリオにまたがる1,824のプロンプトと、3モデルのポートフォリオを用いた実験では、ParetoBandit は平均的なリクエストあたりコストを目標内に収め、その乖離は最大0.4%にとどまり、大きな価格/品質の変化後もダウンタイムなしで適応しました。
ルーティングのオーバーヘッドは低く（CPUでエンドツーエンド9.8 ms、ルーティング判断は約22.5 µs）、本番向けの推論パイプラインに適しています。

AI-SCHOLAR

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to