コストと容量制約下における大規模言語モデルのための堅牢なバッチレベル・クエリルーティング

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルに対するクエリルーティングを扱いつつ、コスト、GPUリソース、同時実行（コンカレンシー）の制約を同時に課すことを目的とし、バッチレベルにおける従来のクエリ単位ルーティング手法の失敗に焦点を当てる。
モデルの容量制限の下で、各バッチにどのモデルを用いるかを選択することを、クエリごとの独立した判断ではなく、バッチ単位でリソースを考慮しながら共同最適化するルーティングの枠組みを提案する。
予測されたLLM性能に関する不確実性を扱うための堅牢版を導入し、推定が不完全な場合でも信頼性を向上させる。
品質とスループットを複数のモデル間で調整するためのオフラインのインスタンス割り当ても提示し、エンドツーエンドの成果をさらに改善する。
2つのマルチタスクLLMベンチマークでの実験により、堅牢性の導入によって精度が1〜14%向上し、バッチレベルのルーティングは敵対的なバッチング下でクエリ単位手法より最大24%優れること、さらに最適化された割り当てにより約3%の改善が得られつつ、コストとGPU制約を厳密に満たすことが示される。

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to