AI Navigate

細粒度の潜在タスク発見によるスケーラブルなプロンプトルーティング

arXiv cs.AI / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究は、性能とコストを最適化するために、先端モデル群の中から最適なLLMを選択する二段階のプロンプトルーティングアーキテクチャを提案する。
  • ステージ1では、グラフベースのクラスタリングを用いて潜在的なタスクタイプを発見し、これらのタスクへプロンプトを割り当てる分類器を学習させ、細粒度なタスク理解を可能にする。
  • ステージ2では、タスク特異的予測ヘッドを備えたエキスパートの混成モデルを用いて、専門的な品質推定を提供し、推論時には両ステージの出力を統合して安定性と適応性のバランスを取る。
  • 10のベンチマークと11の先端モデルを用いた評価により、本手法は既存のベースラインおよび最も強力な個別モデルを一貫して上回る一方で、コストはそれらの半分未満に抑えられることが示された。

Abstract

Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.