細粒度の潜在タスク発見によるスケーラブルなプロンプトルーティング

arXiv cs.AI / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本研究は、性能とコストを最適化するために、先端モデル群の中から最適なLLMを選択する二段階のプロンプトルーティングアーキテクチャを提案する。
ステージ1では、グラフベースのクラスタリングを用いて潜在的なタスクタイプを発見し、これらのタスクへプロンプトを割り当てる分類器を学習させ、細粒度なタスク理解を可能にする。
ステージ2では、タスク特異的予測ヘッドを備えたエキスパートの混成モデルを用いて、専門的な品質推定を提供し、推論時には両ステージの出力を統合して安定性と適応性のバランスを取る。
10のベンチマークと11の先端モデルを用いた評価により、本手法は既存のベースラインおよび最も強力な個別モデルを一貫して上回る一方で、コストはそれらの半分未満に抑えられることが示された。

Abstract

Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

新しいAIエージェントのプリミティブ: ポリシーには独自の言語が必要な理由（YAMLとRegoが抱える限界）

Dev.to

細粒度の潜在タスク発見によるスケーラブルなプロンプトルーティング

要点

Abstract

関連記事

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

新しいAIエージェントのプリミティブ: ポリシーには独自の言語が必要な理由（YAMLとRegoが抱える限界）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

新しいAIエージェントのプリミティブ: ポリシーには独自の言語が必要な理由（YAMLとRegoが抱える限界）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ