RouteNLP:適合的カスケーディングと蒸留の共同最適化によるクローズドループLLMルーティング
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- RouteNLPは、NLPの問い合わせを段階的なモデル群の中でルーティングし、推論コストを削減しつつタスクごとの品質要件を満たすクローズドループのLLMルーティング手法です。
- 難易度に応じたルータ(選好データと品質シグナルで学習)に加えて、分布に依存しない閾値の初期化に適合予測(conformal prediction)を用いる信頼度キャリブレーション付きカスケーディング、そしてエスカレーション失敗を起点に安価なモデルへ重点的に蒸留してルータを自動再学習する共同最適化ループを組み合わせます。
- 8週間の企業向けパイロット(1日約5Kクエリ)では、推論コストを58%削減しながら応答受理率を91%に維持し、p99レイテンシを1,847msから387msへ大幅に改善しました。
- 6タスクのベンチマーク(金融、カスタマーサービス、法務領域)では、40–85%のコスト削減を実現しつつ品質を高水準で維持(構造化タスク96–100%、生成タスク96–98%)し、人手評価ではルーティングされた生成出力の74.5%がフロンティアモデルに匹敵、または上回る結果でした。




