RouteNLP:適合的カスケーディングと蒸留の共同最適化によるクローズドループLLMルーティング

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • RouteNLPは、NLPの問い合わせを段階的なモデル群の中でルーティングし、推論コストを削減しつつタスクごとの品質要件を満たすクローズドループのLLMルーティング手法です。
  • 難易度に応じたルータ(選好データと品質シグナルで学習)に加えて、分布に依存しない閾値の初期化に適合予測(conformal prediction)を用いる信頼度キャリブレーション付きカスケーディング、そしてエスカレーション失敗を起点に安価なモデルへ重点的に蒸留してルータを自動再学習する共同最適化ループを組み合わせます。
  • 8週間の企業向けパイロット(1日約5Kクエリ)では、推論コストを58%削減しながら応答受理率を91%に維持し、p99レイテンシを1,847msから387msへ大幅に改善しました。
  • 6タスクのベンチマーク(金融、カスタマーサービス、法務領域)では、40–85%のコスト削減を実現しつつ品質を高水準で維持(構造化タスク96–100%、生成タスク96–98%)し、人手評価ではルーティングされた生成出力の74.5%がフロンティアモデルに匹敵、または上回る結果でした。

Abstract

多様なNLPワークロードを大規模言語モデルで提供することはコストがかかります。あるエンタープライズ・パートナーでは、クエリの70%以上が、より小型のモデルでも十分に対応可能な日常的なタスクであるにもかかわらず、推論コストが月額20万ドルを超えていました。本稿では、タスクごとの品質制約を満たしつつコストを最小化するために、段階的なモデル群(ポートフォリオ)間でクエリをルーティングするクローズドループ・フレームワークRouteNLPを提案します。このフレームワークは3つのコンポーネントを統合します。すなわち、嗜好データと品質シグナルで学習される、タスク条件付き表現を共有する難易度対応ルーター。次に、分布非依存のしきい値初期化に conformal prediction を用いる、信頼度キャリブレーション付きのカスケーディング。さらに、エスカレーション失敗をクラスタリングし、より安価なモデルに対して的を絞った知識蒸留を適用し、自動的にルーターを再学習する、蒸留ルーティングの共同最適化ループです。これにより、対象を絞らない蒸留と比べて2倍以上のコスト改善が得られます。8週間のパイロット導入では、エンタープライズのカスタマーサービス部門で1日あたり約5K件のクエリを処理し、RouteNLPは応答受理率91%を維持しながら推論コストを58%削減し、p99レイテンシを1,847 msから387 msにまで低減しました。finance、customer service、legalという6つのタスクからなるベンチマークでは、このフレームワークは構造化タスクで96-100%、生成タスクで96-98%の品質を維持しつつ、40-85%のコスト削減を達成します。人手による評価では、ルーティングされた生成出力の74.5%がフロンティアモデルの品質に一致、またはそれを上回ることが確認されています。