近視的な選択から長期視野の認識へ:多ターン対話のための逐次LLMルーティング

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、単一ターン選択向けに最適化されたLLMルーティング手法は、多ターン対話では報酬が遅延することや対話の相互作用が長期的な効果を生むことにより、十分に機能しないと主張する。
  • 代替となるLLMの選択によって生成される異なる対話分岐をMCTSで探索し、高い累積報酬を得られる軌跡から学習するDialRouterを提案する。
  • DialRouterはオフライン探索データから軽量なルーティング方策を学習し、さらに、デプロイ時のオンライン探索を避けるために検索ベースの将来状態近似を用いる。
  • オープンドメインおよびドメイン固有の両方の多ターン対話タスクにおいて、DialRouterはシングルLLMのベースラインや従来のルーティング手法に比べてタスク成功率を改善する。
  • その手法は、コストを考慮した報酬を用いることで性能とコストのトレードオフもより良くし、オープンソース/クローズドソースのLLMにまたがる候補集合においても同様の改善が見られる。

要旨: 多ターン対話は、大規模言語モデル(LLM)とのやり取りにおける支配的な形式である。LLMルーティングは単一ターンの設定では効果的である一方、既存手法は相互作用のダイナミクスや遅延した報酬のために、多ターン対話における累積的な性能を最大化できない。 この課題に対処するため、近視眼的な単一ターン選択から、多ターン対話のための長期ホライズンの逐次ルーティングへと移行する。 それに基づき、我々は DialRouter を提案する。DialRouter はまず MCTS を実行して、異なる LLM 選択によって誘発される対話分岐を探索し、高い累積報酬を持つ軌跡を収集する。 次に DialRouter は、探索から得られるデータから軽量なルーティング方策を学習し、検索ベースの将来状態近似によって拡張することで、オンライン探索なしで多ターンのルーティングを可能にする。 多様な候補集合にわたる、オープンソースおよびクローズドソースの LLM の両方について、オープン領域とドメイン固有の対話タスクの両方で行った実験により、DialRouter はタスク成功率において、単一の LLM および既存のルーティング基準を大きく上回ることを示す。さらに、コストを考慮した報酬と組み合わせた場合に、性能とコストのトレードオフでも優れた結果を達成する。