近視的な選択から長期視野の認識へ：多ターン対話のための逐次LLMルーティング

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、単一ターン選択向けに最適化されたLLMルーティング手法は、多ターン対話では報酬が遅延することや対話の相互作用が長期的な効果を生むことにより、十分に機能しないと主張する。
代替となるLLMの選択によって生成される異なる対話分岐をMCTSで探索し、高い累積報酬を得られる軌跡から学習するDialRouterを提案する。
DialRouterはオフライン探索データから軽量なルーティング方策を学習し、さらに、デプロイ時のオンライン探索を避けるために検索ベースの将来状態近似を用いる。
オープンドメインおよびドメイン固有の両方の多ターン対話タスクにおいて、DialRouterはシングルLLMのベースラインや従来のルーティング手法に比べてタスク成功率を改善する。
その手法は、コストを考慮した報酬を用いることで性能とコストのトレードオフもより良くし、オープンソース／クローズドソースのLLMにまたがる候補集合においても同様の改善が見られる。

要旨: 多ターン対話は、大規模言語モデル（LLM）とのやり取りにおける支配的な形式である。LLMルーティングは単一ターンの設定では効果的である一方、既存手法は相互作用のダイナミクスや遅延した報酬のために、多ターン対話における累積的な性能を最大化できない。この課題に対処するため、近視眼的な単一ターン選択から、多ターン対話のための長期ホライズンの逐次ルーティングへと移行する。それに基づき、我々は DialRouter を提案する。DialRouter はまず MCTS を実行して、異なる LLM 選択によって誘発される対話分岐を探索し、高い累積報酬を持つ軌跡を収集する。次に DialRouter は、探索から得られるデータから軽量なルーティング方策を学習し、検索ベースの将来状態近似によって拡張することで、オンライン探索なしで多ターンのルーティングを可能にする。多様な候補集合にわたる、オープンソースおよびクローズドソースの LLM の両方について、オープン領域とドメイン固有の対話タスクの両方で行った実験により、DialRouter はタスク成功率において、単一の LLM および既存のルーティング基準を大きく上回ることを示す。さらに、コストを考慮した報酬と組み合わせた場合に、性能とコストのトレードオフでも優れた結果を達成する。

Black Hat Asia

AI Business

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

Copilotで3つのAIモードを使い分けて仕事をより迅速に

日経XTECH

ローカルAIが最強

Reddit r/LocalLLaMA

AI教育を2億5000万人の学生にスケールするための経済学

Dev.to

近視的な選択から長期視野の認識へ：多ターン対話のための逐次LLMルーティング

要点

関連記事

Black Hat Asia

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

Copilotで3つのAIモードを使い分けて仕事をより迅速に

ローカルAIが最強

AI教育を2億5000万人の学生にスケールするための経済学

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

Copilotで3つのAIモードを使い分けて仕事をより迅速に

ローカルAIが最強

AI教育を2億5000万人の学生にスケールするための経済学

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減