要旨: 多段(multi-turn)かつ長期(long-horizon)のタスクは、大規模言語モデル(LLM)にとってますます一般的になっていますが、それらを解くには通常、多くの逐次的なモデル呼び出しが必要となり、推論コストが大きく累積します。ここでは、固定のコスト予算が与えられたもとで、モデルプールの中から各ターンでどのモデルを呼び出すかを選択する、コストを意識した多段LLMルーティングを研究します。私たちは MTRouter を提案します。これは、相互作用履歴と候補モデルを共同の履歴-モデル埋め込みとして符号化し、ログに記録された軌跡から結果推定器(アウトカム推定器)を学習して、ターン単位のモデル有用性を予測します。実験の結果、MTRouter は性能とコストのトレードオフを改善することが示されました。ScienceWorld では GPT-5 を上回り、総コストを 58.7% 削減します。Humanity's Last Exam (HLE) では、GPT-5 に対して総コストを 43.4% 削減しつつ競争力のある精度を達成し、さらにその改善は未使用の(held-out)タスクにも引き継がれます。追加の分析により、その有効性を支えるいくつかのメカニズムが明らかになりました。先行する多段ルータと比べて、MTRouter はモデルの切り替え回数が少なく、過渡的な誤りへの許容度が高く、モデル間で創発的な専門化が見られます。コード: https://github.com/ZhangYiqun018/MTRouter
MTRouter:履歴とモデルの共同埋め込みによるコスト制約付きマルチターンLLMルーティング
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、固定された推論コスト予算のもとで、各ターンごとにモデルプールからどのLLMを呼び出すかを選択する「コスト対応型ルーティング手法」MTRouterを提案している。
- MTRouterは会話履歴と候補モデルを共同の履歴–モデル埋め込みで表現し、ログされたトラジェクトリから各ターンのアウトカム(有用性)を予測する推定器を学習する。
- ScienceWorldの実験では、MTRouterがGPT-5を上回りつつ、総コストを58.7%削減した。
- Humanity’s Last Exam(HLE)でも、GPT-5比で総コストを43.4%削減しながら競争力のある精度を達成し、その効果はホールドアウト課題にも引き継がれる。
- 分析では、改善の要因としてモデル切替回数の減少、過渡的な誤りへの耐性の高さ、そしてモデル間での自発的な専門化(エマージェントなスペシャライゼーション)が挙げられている。



