MTRouter：履歴とモデルの共同埋め込みによるコスト制約付きマルチターンLLMルーティング

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、固定された推論コスト予算のもとで、各ターンごとにモデルプールからどのLLMを呼び出すかを選択する「コスト対応型ルーティング手法」MTRouterを提案している。
MTRouterは会話履歴と候補モデルを共同の履歴–モデル埋め込みで表現し、ログされたトラジェクトリから各ターンのアウトカム（有用性）を予測する推定器を学習する。
ScienceWorldの実験では、MTRouterがGPT-5を上回りつつ、総コストを58.7%削減した。
Humanity’s Last Exam（HLE）でも、GPT-5比で総コストを43.4%削減しながら競争力のある精度を達成し、その効果はホールドアウト課題にも引き継がれる。
分析では、改善の要因としてモデル切替回数の減少、過渡的な誤りへの耐性の高さ、そしてモデル間での自発的な専門化（エマージェントなスペシャライゼーション）が挙げられている。

要旨: 多段（multi-turn）かつ長期（long-horizon）のタスクは、大規模言語モデル（LLM）にとってますます一般的になっていますが、それらを解くには通常、多くの逐次的なモデル呼び出しが必要となり、推論コストが大きく累積します。ここでは、固定のコスト予算が与えられたもとで、モデルプールの中から各ターンでどのモデルを呼び出すかを選択する、コストを意識した多段LLMルーティングを研究します。私たちは MTRouter を提案します。これは、相互作用履歴と候補モデルを共同の履歴-モデル埋め込みとして符号化し、ログに記録された軌跡から結果推定器（アウトカム推定器）を学習して、ターン単位のモデル有用性を予測します。実験の結果、MTRouter は性能とコストのトレードオフを改善することが示されました。ScienceWorld では GPT-5 を上回り、総コストを 58.7% 削減します。Humanity's Last Exam (HLE) では、GPT-5 に対して総コストを 43.4% 削減しつつ競争力のある精度を達成し、さらにその改善は未使用の（held-out）タスクにも引き継がれます。追加の分析により、その有効性を支えるいくつかのメカニズムが明らかになりました。先行する多段ルータと比べて、MTRouter はモデルの切り替え回数が少なく、過渡的な誤りへの許容度が高く、モデル間で創発的な専門化が見られます。コード: https://github.com/ZhangYiqun018/MTRouter

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

MarkTechPost

ADAMオプティマイザーの収束証明の改良

Dev.to

MTRouter：履歴とモデルの共同埋め込みによるコスト制約付きマルチターンLLMルーティング

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ