Select-then-Solve:LLMエージェントにおける推論時最適化としてのパラダイムルーティング

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、LLMエージェントに対する推論時の推論パラダイム6種類(Direct、CoT、ReAct、Plan-Execute、Reflection、ReCode)を、4つの最先端モデルと10のベンチマークにわたって比較し、一部のパラダイムが特定のタスクでは性能を向上させる一方で、他のパラダイムは大きく低下させることを示しています。
  • 結果は、普遍的に最良な推論パラダイムが存在しないことを明らかにしています(例:ReActはDirectに比べてGAIAを44pp改善する一方で、CoTはHumanEvalを15pp低下させます)。これは、タスク依存の強い相補性を示唆しています。
  • 「タスクごとのオラクル選択」アプローチでは、最良の固定パラダイム単体に対して平均17.1ppの改善が得られ、タスクごとに適切なパラダイムを選ぶことが重要であることを示しています。
  • 論文では、軽量な埋め込みベースのルータが各タスクに対して最適なパラダイムを選択する「select-then-solve」を提案しています。4つのモデルにおいて平均精度は47.6%から53.1%へと向上し、オラクルギャップの最大37%を回復します。さらに、最良の固定パラダイムを2.8pp上回ります。
  • 著者らは、ゼロショットの自己ルーティングは信頼性が低いことを見出しています(GPT-5では67.1%でのみ有効であり、より弱いモデルではそれ以下)。このことは、タスクごとのパラダイム選択に学習されたルータが必要であることを裏付けています。

Abstract

LLMベースのエージェントがタスクを改善するとき、その向上はモデルそのものによるものなのか、それともそれに包まれた推論パラダイムによるものなのか? 私たちは、この問いを、推論時(inference-time)の6つのパラダイム、すなわち Direct、CoT、ReAct、Plan-Execute、Reflection、ReCode を、4つの最先端LLMと10のベンチマークにわたって比較することで調査します。実験は約18,000回の実行から構成されます。その結果、推論の構造は一部のタスクでは劇的に有効だが、他のタスクでは逆に悪化させることが分かりました。具体的には、ReAct は GAIA で Direct に比べて 44pp 改善する一方、CoT は HumanEval で 15pp パフォーマンスを低下させます。いかなる単一のパラダイムも支配的ではなく、タスクごとのオラクル的な選択は、最良の固定パラダイムに対して平均で 17.1pp 上回ります。この補完性に動機づけられ、select-then-solve(選択してから解く)アプローチを提案します。各タスクに回答する前に、軽量な埋め込みベースのルータが最も適したパラダイムを選択します。4つのモデルにおいて、ルータは平均精度を 47.6% から 53.1% に改善させ、最良の固定パラダイム(50.3%)を 2.8pp 上回ります。また、オラクル・ギャップの最大で37%を回復します。これに対し、ゼロショットの自己ルーティングは GPT-5 では 67.1% でのみ機能し、より弱いモデルでは失敗し、いずれも学習済みルータより劣ります。私たちの結果は、推論パラダイムの選択は、固定されたアーキテクチャの選択ではなく、学習されたルータによってタスクごとに行うべきだということを示しています。