Select-then-Solve:LLMエージェントにおける推論時最適化としてのパラダイムルーティング
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、LLMエージェントに対する推論時の推論パラダイム6種類(Direct、CoT、ReAct、Plan-Execute、Reflection、ReCode)を、4つの最先端モデルと10のベンチマークにわたって比較し、一部のパラダイムが特定のタスクでは性能を向上させる一方で、他のパラダイムは大きく低下させることを示しています。
- 結果は、普遍的に最良な推論パラダイムが存在しないことを明らかにしています(例:ReActはDirectに比べてGAIAを44pp改善する一方で、CoTはHumanEvalを15pp低下させます)。これは、タスク依存の強い相補性を示唆しています。
- 「タスクごとのオラクル選択」アプローチでは、最良の固定パラダイム単体に対して平均17.1ppの改善が得られ、タスクごとに適切なパラダイムを選ぶことが重要であることを示しています。
- 論文では、軽量な埋め込みベースのルータが各タスクに対して最適なパラダイムを選択する「select-then-solve」を提案しています。4つのモデルにおいて平均精度は47.6%から53.1%へと向上し、オラクルギャップの最大37%を回復します。さらに、最良の固定パラダイムを2.8pp上回ります。
- 著者らは、ゼロショットの自己ルーティングは信頼性が低いことを見出しています(GPT-5では67.1%でのみ有効であり、より弱いモデルではそれ以下)。このことは、タスクごとのパラダイム選択に学習されたルータが必要であることを裏付けています。



