等しい思考トークン予算下でのマルチホップ推論において、単一エージェントLLMはマルチエージェント・システムを上回る

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データ処理不等式に基づく情報理論的な見方から、固定された推論トークン予算と完全なコンテキスト活用を前提とすると、単一エージェントLLM(SAS)は、マルチエージェント・システム(MAS)に対して少なくとも同等の情報効率を持つはずだと主張する。
  • ただし、SASのコンテキスト活用が低下する場合、またはMASにSASより多くの計算資源(compute)を許す場合に限って、MASが競争力を持つ(拮抗する)可能性があると予測している。
  • 著者らは、3つのモデルファミリ(Qwen3、DeepSeek-R1-Distill-Llama、Gemini 2.5)にまたがる制御された研究により、推論トークン数を一定に保ったとき、SASは一貫してMASに少なくとも同等、あるいは上回る性能を示すことを見出した。
  • 分析では、評価上のアーティファクト(とりわけGemini 2.5におけるAPIベースの予算制御、ならびに標準ベンチマーク)が、MASの優位を不当に(誤って)大きく見せてしまう可能性があることを特定している。
  • 著者らは、マルチエージェント手法によって報告される多くの利得は、本質的なアーキテクチャ上の利点というより、未考慮の計算量やコンテキスト効果によって主に説明されると結論づけ、計算資源・コンテキスト・調整(coordination)のトレードオフを明示的に制御する必要性を強調している。