マルチエージェント推論による計算効率の向上：テスト時スケーリングのパレート最適化

arXiv cs.AI / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの推論（学習なしのテスト時）におけるスケーリング手法として、自身の一貫性（self-consistency）、自己改善（self-refinement）、マルチエージェントの討論（debate）、混合エージェント（mixture-of-agents）を取り上げ、精度だけでなく計算コストとのトレードオフを重視して体系的に分析する。
MMLU-ProとBBHの2つの推論ベンチマークで、並列予測数・エージェント数・討論ラウンド数などを変えた34の構成と100回超の評価により、モデルサイズごとの影響を検証する。
パレート最適フロントを用いて「計算量が最小で精度が最大」の手法を特定し、最も高いテスト時予算（CoTの20倍）では、チェーン・オブ・ソートに対して最大+7.1ポイントの精度向上を示す。
同一の計算予算では、マルチエージェントの討論と混合エージェントがself-consistencyをそれぞれ1.3ポイント、2.7ポイント上回り、自己一貫性は早期に頭打ちになる一方で、マルチエージェントの利点は難しいタスクでより長く持続する。
実務的な指針として、mixture-of-agentsは「並列生成数が、逐次の集約（aggregation）回数を上回る」場合に最も効率的になりやすいと提案する。

Abstract

推論手法の進歩により、言語モデルは追加の学習なしで予測を改善できるようになりました。これらの手法はしばしば、費用対効果の高い計算資源の活用よりも、生の性能を優先します。しかし、計算効率は、資源制約のある実世界のアプリケーションにとって重要です。本稿では、自己一貫性（self-consistency）、自己洗練（self-refinement）、マルチエージェント討論（multi-agent debate）、混合型エージェント（mixture-of-agents）という推論スケーリング戦略について、計算性能のトレードオフを調べるための体系的な分析を提供します。2つの推論ベンチマーク（MMLU-Pro、BBH）で手法を評価し、異なるモデルサイズにわたって、（並列の予測数、エージェント数、討論ラウンド数などの）大規模なパラメータ構成を含めます。全34の構成に対して100回超の評価を行い、最小の計算予算で最良の精度を達成する手法を選ぶために、パレート最適フロントを計算します。注目すべき点として、推論スケーリングは、MMLU-Proにおいて、最も高い評価予算（CoT計算予算の20倍）でチェーン・オブ・ソート（chain-of-thought）に対して最大+7.1%ポイントの精度向上をもたらします。同一の計算予算では、討論（debate）と混合型エージェント（mixture-of-agents）が、それぞれ自己一貫性（self-consistency）を1.3%ポイントおよび2.7%ポイント上回ります。自己一貫性はより早い段階で頭打ちになりますが、特により複雑なタスクでは、マルチエージェントの利得が持続します。単純なマルチエージェント設計ガイドラインも特定します。すなわち、混合型エージェント（mixture-of-agents）は、並列生成の数が逐次的な集約（aggregation）の数を上回るときに最も効率的です。