マルチエージェント推論による計算効率の向上:テスト時スケーリングのパレート最適化
arXiv cs.AI / 2026/5/5
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの推論(学習なしのテスト時)におけるスケーリング手法として、自身の一貫性(self-consistency)、自己改善(self-refinement)、マルチエージェントの討論(debate)、混合エージェント(mixture-of-agents)を取り上げ、精度だけでなく計算コストとのトレードオフを重視して体系的に分析する。
- MMLU-ProとBBHの2つの推論ベンチマークで、並列予測数・エージェント数・討論ラウンド数などを変えた34の構成と100回超の評価により、モデルサイズごとの影響を検証する。
- パレート最適フロントを用いて「計算量が最小で精度が最大」の手法を特定し、最も高いテスト時予算(CoTの20倍)では、チェーン・オブ・ソートに対して最大+7.1ポイントの精度向上を示す。
- 同一の計算予算では、マルチエージェントの討論と混合エージェントがself-consistencyをそれぞれ1.3ポイント、2.7ポイント上回り、自己一貫性は早期に頭打ちになる一方で、マルチエージェントの利点は難しいタスクでより長く持続する。
- 実務的な指針として、mixture-of-agentsは「並列生成数が、逐次の集約(aggregation)回数を上回る」場合に最も効率的になりやすいと提案する。




