要旨: 大規模言語モデル(LLM)は自然言語理解において目覚ましい成果を上げてきましたが、単一エージェントとして動作する場合、その推論能力には依然として制限があります。この制限に対処するために、多数のモデルによる協調的な推論を円卓討論のような形式で可能にすることで、多機械エージェントによるディベート(Multi-Agent Debate, MAD)が提案されています。効果はあるものの、MADは関与するエージェントの数や頻繁に必要となる通信のために、計算上のオーバーヘッドが大きくなります。本論文では、レビュープロセスに着想を得た役割ベースの協調フレームワークであるMARS(Multi-Agent Review System)を提案します。MARSでは、著者エージェントが初期解を生成し、査読者エージェントがそれぞれ独立に判断とコメントを行い、メタ査読者がそれらのフィードバックを統合して最終決定を行い、さらに修正を導きます。この設計により、費用のかかる査読者同士の相互作用を避けつつ、推論の品質を高められるため、トークン消費と推論時間を制御できます。複数のベンチマークにおいて、MARSをMADおよび他の最先端の推論戦略と比較しました。異なるLLMを用いた大規模な実験の結果、MARSはMADと同等の精度を達成しつつ、トークン使用量と推論時間の両方を約50 extbackslash %削減できることが示されました。コードは https://github.com/xwang97/MARS で公開されています。
MARS:LLM推論のためのより効率的なマルチエージェント協調に向けて
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単一エージェントの性能限界を超えてLLM推論を改善するための、役割ベースのマルチエージェント協調フレームワークであるMARSを提案する。
- Multi-Agent Debate(MAD)とは異なり、MARSは著者エージェントに加えて独立した査読者エージェント、そしてメタ査読者を用いてフィードバックを統合し、査読者同士の高コストなやり取りを回避する。
- 複数のベンチマークにおける実験の結果、MARSはMADと同等の精度を達成しつつ、トークン使用量と推論時間を約50%削減する。
- 著者らは実装コードをGitHub上で公開しており、提案手法の再現やさらなる発展を可能にしている。
