メモリマスキングによるマルチエージェント討論

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチエージェント討論(MAD)の推論性能が、先行する討論ラウンドから引き継がれる記憶の正確性に強く依存しており、誤った記憶がエージェントの推論を劣化させ得ると主張する。

概要: 大規模言語モデル(LLM)は、推論タスクにおいて近年目覚ましい能力を示しています。現在主流のLLM推論フレームワークは、主として推論時のサンプリングを拡大して性能を高めることに重点を置いています。とりわけ、すべてのLLM推論フレームワークの中で、多数のLLMをエージェントとして用い、討論を複数ラウンド行う方法に倣って推論を実施する*マルチエージェント・ディベート*(MAD)は、有力な推論パラダイムとして登場しています。これは、エージェントが過去のメモリにアクセスできるため、誤った内容を緩和しつつ、各討論ラウンドで推論を反復的に洗練できるからです。しかし、MADがLLMの推論能力を大幅に向上させる一方で、本論文では、誤ったメモリがなお残り得て、LLMエージェントがそれらの誤ったメモリに脆弱であることを観察します。この現象を探るために、MADの性能が前回の討論ラウンドから得られるメモリの質に強く依存しており、誤ったメモリがMADの性能に対する脅威となることを示す理論的洞察を提示します。

この問題に対処するために、シンプルかつ効果的なマルチエージェント・ディベートの枠組みである*メモリマスキング付きマルチエージェント・ディベート*(MAD-M^2)を提案します。MAD-M^2は、各討論ラウンドの開始時に、LLMエージェントが前回の討論ラウンドの誤ったメモリをマスクできるようにすることで、MADの頑健性を高めます。これによりMAD-M^2は、有益で意味のあるメモリを保持し、誤ったメモリを破棄することで、各討論ラウンドの前に文脈情報を磨き上げることができます。主流の数学的・論理的推論ベンチマークに対する大規模な実験と分析の結果から、MAD-M^2は誤ったメモリを特定でき、MADよりも推論においてより良い性能を達成できることが示されます。