学習によるコミュニケーション:マルチエージェント言語システムのエンドツーエンド最適化に向けて

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMベースのマルチエージェント研究が、エージェント間コミュニケーションを固定されたテキスト/プロトコル・インターフェースとして扱いがちであり、推論と共同最適化されていないと指摘しています。
  • 提案するDiffMASは、内部表現(key-valueキャッシュなど)を用いた潜在的(非テキスト)コミュニケーションを、マルチエージェントの学習可能な構成要素として扱います。
  • DiffMASは、マルチエージェントの潜在トラジェクトリに対するパラメータ効率の高い教師あり学習を行い、相互作用を通じて情報の符号化と解釈方法をエージェント同士で学習できるようにします。
  • 数学推論、科学系QA、コード生成、コモンセンス推論などの実験で、DiffMASは単一エージェント推論やテキストベースのマルチエージェント、既存の潜在コミュニケーション手法に比べて、推論精度とデコード安定性を一貫して改善したと報告されています。
  • 結果として、AIME24で26.7%、GPQA-Diamondで20.2%を達成し、複数の推論ベンチマークで安定した向上が示されています。

Abstract

大規模言語モデルに基づくマルチエージェントシステムは、複雑な推論タスクにおいて強い性能を示している一方で、多くの研究はエージェントの役割やオーケストレーションに焦点を当て、エージェント間通信を固定されたインターフェースとして扱っています。キー・バリューキャッシュなどの内部表現を通じた潜在的な通信は、テキストベースのプロトコルに代わる有望な手段ですが、既存の手法はマルチエージェント推論と通信を共同で最適化していません。そこで本研究では、潜在通信をマルチエージェントシステムの学習可能な構成要素として扱う学習フレームワークDiffMASを提案します。DiffMASは、マルチエージェントの潜在トラジェクトリに対してパラメータ効率の高い教師あり学習を実行し、相互作用を通じて情報をどのように符号化し解釈すべきかをエージェントが共同で学習できるようにします。数学的推論、科学QA、コード生成、常識ベンチマークに関する実験の結果、DiffMASは、単一エージェント推論、テキストベースのマルチエージェントシステム、ならびに既存の潜在通信手法と比較して、推論精度とデコーディングの安定性を一貫して改善することが示されました。具体的には、AIME24で26.7%、GPQA-Diamondで20.2%を達成し、推論ベンチマーク全体で一貫した向上が見られました。