MARLからSARLへ:潜在コンセンサスによる順序不変マルチエージェント・トランスフォーマ

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、協調的MARLを階層的な単一エージェントの強化学習(SARL)定式化へと橋渡しする中央集権型アプローチであるConsensus Multi-Agent Transformer(CMAT)を提案する。Transformerを用いて大規模な同時観測(ジョイント観測)空間を扱うことで、MARLとSARLのギャップを埋める。
  • CMATは自己回帰型Transformerデコーダにより、高レベルの潜在「コンセンサス」ベクトルを生成する。これにより、エージェントは順序に依存しない形でジョイントな意思決定を行え、従来の行動列に敏感なマルチエージェント・トランスフォーマに比べて頑健性が向上する。
  • 潜在コンセンサスに条件付けすることで、同時に行うエージェントの行動を学習可能となり、協調した振る舞いを維持したまま単一エージェント向けPPO(Proximal Policy Optimization)によるジョイントな方策最適化を可能にする。
  • StarCraft II、Multi-Agent MuJoCo、Google Research Footballでの実験により、CMATが近年の中央集権型手法、逐次型MARLアプローチ、標準的なMARLベースラインを上回ることが示される。
  • 著者らは、公開GitHubリポジトリにてCMATのオープンソース実装を提供しており、再現やさらなる実験を容易にしている。

Abstract

協調型マルチエージェント強化学習(MARL)は、集中制御問題を複数の相互作用するエージェントへ分解することで、大規模な共同の観測空間および行動空間に対処するために広く用いられています。しかし、そのような分解はしばしば、非定常性、不安定な学習、弱い協調、限られた理論的保証といった追加の課題を導入します。本論文では、協調型MARLを階層的な単一エージェント強化学習(SARL)定式化へ橋渡しする集中型フレームワークであるConsensus Multi-Agent Transformer(CMAT)を提案します。CMATは、すべてのエージェントを統一された一つのエンティティとして扱い、大規模な共同観測空間を処理するためにTransformerエンコーダを用います。広大な共同行動空間に対処するために、本研究では階層的意思決定メカニズムを導入します。このメカニズムでは、Transformerデコーダが自己回帰的に高レベルのコンセンサスベクトルを生成し、潜在空間においてエージェントが自らの戦略について合意に至る過程を模倣します。このコンセンサスに条件付けることで、すべてのエージェントが同時に行動を生成し、順序に依存しない共同の意思決定を可能にし、従来のマルチエージェントTransformer(MAT)における行動生成順序への感度を回避します。この因数分解により、潜在コンセンサスによる表現力のある協調を維持しつつ、共同方策を単一エージェントPPOで最適化できます。提案手法を評価するために、StarCraft II、Multi-Agent MuJoCo、Google Research Football のベンチマーク課題に対して実験を行います。結果として、CMATは、近年の集中型ソリューション、逐次型MARL手法、および従来のMARLベースラインよりも優れた性能を達成することが示されます。本論文のコードは以下で公開されています: https://github.com/RS2002/CMAT .