概要: Unityで実装した最小限の競争的マルチエージェント強化学習環境「Territory Paint Wars」を提示し、それを用いて自己対戦下における近位方策最適化(Proximal Policy Optimisation: PPO)の失敗モードを体系的に調査します。対称的なゼロサムゲームにおいて、84{,}000エピソードで学習した最初のエージェントは、一様にランダムな相手に対して達成できる勝率はわずか26.8\%にとどまります。制御されたアブレーションにより、実装レベルの失敗モードとして5つ――報酬スケール不均衡、終端信号の欠落、長期の信用割当が有効でないこと、正規化されていない観測、勝利判定の誤り――を特定します。これらはいずれも、この設定におけるこの失敗に致命的に寄与しています。
これらの問題を修正した後、別個の創発的な病理を見いだします。すなわち、競争的過学習(competitive overfitting)です。共適応するエージェント同士は自己対戦の性能を安定に維持する一方で、汎化の勝率は73.5\%から21.6\%へと急落します。重要なのは、この失敗が標準的な自己対戦指標では検出できないことです。両エージェントは同程度に共適応するため、自己対戦の勝率は崩壊の間中およそ50\%のまま維持されます。
我々は最小限の介入として、相手の混合(opponent mixing)を提案します。すなわち、学習エピソードのうち20\%で、共適応する相手の代わりに固定された一様にランダムな方策を用いる方法です。これにより、競争的過学習が緩和され、集団ベースの学習や追加のインフラなしで汎化が77.1\%(\pm 12.6\%, 10 seeds)へと回復します。我々は、競争的MARLの失敗モードを研究するための再現可能なベンチマークを提供するべく、Territory Paint Warsをオープンソースとして公開します。
Territory Paint Wars:競合するマルチエージェントPPOにおける失敗モードの診断と緩和
arXiv cs.LG / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Territory Paint Wars は、新しく公開された Unity ベースの競合型マルチエージェント強化学習ベンチマークであり、対戦(self-play)下で PPO が対称なゼロサム設定においてどのように失敗しうるかを研究するために用いられます。
- 本研究では、PPO/実装における主要な 5 つの失敗モード――報酬スケールの不均衡、終端信号の欠落、長い時間範囲でのクレジット割り当ての不備、観測の未正規化、勝敗判定の誤り――が、学習を十分に長く行っても勝率を大幅に低下させ得ることを見出します。
- これらの問題を修正した後、著者らは別の創発的な問題である「競合オーバーフィッティング(competitive overfitting)」を特定します。ここでは、self-play における勝率は安定して見える一方で、汎化性能が劇的に崩壊します。
- 本論文は、両エージェントが共同適応(co-adapt)するため、標準的な self-play の指標では競合オーバーフィッティングを検出できない可能性があることを示しています。その結果、self-play の性能は偶然(chance)付近に保たれます。
- 最小限の緩和策として、対戦相手の混合(学習エピソードの 20% を固定された一様ランダムな対戦相手に置き換える)を行うと、追加のインフラや集団ベースの学習(population-based training)を必要とせずに、汎化が大幅に回復します。さらに、再現性のためにこのベンチマークはオープンソース化されています。




