価値因数分解に基づくマルチエージェント強化学習における非最適な安定点を突破する
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、価値因数分解ベースのマルチエージェント強化学習(MARL)における重要な制約として、既存の理論や分析では収束が非最適解に至ることが十分に説明されていない点を扱う。
- 一般の(最適でない)場合に、価値因数分解がどこへ収束し得るかを特徴づける新しい理論的概念として「安定点」を導入し、非最適な安定点が主として貧弱な性能を引き起こしていることを示す。
- 著者らは、最適行動を唯一の安定点として強制することはほぼ不可能だと主張し、その代わりに、劣った行動を不安定にすることで逐次的にそれらを排除する方針を提案する。
- 支払い(パイオフ)の増分に基づく指標を用いて劣位の行動を不安定化し、より良い安定点へ学習を反復的に導く「Multi-Round Value Factorization(MRVF)」フレームワークを提示する。
- 捕食—被食ベンチマークおよびStarCraft II SMACにおける実験により、MRVFが安定点の分析を支持するだけでなく、最先端のMARL手法よりも優れた性能を示すことを示す。



