CODA:オンポリシー・ディフュージョンによる協調(マルチエージェント・オフライン強化学習)
arXiv cs.LG / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オフラインのマルチエージェント強化学習(MARL)における協調失敗(静的なオフポリシーデータにより、最適でない共同行動へ収束しやすい問題)を抑えるための拡散ベースの手法CODAを提案する。
- CODAは、訓練中の「現在の共同ポリシー」に条件付けて合成経験(軌跡)を生成し、静的なデータ拡張ではなくオンポリシー的な共同適応をより近く再現する。
- この手法はアルゴリズムに依存せず、モデルフリー/モデルベースのオフラインRLパイプラインのいずれにもデータ拡張モジュールとして組み込める。
- 実験では、連続多項式ゲームにおける典型的な協調病理を解消するだけでなく、より複雑なMaMuJoCo連続制御ベンチマークでも強い結果を示す。
- 著者らは、従来の拡散によるデータ拡張がMARL協調に不十分なのは、訓練中に変化する共同ポリシーと歩調を合わせてデータが更新されないためだと指摘している。




