CODA:オンポリシー・ディフュージョンによる協調(マルチエージェント・オフライン強化学習)

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オフラインのマルチエージェント強化学習(MARL)における協調失敗(静的なオフポリシーデータにより、最適でない共同行動へ収束しやすい問題)を抑えるための拡散ベースの手法CODAを提案する。
  • CODAは、訓練中の「現在の共同ポリシー」に条件付けて合成経験(軌跡)を生成し、静的なデータ拡張ではなくオンポリシー的な共同適応をより近く再現する。
  • この手法はアルゴリズムに依存せず、モデルフリー/モデルベースのオフラインRLパイプラインのいずれにもデータ拡張モジュールとして組み込める。
  • 実験では、連続多項式ゲームにおける典型的な協調病理を解消するだけでなく、より複雑なMaMuJoCo連続制御ベンチマークでも強い結果を示す。
  • 著者らは、従来の拡散によるデータ拡張がMARL協調に不十分なのは、訓練中に変化する共同ポリシーと歩調を合わせてデータが更新されないためだと指摘している。