多様な報酬シェーピングをもつ疎報酬タスクにおけるゼロショット協調

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多数の強化学習エージェントによるZero-Shot Coordination（ZSC）を扱い、未知の相手エージェントと協調する能力を学習することを目的としています。
既存のZSC手法は、学習時のエージェントと将来の協調相手の報酬関数が同一であることを前提にしがちですが、著者らは疎報酬タスクではそれが現実的でないと指摘しています。
報酬シェーピングが異なる相手に対して頑健にするため、著者らは4つの選択アルゴリズムを用いてランダム化した報酬シェーピングを選び、複数手法のアンサンブルとして学習する方法を提案しています。
Overcooked環境での実験では、疎な目的は同一だが報酬シェーピングが異なる相手と対戦した場合に、ベースラインZSC手法に比べて疎報酬が62.2%〜119.2%改善するなど、安定した効果が示されています。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu