一般和ゲームにおけるKL正則化による悲観性なしオフライン学習

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、一般和ゲームにおけるオフライン・マルチエージェント強化学習で問題となるログデータと目標平衡方策の分布ずれに取り組み、手作業で調整する悲観的ペナルティなしでもKL正則化が学習を安定化できることを示します。
General-sum Anchored Nash Equilibrium（GANE）を提案し、正則化されたナッシュ平衡を統計的に加速された率（おおよそ \(\tilde{O}(1/n)\)）で回復することを目指します。
計算可能性のために General-sum Anchored Mirror Descent（GAMD）を開発し、反復的な手法として粗相関平衡（Coarse Correlated Equilibrium）へ収束し、その率は標準的に \(\tilde{O}(1/\sqrt{n} + 1/T)\) になると示します。
全体として、この研究は複数プレイヤーの一般和ゲームにおいて、KL正則化を「悲観性なし」オフライン学習の単独メカニズムとして位置づけ、従来手法と同等またはそれ以上の率を達成できると結論づけています。

Reddit r/LocalLLaMA

Dev.to

Dev.to

Dev.to

Dev.to