SkyNet:部分観測確率ゲームにおける信念を考慮した計画
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、完全情報ゲームでは有効なMuZero型のモデルベース強化学習が、部分観測の確率的マルチプレイヤー環境では、潜在表現が隠れ状態に対する不確実性を明示的に表す方法を欠いているために難しくなると主張する。
- 標準的なMuZeroのアーキテクチャは維持しつつ、補助ヘッドとして「自分(ego)に条件付けした」勝者予測および順位推定を追加することで、部分観測下でも潜在状態を結果予測により結びつけるSkyNet(Belief-Aware MuZero)を提案する。
- 著者らは、部分観測で非ゼロ和、確率的なカードゲームであるSkyjoにおいてSkyNetを評価し、トランスフォーマーによる符号化、意思決定の粒度、ならびにヒューリスティックな対戦相手との自己対戦を用いたカリキュラムを用いる。
- 1000ゲームの対戦(ヘッド・トゥ・ヘッド)評価では、SkyNetはベースラインに対して最高勝率75.3%を達成し、これは+194 Eloの改善に相当する。さらにヒューリスティック対戦相手に対しても大幅な向上が示される。
- 本研究はSkyNetが当初、学習ダイナミクスの影響で性能が低くなるものの、学習スループットが十分になった後にベースラインを上回ることを見出し、信念を考慮した補助的な教師信号が、データの流れが適切に確保される場合に表現を改善することを示唆する。



