TablutでAlphaZeroを再現する:非対称ボードゲームに対する自己対戦型RL

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、攻め手と守り手で目的が異なり、さらに駒数も不均等である非常に非対称なボードゲーム「Tablut」に、AlphaZero型の自己対戦強化学習を適用する方法を探求する。
  • 標準的なAlphaZeroの「単一のポリシー/価値ヘッド」構成は、評価関数の学習が互いに矛盾しやすい非対称環境ではうまく機能しない、と主張する。
  • 学習を改善するため、著者らはアーキテクチャを改良し、共通の盤面表現を捉えるための残差トランクを共有しつつ、プレイヤー役割ごとにそれぞれ別個のポリシー・価値ヘッドを用いる。
  • 学習は、役割間での壊滅的な忘却(catastrophic forgetting)により不安定になった。研究では、C4データ拡張、大きなリプレイバッファ、そしてチェックポイント混合戦略(過去のチェックポイントとゲームの25%を対戦)によってこの問題を緩和する。
  • 自己対戦を100イテレーション行った後、モデルは着実に改善し、ランダム初期化ベースラインに対してBayesElo 1235を達成する。さらに、学習指標は、ポリシーのエントロピーが低下することでより決断的なプレイが増えていることを示している。