StratFormer:不完全情報ゲームにおける適応的な対戦相手モデリングと搾取

arXiv cs.AI / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、不完全情報ゲームにおいて対戦相手をモデル化しつつ搾取(エクスプロイト)することを目的とした、Transformerベースのメタエージェント「StratFormer」を提案している。
  • 2段階のカリキュラムにより、まず相手の行動履歴から行動パターンを学習しながらGTO(ゲーム理論的最適)ポリシーでプレイし、次に搾取可能性に基づく正則化スケジュールを用いてBR(ベストレスポンス)方向へ段階的に方策を移行する。
  • アーキテクチャではデュアルターン・トークンとバケットレート特徴を導入し、エージェントと相手の両方の意思決定ポイントにおける特徴を表現するとともに、5つの戦略文脈で相手の傾向を符号化する。
  • 実験ではLeduc Hold’em(6枚・2回のベットラウンドの小規模ポーカー)で6種類の相手アーキタイプを2水準で評価し、GTOに対して平均+0.106 BB/handの利得を達成し、搾取可能性が高い相手に対しては最大+0.821 BB/handのピーク利得が得られた。
  • 損失のリスクを抑えつつ、予測可能または弱い相手に対して期待性能を改善できることを示している。