ゲーム理論を用いた強化学習による国境防衛:解析解に基づく早期終了

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ゲーム理論の洞察と強化学習を組み合わせたハイブリッド手法を提案し、敵対的な国境防衛シナリオにおける学習効率を向上させる。
  • 検出後のフェーズにおける均衡を計算するためにアポロニウス円を活用し、RLエピソードの早期終了を可能にし、エージェントが探索戦略の学習に集中できるようにする。
  • 提案手法は、単一防衛者設定と複数防衛者設定の双方で評価され、報酬が10〜20%向上し、収束が速く、探索軌道がより効率的であることを示している。
  • このアプローチは、情報が不完全で知覚範囲が制限されている場合に、古典的な微分ゲーム解法の限界を緩和する。
  • 豊富な実験により、解析解に基づく早期終了が国境防衛のための強化学習を効果的に指導することが検証された。

要旨:
ゲーム理論は敵対的なエンゲージメントを分析するための最高基準を提供し、強力な最適性保証を与えます。しかし、これらの保証は、完全情報などの仮定が満たされない場合には脆くなることがあります。
対照的に、強化学習(RL)は適応性がありますが、大規模で複雑なドメインではサンプルの取得効率が悪くなることがあります。
本論文では、ゲーム理論的洞察を活用してRLのトレーニング効率を改善するハイブリッド手法を提案します。
限られた知覚範囲を持つ国境防衛ゲームを研究します。
防御者の性能は探索と追跡の戦略の両方に依存するため、古典的な微分ゲーム解法は適用できません。
提案手法は、アポロニウス円(AC)を用いて検出後の段階における平衡を計算し、追跡ダイナミクスを学習することなくRLエピソードを早期終了させることを可能にします。
これにより、RLは探索戦略の学習に集中しつつ、検出後の最適な継続を保証します。
単一の防御者設定および複数の防御者設定のいずれにおいても、この早期終了法は報酬を10-20%高く、収束を速くし、探索軌道をより効率的にします。
広範な実験によりこれらの結果を検証し、提案手法の全体的な有効性を示します。