衛星チェイサー:軌道上の知的な敵対者を相手にするための、発散型敵対的強化学習

arXiv cs.RO / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、空間が混雑・競争化する中で、衛星同士が能動的に追跡するような敵対的状況において既存の自律マルチエージェント手法(経路計画や長距離軌道操縦)が十分に機能していないと指摘している。
  • 提案はDivergent Adversarial Reinforcement Learning(DARL)で、複数の敵対宇宙機に対して回避戦略を訓練する二段階のマルチエージェント強化学習アプローチである。
  • DARLは敵対側の行動を多様化させることで訓練時の探索を高め、その結果「回避側」モデルがより頑健で適応的になると述べている。
  • 検証では、部分観測の「ねこ・ねずみ」衛星シナリオを、2体の「ねこ」宇宙機が1体の「ねずみ」回避機を狙うキャプチャー・ザ・フラッグ型ゲームとしてモデル化し評価している。
  • 実験ではDARLを、最適化ベースの衛星経路プランナーを含む複数のベンチマークと比較し、敵対的なマルチエージェント軌道環境に対して高い頑健性を示すことを報告している。