GPSの劣化とスプーフィング下における小型UASの分離安全性を実現する頑健なマルチエージェント強化学習

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GPS信号が劣化またはスプーフィングされた場合に小型UAVの分離安全性を確保するための、頑健なマルチエージェント強化学習手法を提案する。
著者らは、破損したGPS由来の状態観測を、協調する複数のエージェントと、安全性性能を最大限に低下させるよう観測を擾乱する敵（アドバーサリ）のゼロ和ゲームとしてモデル化する。
敵対的学習（アドバーサリアル・トレーニング）を行わずに済むよう、最悪ケースの敵対的擾乱に対する閉形式の表現を導出し、評価を高速（線形時間）に可能にする。
精度および安全性の境界を提示し、この閉形式の擾乱が真の最悪ケースを二次精度で近似し、さらに性能劣化がKL正則化のもとで、破損確率に対して高々線形に増大することを示す。
高密度なシミュレーションでは、統合された「カウンターポリシー」により、破損確率が35%までの範囲で衝突率がほぼゼロとなり、非敵対的に学習したベースラインを上回る。

要旨: 本研究では、GPSの劣化およびスプーフィングのもとで小型無人航空機システム（sUAS）に対して頑健な分離保証を与えることに取り組む。協調型監視では、各航空機（またはエージェント）がGPSに基づく自己位置をブロードキャストするが、そのような位置ブロードキャストが破損すると、観測される空域の交通状態全体が信頼できなくなる。我々は、この状態観測の破損を、エージェントと敵対者（アドバーサリー）の間のゼロ和ゲームとして定式化する。確率Rのもとで敵対者は、各エージェントの安全性能を最大限に損なうように観測状態を摂動させる。さらに、敵対的トレーニングをまったく回避し、状態次元に対して線形時間で評価可能な、敵対的摂動に対する閉形式の表現を導出する。この表現が、真の最悪ケースの敵対的摂動を二次精度で近似することを示す。加えて、クリーンな観測と破損した観測の間の安全性能ギャップを、Kullback-Leibler正則化のもとで、破損確率に対して高々線形に悪化することを示す。最後に、この閉形式の敵対的方策をMARL（Multi-Agent Reinforcement Learning）のポリシー勾配アルゴリズムに統合し、エージェントに対する頑健なカウンターポリシーを得る。高密度なsUASのシミュレーションにおいて、破損レベルが最大35%までの条件で衝突率がほぼゼロとなり、敵対的摂動なしで学習したベースライン方策よりも優れた性能を示す。