深層強化学習による予測的時空間観測を用いた分散型エンドツーエンド・マルチAAV追跡

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、分散型エンドツーエンドMARLフレームワークを提示し、取得したLiDARの生データをそのまま連続制御指令へ変換することで、障害物が多く部分的に観測しかできない環境における自律飛行ドローンの群れを制御する。
  • 障害物の幾何形状、予測される敵対的な意図、味方の動きを統一的に表現し、知覚上の不確実性への対応力を高めるための、エゴセントリックで固定解像度の格子表現であるPredictive Spatio-Temporal Observation(PSTO)を導入する。
  • PSTOを用いて学習した単一の分散ポリシーにより、静的障害物の回避、動的ターゲットの迎撃、包囲状態の維持といった複数の協調行動を支援できるよう設計されている。
  • シミュレーション結果では、特権的な障害物/状態情報に依存する先行の学習ベース手法に比べて、捕捉効率と成功率が向上したことが示される。
  • 著者らは、同一の統一ポリシーが再学習なしで異なるチーム規模間に転移可能であることを報告しており、オンボードのセンシングと計算のみを用いた完全自律の屋外クアッドローター群実験によって検証している。

要旨: 整然としない環境における分散協調的な追跡は、自律飛行ドローン・スウォームにとって特に、部分的でノイズのある知覚の下では困難です。既存手法の多くは、抽象化された幾何学的特徴や、特権的に得られる正解状態に依存しているため、現実の環境における知覚の不確実性を回避する形になっています。そこで本研究では、ラベル付きデータからなる直接入力として生のLiDAR観測を連続制御コマンドへ写像する、分散型エンドツーエンドのマルチエージェント強化学習(MARL)フレームワークを提案します。このフレームワークの中核は、予測的スパティオ・テンポラル観測(Predictive Spatio-Temporal Observation: PSTO)であり、障害物の幾何形状を予測的な敵対的意図および味方(チームメイト)の運動に整合させる、エゴセントリックなグリッド表現です。これを、統一された固定解像度の投影のもとで行います。PSTOに基づき、単一の分散ポリシーが、静的障害物の回避、動的ターゲットの迎撃、そして協調的な包囲の維持を可能にします。シミュレーションにより、提案手法が、特権的な障害物情報に依存する最先端の学習ベース手法と比べて、捕捉効率および成功率で優れていることが示されます。さらに、この統一ポリシーは再学習なしで、異なるチーム規模に対してシームレスにスケールします。最後に、完全自律の屋外実験により、本フレームワークが、オンボードのセンシングと計算のみを用いるクアッドロータースウォームで検証されました。