Dynamic-TD3:動的障害物の軌道予測を用いたUAVの経路計画のための新しいアルゴリズム

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、動的な脅威が存在する安全性が重要な環境を想定した、UAVの経路計画向けの深層強化学習フレームワーク「Dynamic-TD3」を提案している。
  • ナビゲーションをConstrained Markov Decision Process(CMDP)として定式化し、ラグランジュ緩和による二基準の方策で「ミッション効率」と「厳格な安全制約」の両立を図るとしている。
  • ATREMで障害物の長期的な意図(軌道上の見通し)を捉え、PAG-KF(物理を考慮したゲート付きカルマンフィルタ)で非定常な観測ノイズの影響を抑える工夫を組み込んでいる。
  • 攻撃的な動的脅威に対する実験では、衝突回避性能の向上、エネルギー消費の低減、滑らかな飛行軌道の実現が報告されている。

要旨: 深層強化学習(DRL)は、複雑で高リスクな環境における自律ドローンのナビゲーションに広く応用されています。しかし、その実運用においては、安全性と探索のジレンマに直面します。すなわち、ソフトなペナルティ機構は危険な試行錯誤を助長する一方で、ほとんどの制約ベース手法は、センサノイズや意図の不確実性の下で性能が劣化します。そこで本研究では、ナビゲーションを制約付きマルコフ決定過程(CMDP)としてモデル化することで機動性を維持しつつ、厳密な安全制約を強制する物理拡張フレームワークであるDynamic-TD3を提案します。このフレームワークは、遠距離の意図を捉えるために適応的軌道関係進化メカニズム(ATREM)を統合し、非定常な観測ノイズを抑えるために物理認識型ゲート付きカルマンフィルタ(PAG-KF)を用います。その結果得られる状態表現は、ラグランジュ緩和によって、ミッション効率と厳格な安全制約の両立を図る二基準の方策を導きます。攻撃的な動的脅威を用いた実験では、本アプローチが衝突回避において優れた性能を示し、エネルギー消費を低減し、より滑らかな飛行軌道を実現します。