ポテンシャルベースのリワードシェーピング、制御リャプノフ関数(CLF)、障壁関数(CBF)によるゼロショットで安全かつ時間効率の高いUAVナビゲーション

arXiv cs.RO / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、UAVの自律航行と障害物回避の課題に焦点を当て、従来の制御法が複雑で変動する環境で苦戦しうる点を指摘している。
  • ポテンシャルベースのリワードシェーピング(PBRS)と、制御リャプノフ関数(CLF)および制御障壁関数(CBF)を統合し、ミッション時間の最適化と形式的な安全保証を同時に実現することを提案している。
  • 一般化された単純な環境で強化学習(RL)モデルを学習し、その後はCLF–CBF–QPフィルタを用いて複雑なシナリオに追加学習なしで適用する枠組みになっている。
  • シミュレーション実験では、ミッション時間の大幅な短縮と、複雑環境での優れた性能が示された。
  • 全体として、本研究は安全性が重要な制御に対して構造化された形式的制約を学習システムへ組み込むことで、RLの適応性と安全要件の両立を目指している。

Abstract

自律航行と障害物回避は、現代の無人航空機(UAV)の中核的な課題であり続けています。従来の制御手法は環境の複雑さや変動性に対して苦戦する一方、強化学習(RL)により、UAVは環境との相互作用を通じて適応的な行動を学習できます。既存のRL研究では、UAVの安全性とミッション時間を犠牲にしてミッション成功を優先する傾向があります。本研究では、ミッション時間を同時に最適化し、形式的な安全性の保証を確実にするために、潜在ベース報酬シェーピング(Potential Based Reward Shaping: PBRS)を制御リャプノフ関数(Control Lyapunov Functions: CLF)および制御バリア関数(Control Barrier Functions: CBF)と統合します。RLモデルは一般化された単純環境で学習され、その後、追加の学習なしでCLF-CBF-QPフィルタを組み込んだ複雑なシナリオに用いられます。シミュレーション環境での実験結果は、ミッション時間の大幅な削減と、複雑環境における優れた性能を示しています。