自己予測表現による自律UAVのオブジェクト目標ナビゲーション

arXiv cs.RO / 2026/4/24

📰 ニュースModels & Research

要点

  • 本論文は、自律UAVのための3Dオブジェクト目標ナビゲーションに強化学習を用いる手法を提案し、未知の目標位置をマルコフ決定過程として明確にモデル化しています。
  • 特に目標認識がオブジェクト目標ナビゲーション(OGN)を複雑にする状況で、良いナビゲーション方策を得る際のRLにおけるサンプル効率の課題に焦点を当てています。
  • 主な技術的貢献は知覚モジュールとして新しい自己予測モデル AmelPred を開発し、さらに確率版(AmelPredSto)も含めて状態表現学習を行う点です。
  • 実験では、状態表現学習(SRL)のさまざまな手法が、モデルフリーのアクタークリティック型強化学習の計画手法とどう相互作用するかを評価し、AmelPredSto が最も良い性能を示すと結論づけています。
  • AmelPredSto を用いることで、OGN課題の解決における強化学習アルゴリズムの効率が大きく改善されることが示されています。

Abstract

自律型無人航空機(UAV)は、航空監視、捜索救助、農業、配送などの用途における柔軟性によって、さまざまな産業を革新してきました。自律的な能力は、大規模な開けた空間環境で動作できるといった独自の利点をもたらします。強化学習(RL)は、UAVが複雑な航行方策を学習することを可能にし、自律的に飛行挙動を最適化できるようにします。しかし、その主な課題の1つは、良い方策を得るためにデータサンプルを用いる効率が低いことです。物体・ゴールナビゲーション(OGN)の設定では、目標認識が追加の課題となります。ほとんどのUAV関連アプローチは、目標を直接見つけるのではなく、初期位置から所定の場所へ移動するために、相対座標または絶対座標を用います。本研究は、3D OGN問題を解く際のデータサンプル効率の問題に取り組むとともに、未知の目標位置設定をマルコフ決定過程として形式化することを扱います。実験では、自律航行システムにおける計画のためのモデルフリーRLアルゴリズムと、知覚のための異なる状態表現学習(SRL)手法との相互作用を分析するために実施します。本研究の主な貢献は、AmelPredという新しい自己予測型モデルを特徴とする知覚モジュールの開発です。実証結果は、その確率版であるAmelPredStoが、アクター・クリティック型RLアルゴリズムと組み合わせた場合に最も高い性能を示すSRLモデルであることを示しています。得られた結果は、OGN問題を解く際にAmelPredStoを用いることで、RLアルゴリズムの効率が大幅に改善されることを示しています。