限られたシミュレーション訓練下での探索・救助UAVミッションにおける目標条件付き強化学習のためのルールベース高位コーチング

arXiv cs.RO / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、探索・救助(SAR)シナリオを動機とするUAVミッションに対して、固定のルールベース高位アドバイザとオンラインの目標条件付き強化学習(RL)低位コントローラを組み合わせた階層型意思決定フレームワークを提案している。
  • 高位アドバイザは構造化されたタスク仕様からオフラインで決定論的なルールとしてコンパイルされており、推奨・回避アクションや状況(レジーム)依存の裁定重み付けにより、ミッションおよび安全を意識した解釈可能なガイダンスを提供する。
  • 低位RLは、限定的なシミュレーション訓練下(事前学習なしの厳格なデプロイ運用も含む)で、タスク定義の高密度報酬を用いてオンライン学習し、ルール由来のメタデータを加えたモード対応・優先度付きリプレイで経験を再利用する。
  • バッテリーを考慮したマルチゴール配送と、障害物が多い環境での移動目標配送の2タスクで評価した結果、衝突による終了を主に減らすことで初期の安全性とサンプル効率が向上しつつ、シナリオ固有のダイナミクスに対するオンライン適応能力も維持できることを示している。

概要: 本論文は、限られたシミュレーション訓練のもとで、捜索救助(SAR)シナリオに動機づけられた無人航空機(UAV)ミッションのための階層型意思決定フレームワークを提案する。このフレームワークは、固定ルールに基づく高レベル・アドバイザと、オンラインのゴール条件付き低レベル強化学習(RL)コントローラを組み合わせている。初期段階での適応力を強く試験するために、厳格な事前学習なしのデプロイ(運用)体制も併せて考慮する。高レベル・アドバイザは、構造化されたタスク仕様からオフラインで定義され、決定論的なルールとしてコンパイルされる。推薦される行動、回避される行動、体制(レジーム)に依存する調停(アービトレーション)重みを通じて、解釈可能で、ミッションおよび安全性を考慮した指針を提供する。低レベル・コントローラは、タスク定義に基づく密な報酬からオンラインで学習し、ルールに由来するメタデータで拡張された、モードを意識した優先度付きリプレイ機構によって経験を再利用する。提案フレームワークを2つのタスクで評価する:バッテリを考慮したマルチゴール配送と、障害物が多い環境での移動目標の配送である。両方のタスクにおいて、本手法は衝突による終了(ターミネーション)を主に減らすことで、初期の安全性とサンプル効率を向上させつつ、状況固有のダイナミクスに対してオンラインで適応する能力を維持する。