HAVEN：階層的な敵対者を意識した視界対応型ナビゲーション—ディープ・トランスフォーマーQネットワークによるカバー活用

arXiv cs.RO / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、現在のセンサー入力だけに依存せず、遮蔽（オクルージョン）や限られた視野（FoV）のもとでの安全な意思決定を行う自律航法を扱います。
階層型フレームワークとして、ディープ・トランスフォーマーQネットワーク（DTQN）を高レベルのサブゴール選択器に用い、選択したウェイポイントを実行するモジュール型の低レベル制御器を組み合わせます。
DTQNのサブゴール候補生成は、マスキングと露出ペナルティにより視界を考慮するよう設計され、カバーの利用と先読みした安全性を促します。
低レベルはポテンシャル場コントローラでサブゴールを追跡し、短い時間範囲での滑らかな障害物回避を実現します。
2Dシミュレーションと3DのUnity-ROS環境（点群知覚を同一の特徴スキーマへ射影して、アーキテクチャ変更なしに移植）で検証した結果、古典的プランナや強化学習のベースラインより成功率・安全マージン・目標到達時間が一貫して改善し、アブレーションから時間的メモリと視界対応設計の有効性が裏付けられました。

要旨: 部分的に観測可能な環境における自律移動では、エージェントが即時のセンサ入力を超えて推論し、遮蔽を活用し、目標に向かって進みながら安全性を確保する必要があります。これらの課題は、都市部の運転や倉庫自動化から防衛や監視に至るまで、多くのロボティクス領域で生じます。古典的な経路計画アプローチや、記憶のない強化学習は、限られた視野（FoV）や遮蔽の下ではしばしば失敗し、安全ではない、または非効率な操縦に固執します。本研究では、上位のサブゴール選択器としてDeep Transformer Q-Network（DTQN）を統合し、ウェイポイント実行のためのモジュール型低レベル制御器を組み合わせた階層型ナビゲーションの枠組みを提案します。DTQNは、タスクに応じた特徴の短い履歴を入力として受け取り、オドメトリ、目標方向、障害物の近接度、可視性の手がかりをエンコードし、候補サブゴールを順位付けするためのQ値を出力します。可視性を考慮した候補生成では、マスキングと露出ペナルティを導入し、遮蔽の利用や先読みした安全性を報酬します。続いて、低レベルのポテンシャル場コントローラが選択されたサブゴールを追跡し、滑らかな短い予見範囲での障害物回避を保証します。提案手法を2Dシミュレーションで検証し、さらに点群知覚を同一の特徴スキーマに投影することで、建築変更なしに3DのUnity-ROS環境へ直接拡張します。結果は、成功率、安全マージン、目標到達までの時間において、古典的な計画手法および強化学習のベースラインに対して一貫した改善を示し、アブレーションにより時間的メモリと可視性を考慮した候補設計の価値が確認されました。これらの知見は、不確実性の下で安全な移動を行うための、一般化可能な枠組みを示しており、ロボットプラットフォーム全般に幅広い関連性があります。