FineCog-Nav:きめ細かな認知モジュールを統合したゼロショットのマルチモーダルUAVナビゲーション

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • FineCog-Navは、UAVビジョン・ランゲージ・ナビゲーションのための新しいトップダウン型フレームワークで、言語・知覚・注意・記憶・想像・推論・意思決定といった細かな認知モジュールにタスクを分解します。
  • 各モジュールは、役割ごとのプロンプトと入出力の構造化されたプロトコルにより、モジュール間の連携を高め、解釈可能性を改善することを狙っています。
  • 300本の軌跡からなる新ベンチマークAerialVLN-Fineを導入し、指示文と軌跡の文レベル対応付け、さらに視覚的な到達点やランドマーク参照を明示した改良指示を含めています。
  • 実験では、FineCog-Navが指示遵守、長期ホライズン計画、未見環境への汎化において、ゼロショットのベースラインより一貫して良い性能を示すと報告されています。
  • 総じて著者らは、きめ細かな認知モジュール化が、汎用プロンプトや疎結合なコンポーネントに依存しがちな既存のゼロショットUAVマルチモーダルナビゲーションの限界を打開する有効な手段だと主張しています。

要旨: UAVの視覚言語ナビゲーション(VLN)では、エゴセントリックな視点から複雑な3D環境を、長いホライゾンにわたって曖昧な複数ステップの指示に従いながら移動するエージェントが必要となる。既存のゼロショット手法は依然として限定的である。多くの場合、大規模な基盤モデル、汎用的なプロンプト、そして疎に連携されたモジュールに依存しているためである。本研究では、人間の認知に着想を得たトップダウンの枠組みであるFineCog-Navを提案する。これはナビゲーションを、言語処理、知覚、注意、記憶、想像、推論、意思決定のためのきめ細かなモジュールに整理する。各モジュールは、役割に特化したプロンプトと、構造化された入出力プロトコルを伴う適度な規模の基盤モデルによって駆動される。これにより、効果的な協調と、向上した解釈可能性が実現される。きめ細かな評価を支えるために、AerialVLN-Fineを構築する。これは、AerialVLNから導出した300本のトラジェクトリからなる厳選ベンチマークであり、文レベルでの指示-トラジェクトリ整合を備え、明示的な視覚的到達点とランドマーク参照を含む洗練された指示が用意されている。実験の結果、FineCog-Navは、指示遵守、長ホライゾンの計画、未見の環境への汎化において、ゼロショットのベースラインを一貫して上回ることが示された。これらの結果は、ゼロショットの空中ナビゲーションに対する、きめ細かな認知モジュール化の有効性を示唆している。プロジェクトページ: https://smartdianlab.github.io/projects-FineCogNav.