ピア観察は役に立つか?視覚共有による視覚言語ナビゲーションの協調

arXiv cs.CV / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、エージェントが自分で訪れた場所からしか学習できないため部分観測の影響を受ける、視覚言語ナビゲーション(VLN)を対象としている。
  • そのうえで、同時にナビゲーションを行う複数のエージェントが、ピア(仲間)から観察情報を交換することで改善できるかどうかを検証するための、ミニマリストでモデル非依存な枠組み Co-VLN を提案する。
  • エージェントが共通して通過した位置を検出すると、追加の探索コストをかけずに各エージェントの受容野を効果的に拡張できるよう、構造化された知覚メモリを共有する。
  • R2Rベンチマークでの実験では、学習ベース手法(DUET)およびゼロショット手法(MapGPT)の両方において、視覚共有による顕著な性能向上が示される。
  • ピア観察の共有に関するダイナミクスを幅広く分析する実験により、協調的な身体化ナビゲーション研究のための土台が提供される。

Abstract

視覚・言語ナビゲーション(VLN)システムは、本質的に部分観測性によって制約されます。というのも、エージェントは自らが実際に訪れた場所からしか知識を蓄積できないからです。複数のロボットが共有環境内でますます共存するようになると、「同じ空間を移動するエージェント同士は、お互いの観測から利益を得られるのか?」という自然な疑問が生じます。本研究では、共時的に移動しているエージェントから得られるピア(同輩)観測が、VLNに対して“もし”“どのように”有益になり得るのかを、体系的に検証するための、ミニマルでモデル非依存の枠組みであるCo-VLNを提案します。独立に移動しているエージェントが、通過した共通の経路上の場所をそれぞれ特定すると、彼らは構造化された知覚メモリを交換でき、それによって探索コストを追加することなく、各エージェントの受容野(receptive field)を実質的に拡張します。本枠組みを、代表的な2つのパラダイム(学習ベースのDUETとゼロショットのMapGPT)において、R2Rベンチマークで検証し、さらに広範な分析実験によって、VLNにおけるピア観測共有の背後にあるダイナミクスを体系的に明らかにします。その結果、視覚共有を可能にしたモデルは、両パラダイムにわたり大幅な性能向上をもたらすことが示され、協調的な身体性のあるナビゲーションに関する今後の研究の強固な基盤が確立されました。