ピア観察は役に立つか?視覚共有による視覚言語ナビゲーションの協調
arXiv cs.CV / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、エージェントが自分で訪れた場所からしか学習できないため部分観測の影響を受ける、視覚言語ナビゲーション(VLN)を対象としている。
- そのうえで、同時にナビゲーションを行う複数のエージェントが、ピア(仲間)から観察情報を交換することで改善できるかどうかを検証するための、ミニマリストでモデル非依存な枠組み Co-VLN を提案する。
- エージェントが共通して通過した位置を検出すると、追加の探索コストをかけずに各エージェントの受容野を効果的に拡張できるよう、構造化された知覚メモリを共有する。
- R2Rベンチマークでの実験では、学習ベース手法(DUET)およびゼロショット手法(MapGPT)の両方において、視覚共有による顕著な性能向上が示される。
- ピア観察の共有に関するダイナミクスを幅広く分析する実験により、協調的な身体化ナビゲーション研究のための土台が提供される。
