FiLM-Nav:VLM微調整による効率的で汎用性の高いナビゲーション
arXiv cs.RO / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- FiLM-Navは、VLMをゼロショットでのみ用いたり、地図への注釈のような補助タスクに使ったりするのではなく、ナビゲーション方策として事前学習済みのビジョン・ランゲージ・モデルを直接微調整する。
- この手法は、生の視覚的な軌跡履歴と、自由形式のナビゲーション目標を条件として与え、身体化されたナビゲーションにおいて次に最適な探索フロンティアを選択する方法を学習する。
- 目標駆動の移動に必要な、特定のダイナミクスと視覚パターンに対してVLMの汎用的表現を基礎付けるために、狙いを定めたシミュレーション上の身体化体験を用いる。
- ObjectNav、OVON、ImageNavを含む多様なシミュレーションデータの混合による微調整に加え、補助的な空間推論タスクを行うことが、頑健性と幅広い汎用化にとって重要であることが示される。
- 本手法は、HM3DのObjectNav(オープンボキャブラリ手法)において新たな最先端の結果を報告し、さらにHM3D-OVONでSPLの最先端の結果を報告する。未見の物体カテゴリへの強い汎用化も含まれる。




