FiLM-Nav：VLM微調整による効率的で汎用性の高いナビゲーション

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

FiLM-Navは、VLMをゼロショットでのみ用いたり、地図への注釈のような補助タスクに使ったりするのではなく、ナビゲーション方策として事前学習済みのビジョン・ランゲージ・モデルを直接微調整する。
この手法は、生の視覚的な軌跡履歴と、自由形式のナビゲーション目標を条件として与え、身体化されたナビゲーションにおいて次に最適な探索フロンティアを選択する方法を学習する。
目標駆動の移動に必要な、特定のダイナミクスと視覚パターンに対してVLMの汎用的表現を基礎付けるために、狙いを定めたシミュレーション上の身体化体験を用いる。
ObjectNav、OVON、ImageNavを含む多様なシミュレーションデータの混合による微調整に加え、補助的な空間推論タスクを行うことが、頑健性と幅広い汎用化にとって重要であることが示される。
本手法は、HM3DのObjectNav（オープンボキャブラリ手法）において新たな最先端の結果を報告し、さらにHM3D-OVONでSPLの最先端の結果を報告する。未見の物体カテゴリへの強い汎用化も含まれる。

Abstract

自由形式の言語で記述された対象物を見つけ、複雑な環境をナビゲートできるようにするロボット支援者の能力は、実環境での導入に向けた重要な機能である。基盤モデル、特に視覚言語モデル（VLM）は強力な意味理解を提供するが、ウェブ規模の知識を体のある行動（embodied decision-making）に効果的に適応させることは、依然として主要な課題である。我々は、事前学習済みVLMをナビゲーション方策として直接微調整するアプローチであるFiLM-Nav（Fine-tuned Language Model for Navigation）を提案する。基盤モデルを主にゼロショットの形で用いる、あるいは地図の注釈付けに用いる手法とは対照的に、FiLM-Navは、生の視覚的トラジェクトリ履歴とナビゲーション目標に直接条件付けることで、次に最適な探索フロンティア（探索の手掛かりとなる未探索領域の先端）を選択することを学習する。特定の対象に絞った模擬体験（simulated embodied experience）を活用することで、VLMは、その強力な事前学習表現を、目標駆動型ナビゲーションに関連する特定のダイナミクスと視覚パターンに結び付けることができる。重要なのは、ObjectNav、OVON、ImageNav、ならびに補助的な空間推論タスクを多様なデータ混合として組み合わせて微調整することが、頑健性と幅広い汎化を達成するうえで不可欠であることを示す点である。FiLM-Navは、オープンボキャブラリ方式の中で、HM3D ObjectNavにおいてSPLと成功率の両方で新たな最先端（state-of-the-art）を達成し、さらに困難なHM3D-OVONベンチマークではSPLにおける最先端を達成することで、未見の対象カテゴリへの強い汎化を実証する。我々の研究は、多様な模擬体験データに対してVLMを直接微調整することが、汎化可能で効率的なセマンティックナビゲーション能力へ向けた非常に有効な道筋であることを裏付けている。