要約: ビジュアルナビゲーションモデル(VNM)は、大規模な視覚デモンストレーションから学習することで、汎用的なロボットの移動(ナビゲーション)を実現することを約束します。現実環境での導入が拡大しているにもかかわらず、既存の評価はほぼ成功率のみに依存しています。すなわち、ロボットが目標に到達したかどうかだけを見ており、これにより、軌道の質(trajectory quality)、衝突行動、環境変化に対する頑健性が隠れてしまっています。私たちは、2つのロボットプラットフォームと、屋内・屋外の状況にまたがる5つの環境において、5つの最先端VNM(GNM、ViNT、NoMaD、NaviBridger、CrossFormer)を用いた現実環境での評価を提示します。成功率に加えて、経路(パス)に基づく指標と、視覚に基づく目標認識スコアを組み合わせ、さらに制御した画像の摂動(モーションブラー、サンフレア)によって頑健性を評価します。分析の結果、3つの体系的な限界が明らかになりました:(a)アーキテクチャ的に洗練された拡散モデルやトランスフォーマーベースのモデルであっても衝突が頻発しており、幾何学的理解が十分でないことを示しています;(b)知覚的に類似した異なる場所を区別できず、しかし一部のセマンティクスの違いは存在するため、反復的な環境では目標予測の誤りが生じます;(c)分布シフトのもとで性能が低下します。再現可能なVNMのベンチマーキングを促進するために、評価コードベースとデータセットを公開します。
Vision Foundation Modelsは航行できるか?ゼロショットの実環境評価と学び
arXiv cs.LG / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、5つの最先端の視覚ナビゲーションモデル(GNM、ViNT、NoMaD、NaviBridger、CrossFormer)について、成功率だけに依存せず、2つのロボットプラットフォームと5つの屋内/屋外環境を用いた実環境でのゼロショット評価を提示する。
- ゴールに到達すること以上の、より豊かな評価を導入する。具体的には、経路ベースの指標、視覚に基づくゴール認識スコア、そしてモーションブラーやサンフレアといった制御された画像摂動を用いた頑健性テストを含む。
- 分析の結果、反復的な弱点が明らかになった。すなわち、幾何学的理解が限定的であることを示唆する頻繁な衝突、視覚的に似た場所を見分けることの難しさによるゴール予測エラー、そして分布シフト下での性能低下である。
- 著者らは、再現可能なベンチマークを支援するために、評価コードベースとデータセットを公開リリースする計画である。



