Vision Foundation Modelsは航行できるか？ゼロショットの実環境評価と学び

arXiv cs.LG / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、5つの最先端の視覚ナビゲーションモデル（GNM、ViNT、NoMaD、NaviBridger、CrossFormer）について、成功率だけに依存せず、2つのロボットプラットフォームと5つの屋内／屋外環境を用いた実環境でのゼロショット評価を提示する。
ゴールに到達すること以上の、より豊かな評価を導入する。具体的には、経路ベースの指標、視覚に基づくゴール認識スコア、そしてモーションブラーやサンフレアといった制御された画像摂動を用いた頑健性テストを含む。
分析の結果、反復的な弱点が明らかになった。すなわち、幾何学的理解が限定的であることを示唆する頻繁な衝突、視覚的に似た場所を見分けることの難しさによるゴール予測エラー、そして分布シフト下での性能低下である。
著者らは、再現可能なベンチマークを支援するために、評価コードベースとデータセットを公開リリースする計画である。

要約: ビジュアルナビゲーションモデル（VNＭ）は、大規模な視覚デモンストレーションから学習することで、汎用的なロボットの移動（ナビゲーション）を実現することを約束します。現実環境での導入が拡大しているにもかかわらず、既存の評価はほぼ成功率のみに依存しています。すなわち、ロボットが目標に到達したかどうかだけを見ており、これにより、軌道の質（trajectory quality）、衝突行動、環境変化に対する頑健性が隠れてしまっています。私たちは、2つのロボットプラットフォームと、屋内・屋外の状況にまたがる5つの環境において、5つの最先端VNＭ（GNM、ViNT、NoMaD、NaviBridger、CrossFormer）を用いた現実環境での評価を提示します。成功率に加えて、経路（パス）に基づく指標と、視覚に基づく目標認識スコアを組み合わせ、さらに制御した画像の摂動（モーションブラー、サンフレア）によって頑健性を評価します。分析の結果、3つの体系的な限界が明らかになりました：（a）アーキテクチャ的に洗練された拡散モデルやトランスフォーマーベースのモデルであっても衝突が頻発しており、幾何学的理解が十分でないことを示しています；（b）知覚的に類似した異なる場所を区別できず、しかし一部のセマンティクスの違いは存在するため、反復的な環境では目標予測の誤りが生じます；（c）分布シフトのもとで性能が低下します。再現可能なVNＭのベンチマーキングを促進するために、評価コードベースとデータセットを公開します。

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

Vision Foundation Modelsは航行できるか？ゼロショットの実環境評価と学び

要点

関連記事

Black Hat Asia

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer