WorldMAP:生成的ワールドモデルによる視覚言語ナビゲーション軌跡予測のブートストラップ

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、身体性を備えたナビゲーションにおいて、ワールドモデルの主な貢献は、行動にそのまま使える想像上の証拠を直接提供することではなく、構造化された教師信号を与えることにあると主張している。

Abstract

視覚言語モデル(VLM)と生成型ワールドモデルは、身体化されたナビゲーションに新たな機会を切り開いています。VLMは直接のプランナーや軌跡予測器としてますます利用される一方で、ワールドモデルは将来の視点を想像することで先読み推論を支援します。しかし、単一の自己中心視(egocentric)観測から信頼できる軌跡を予測することは依然として困難です。現在のVLMはしばしば不安定な軌跡を生成し、またワールドモデルはもっともらしい未来を統合できるものの、ナビゲーション学習に必要な、基盤となる(grounded)信号を直接は提供しません。これにより中心的な問いが生じます。すなわち、生成された未来を、基盤に根ざした軌跡予測のための教師信号へどのように変換できるのでしょうか。私たちは、WorldMAPを提案します。WorldMAPは、ワールドモデルが生成した未来を、永続的な意味空間構造と、プランニングに基づく監督(supervision)へと変換する、教師―学生(teacher--student)フレームワークです。ワールドモデル駆動の教師は、生成動画から意味空間メモリを構築し、タスクに関連する目標と障害物を基盤付け(ground)し、明示的なプランニングによって軌跡の疑似ラベルを生成します。続いて、多仮説の軌跡ヘッドを備えた軽量な学生モデルを、視覚言語入力からナビゲーション軌跡を直接予測するよう訓練します。Target-Benchでは、WorldMAPは比較手法の中で最良のADEとFDEを達成し、最良の競合するベースラインに対してADEを18.0%、FDEを42.1%低減します。さらに、小規模なオープンソースのVLMを、DTWにおいて独自モデルと競合し得る性能まで引き上げます。より広く言えば、この結果は、身体化されたナビゲーションにおいてワールドモデルの価値は、行動に直結する想像上の証拠をそのまま供給することよりも、ナビゲーション学習のための構造化された監督信号を合成することにあるのかもしれない、ということを示唆しています。