言語条件付き視覚ナビゲーションのための方策誘導型ワールドモデル計画

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、指示条件付きの視覚ナビゲーションに取り組むにあたり、2つの一般的な弱点を解決する：反応的方策における長期ホライズン計画の限界、そして高次元空間におけるワールドモデル計画での行動初期化の不十分さである。
CASTを用いてOctoベースの言語条件付きナビゲーション方策を、視覚エンコーダを固定した状態（DINOv2またはV-JEPA-2）でまず微調整し、情報に基づく行動分布を生成することにより、第1段階でこれを行う2段階フレームワークPiJEPAを提案する。
第2段階では、無情報なガウス分布ではなく、方策に由来する分布を用いてModel Predictive Path Integral（MPPI）計画をウォームスタートし、高品質な行動列への高速な収束を改善する。
本手法では、別途訓練したJEPAワールドモデルを用いて、将来の潜在状態を同一の視覚エンコーダ埋め込み空間上で予測し、知覚モジュールと整合した潜在空間での計画を可能にする。
実環境のナビゲーション課題での実験により、PiJEPAは単体の方策実行および無情報なワールドモデル計画の両方を上回ることが示され、方策部とワールドモデル部の双方において、DINOv2とV-JEPA-2のバックボーンを体系的に比較する。

概要: 自然言語による指示に基づいて、視覚的に指定された目標へ到達するように誘導することは、身体性を備えたAIにおける根本的な課題である。既存の手法は、大きな時間範囲にわたる計画が苦手な反応的ポリシーに依存するか、あるいは高次元空間での行動の初期化が不十分であるためにうまく機能しない世界モデルを用いるかのいずれかである。本研究では、学習済みのナビゲーションポリシーの強みと、指示条件付き視覚ナビゲーションのための潜在世界モデル計画を組み合わせた2段階フレームワークであるPiJEPAを提案する。第1段階では、凍結した事前学習済みビジョンエンコーダ（DINOv2またはV-JEPA-2）で拡張したOctoベースの汎用ポリシーを、CASTナビゲーションデータセット上で微調整し、現在の観測と文言指示に条件付けられた情報に基づく行動分布を生成する。第2段階では、このポリシー由来の分布を用いて、別途学習したJEPA世界モデル上でModel Predictive Path Integral（MPPI）計画をウォームスタートする。この世界モデルは、同じ凍結エンコーダの埋め込み空間で将来の潜在状態を予測する。無情報なガウスからではなく、ポリシーの事前分布からMPPIのサンプリング分布を初期化することで、プランナーは目標へ到達する高品質な行動列により速く収束する。視覚エンコーダのバックボーンの効果を体系的に調べ、ポリシー成分と世界モデル成分の両方においてDINOv2とV-JEPA-2を比較する。実世界のナビゲーション課題での実験により、PiJEPAが単独のポリシー実行と無情報な世界モデル計画の両方を大幅に上回り、目標到達精度と指示追従の忠実度が向上することを示す。