LatentPilot：潜在的な視覚推論で先を夢想することにより実現する、シーン認識対応の視覚と言語によるナビゲーション

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、過去／現在フレームの推論だけにとどまらず、学習中に行動が未来の視覚観測を因果的にどのように変えるかを明示的に考慮する、視覚と言語のナビゲーション手法であるLatentPilotを提案する。
エキスパートによるテイクオーバー（エージェントが許容を超えて逸脱した場合）を備えた、フライホイール型のオンポリシー・トレーニングループを用いて、軌跡を反復的に収集し、再学習することでエージェントの行動分布への適合を高める。
LatentPilotは、明示的な教師なしでグローバルな視覚潜在トークンを学習し、時間ステップをまたいでそれらを保持することで、連続した潜在空間上でエージェントが「先を夢想（dream ahead）」できるようにする。その一方で、推論時には未来フレームを一切必要としない。
R2R-CE、RxR-CE、R2R-PEでの実験では新たな最先端（state-of-the-art）の結果が報告され、実環境ロボットでのテストでは、多様なシーンにわたって環境–行動ダイナミクスの理解が向上することが示される。

概要: 既存の視覚と言語のナビゲーション（VLN）モデルは主に、過去および現在の視覚観測をもとに推論しますが、行動によって誘発される将来の視覚ダイナミクスはほとんど無視しています。その結果、行動と視覚世界がどのように変化するかの因果関係を効果的に理解できず、頑健な意思決定が制限されます。これに対して人間は、行動ダイナミクスの因果性を活用することで近い将来を想像でき、そのことにより環境理解とナビゲーションの選択の両方が向上します。この能力に着想を得て、私たちは新しいパラダイムであるLatentPilotを提案します。LatentPilotは、学習時に将来の観測を貴重なデータ源として活用することで、行動条件付きの視覚ダイナミクスを学習しますが、推論時には将来フレームへのアクセスを一切必要としません。具体的には、オンポリシー軌道を反復的に収集し、エージェントの行動分布によりよく一致するようにモデルを再学習する、飛輪（flywheel）型の学習メカニズムを提案します。さらに、エージェントが過度に逸脱した場合にはエキスパートによるテイクオーバーがトリガーされます。LatentPilotはまた、明示的な教師なしで視覚潜在トークンを学習します。これらの潜在トークンは連続した潜在空間においてグローバルに注意（attend）し、ステップ間で受け渡されます。これにより、潜在トークンは現在の出力であると同時に次の入力としても機能し、エージェントが先を見通して（dream ahead）行動がその後の観測にどのように影響するかを推論できるようになります。R2R-CE、RxR-CE、およびR2R-PEのベンチマークにおける実験では新たなSOTA結果を達成し、さまざまな環境での実ロボットテストでは、シーンにおける環境-行動ダイナミクスの理解においてLatentPilotが優れていることが示されました。プロジェクトページ:https://abdd.top/latentpilot/