CoFL：言語条件付きナビゲーションのための連続フローフィールド

arXiv cs.RO / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、BEV観測と文章指示から連続フローフィールドを出力する、言語条件付きナビゲーションのエンドツーエンド政策CoFLを提案しています。
CoFLは、単一の開始点から軌跡を予測するのではなく、BEV上の任意位置で局所的な運動ベクトルを学習し、各シーン-指示アノテーションを密な空間的教師信号として活用します。
予測されたフローフィールドを数値積分することで任意の開始位置から軌跡を生成し、リアルタイムのロールアウトや閉ループでの回復を容易にします。
大規模な学習と評価のために、Matterport3DとScanNetから得たセマンティックマップに基づいてフローフィールドと軌跡を手続き的に付与した、50万件超のBEV画像–指示ペアのデータセットを構築しています。
未見シーンでの評価では、CoFLがモジュール型のVLMプランナーや軌跡生成ポリシーよりも、精度と安全性の両面で優れ、推論のリアルタイム性も維持しつつ、現実環境でのゼロショット実験でも高い成功率と実行可能な閉ループ制御を示しました。

概要: 既存の言語条件付きナビゲーションシステムは通常、モジュール式のパイプラインや軌道生成器に依存しますが、後者では各シーン――指示アノテーションが主に1つの開始条件付きロールアウトを監督するために使われています。これらの制約に対処するために、私たちはCoFLを提案します。これは、鳥瞰図（BEV）の観測と1つの言語指示を入力として、ナビゲーションのための連続フローフィールドへ写像するエンドツーエンドの方策です。CoFLは、ナビゲーションを開始条件付き軌道予測ではなく、ワークスペース条件付きのフィールド学習として再定式化します。すなわち、任意のBEV位置における局所的な運動ベクトルを学習し、各シーン――指示アノテーションを、密な空間制御の教師信号へ変換します。軌道は、予測されたフィールドの数値積分によって任意の開始点から生成できるため、単純なリアルタイムのロールアウトと、閉ループでの回復が可能になります。大規模な学習と評価を可能にするために、50万を超えるBEV画像――指示ペアからなるデータセットを構築し、それぞれをフローフィールドで手続き的にアノテーションし、さらにMatterport3DおよびScanNet上で構築したセマンティックマップから導出した軌道を付与します。厳密に未見のシーンで評価したところ、CoFLは、ナビゲーションの精度と安全性の両面で、モジュール式のVision-Language Model（VLM）ベースのプランナーおよび軌道生成ポリシーに対して大幅に上回り、かつリアルタイム推論を維持しています。最後に、複数のレイアウトにわたるBEV観測を用いた実環境での実験において、CoFLをゼロショットで展開し、実行可能な閉ループ制御と高い成功率を維持しながら成果を示します。