LiveVLN:視覚と言語によるナビゲーションでストップ&ゴー・ループを打破する

arXiv cs.RO / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、実世界の視覚言語ナビゲーションが「止まって動く」挙動を示し続ける主因が、センシング–推論–実行のループがブロッキングであるため、推論まで待たないと前進できない点にあると指摘しています。
  • その解決として、学習不要の実行時フレームワークであるLiveVLNを提案し、事前学習済みVLMナビゲータにマルチステップのアクション継続を追加して、より連続的な体験的ナビゲーションを可能にします。
  • LiveVLNは、実行しながら新しい観測の処理を並行で進め、現在実行可能なアクションの前半が尽きる前に更新された将来アクションへ引き継ぐことで、待ち時間(アイドル)を減らします。
  • R2RおよびRxRでの実験では、ベンチマーク性能を維持しつつ待ち時間を削減し、アクションの利用可能性を高めることを示しています。
  • 実運用を意識した評価では、StreamVLNとNaVIDAで平均エピソード待ち時間を最大77.7%削減し、壁時計ベースのエピソード時間を12.6%〜19.6%短縮する結果が報告されています。

Abstract

最近のナビゲーションシステムは強力なベンチマーク結果を達成していますが、現実世界での導入では可視的なストップ・アンド・ゴーが残ることが多いです。このボトルネックの原因は、知覚—推論—実行のループがいまだにブロッキングしている点にあります。すなわち、観測が更新されるたびに、モーションを継続する前に、コントローラはセンシング、伝送、推論の完了を待たなければなりません。そのため、アクション生成コストを削減するだけでは冗長な待機は解消されません。そこで本研究では、LiveVLN を提案します。LiveVLN は、マルチステップのアクション継続を用いて事前学習済みの VLM ナビゲータを拡張することで、より連続的な身体化ナビゲーションを実現する訓練不要のフレームワークです。各完全な「センシングと推論」のラウンドごとに一時停止する代わりに、LiveVLN は、新たに到着した観測の処理と実行をオーバーラップさせます。これにより、現在の実行可能なプレフィックスが尽きる前に、更新された将来のアクションを引き継げるようになります。この設計は、モーション中にアクションを継続的に利用可能に保ち、アイドル待機を減らし、より滑らかなオンライン実行を可能にします。このフレームワークは実行時に動作し、対応可能な事前学習済み VLM ナビゲータに統合できます。R2R と RxR において、LiveVLN はベンチマーク性能を維持しつつ待機時間を削減し、アクションの利用可能性を向上させます。現実世界での導入では、StreamVLN において平均エピソード待機時間を最大 77.7ackslash% 短縮し、壁時計ベースのエピソード時間を 12.6ackslash% 短縮します。また NaVIDA では平均エピソード待機時間を最大 77.7ackslash% 短縮し、壁時計ベースのエピソード時間を 19.6ackslash% 短縮し、導入中のより首尾一貫した実行を実現します。コードは https://github.com/NIneeeeeem/LiveVLN で公開されています。