Abstract
最近のナビゲーションシステムは強力なベンチマーク結果を達成していますが、現実世界での導入では可視的なストップ・アンド・ゴーが残ることが多いです。このボトルネックの原因は、知覚—推論—実行のループがいまだにブロッキングしている点にあります。すなわち、観測が更新されるたびに、モーションを継続する前に、コントローラはセンシング、伝送、推論の完了を待たなければなりません。そのため、アクション生成コストを削減するだけでは冗長な待機は解消されません。そこで本研究では、LiveVLN を提案します。LiveVLN は、マルチステップのアクション継続を用いて事前学習済みの VLM ナビゲータを拡張することで、より連続的な身体化ナビゲーションを実現する訓練不要のフレームワークです。各完全な「センシングと推論」のラウンドごとに一時停止する代わりに、LiveVLN は、新たに到着した観測の処理と実行をオーバーラップさせます。これにより、現在の実行可能なプレフィックスが尽きる前に、更新された将来のアクションを引き継げるようになります。この設計は、モーション中にアクションを継続的に利用可能に保ち、アイドル待機を減らし、より滑らかなオンライン実行を可能にします。このフレームワークは実行時に動作し、対応可能な事前学習済み VLM ナビゲータに統合できます。R2R と RxR において、LiveVLN はベンチマーク性能を維持しつつ待機時間を削減し、アクションの利用可能性を向上させます。現実世界での導入では、StreamVLN において平均エピソード待機時間を最大 77.7ackslash% 短縮し、壁時計ベースのエピソード時間を 12.6ackslash% 短縮します。また NaVIDA では平均エピソード待機時間を最大 77.7ackslash% 短縮し、壁時計ベースのエピソード時間を 19.6ackslash% 短縮し、導入中のより首尾一貫した実行を実現します。コードは https://github.com/NIneeeeeem/LiveVLN で公開されています。