LiveVLN：視覚と言語によるナビゲーションでストップ&ゴー・ループを打破する

arXiv cs.RO / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、実世界の視覚言語ナビゲーションが「止まって動く」挙動を示し続ける主因が、センシング–推論–実行のループがブロッキングであるため、推論まで待たないと前進できない点にあると指摘しています。
その解決として、学習不要の実行時フレームワークであるLiveVLNを提案し、事前学習済みVLMナビゲータにマルチステップのアクション継続を追加して、より連続的な体験的ナビゲーションを可能にします。
LiveVLNは、実行しながら新しい観測の処理を並行で進め、現在実行可能なアクションの前半が尽きる前に更新された将来アクションへ引き継ぐことで、待ち時間（アイドル）を減らします。
R2RおよびRxRでの実験では、ベンチマーク性能を維持しつつ待ち時間を削減し、アクションの利用可能性を高めることを示しています。
実運用を意識した評価では、StreamVLNとNaVIDAで平均エピソード待ち時間を最大77.7%削減し、壁時計ベースのエピソード時間を12.6%〜19.6%短縮する結果が報告されています。

Abstract

最近のナビゲーションシステムは強力なベンチマーク結果を達成していますが、現実世界での導入では可視的なストップ・アンド・ゴーが残ることが多いです。このボトルネックの原因は、知覚—推論—実行のループがいまだにブロッキングしている点にあります。すなわち、観測が更新されるたびに、モーションを継続する前に、コントローラはセンシング、伝送、推論の完了を待たなければなりません。そのため、アクション生成コストを削減するだけでは冗長な待機は解消されません。そこで本研究では、LiveVLN を提案します。LiveVLN は、マルチステップのアクション継続を用いて事前学習済みの VLM ナビゲータを拡張することで、より連続的な身体化ナビゲーションを実現する訓練不要のフレームワークです。各完全な「センシングと推論」のラウンドごとに一時停止する代わりに、LiveVLN は、新たに到着した観測の処理と実行をオーバーラップさせます。これにより、現在の実行可能なプレフィックスが尽きる前に、更新された将来のアクションを引き継げるようになります。この設計は、モーション中にアクションを継続的に利用可能に保ち、アイドル待機を減らし、より滑らかなオンライン実行を可能にします。このフレームワークは実行時に動作し、対応可能な事前学習済み VLM ナビゲータに統合できます。R2R と RxR において、LiveVLN はベンチマーク性能を維持しつつ待機時間を削減し、アクションの利用可能性を向上させます。現実世界での導入では、StreamVLN において平均エピソード待機時間を最大

77.7ackslash%

短縮し、壁時計ベースのエピソード時間を

12.6ackslash%

短縮します。また NaVIDA では平均エピソード待機時間を最大

77.7ackslash%

短縮し、壁時計ベースのエピソード時間を

19.6ackslash%

短縮し、導入中のより首尾一貫した実行を実現します。コードは https://github.com/NIneeeeeem/LiveVLN で公開されています。

効果検証入門③ T-Learnerで介入効果の分布を見てみる

Qiita

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ITmedia AI+

ChatGPTが『依存』だとユーザーを疑う件について

note

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

note

【note更新、嫌になってませんか】告知ゼロで19,860円の記事が累計3本売れた夜に、私が見ている世界規模の油田の話。あなたは今、石油を掘っている自覚はありますか? #生成AI #AI活用 #noteで読めるマンガ #ChatGPTImages2.0 #ChatGPT #Claude #Gemini #Kindle出版 #nanobanana #note #情報発信 #ビジネス #noteの書き方 #副業 #マーケティング

note

LiveVLN：視覚と言語によるナビゲーションでストップ&ゴー・ループを打破する

要点

Abstract

関連記事

効果検証入門③ T-Learnerで介入効果の分布を見てみる

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ChatGPTが『依存』だとユーザーを疑う件について

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

効果検証入門③ T-Learnerで介入効果の分布を見てみる

「DeepSeek-V4」登場 オープンながら“世界トップのクローズドモデルに匹敵”うたう

ChatGPTが『依存』だとユーザーを疑う件について

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう