要旨: 画像と言語のナビゲーション(VLN)は、ますます大規模な視覚-言語モデルに依存するようになっていますが、その推論コストはリアルタイム配備と衝突します。トークンキャッシングは、フレーム間で安定した視覚トークンを再利用することで冗長な計算を回避し、訓練不要で済む有望な戦略です。しかし、既存手法は静的なカメラと固定された意味的な焦点を前提としており、VLNは本質的にこれらの前提を破ります。私たちは2つの失敗モードを特定します:(1)視覚ダイナミクス。視点の移動によりフレーム間でトークン位置がずれ、その結果、位置ごとの対応づけが不整合な内容同士を対応づけてしまうことです。(2)意味ダイナミクス。ナビゲーションが進行するにつれて、タスクの各段階でトークンの関連性が変化し、キャッシュされた状態が陳腐化することです。私たちは、視覚ダイナミクスと意味ダイナミクスの両方に対応したキャッシング枠組みであるVLN-Cacheを提案します。これは、幾何学的対応関係を復元するための視点整合リマッピングと、意味の遷移時に再利用を無効化するタスク関連度のサリーチフィルタを導入します。さらに、層適応型エントロピ方策により、層ごとの再利用予算のバランスを取ります。R2R-CEのシミュレーションベンチマークでの実験では、ナビゲーションの成功率を競争力のある水準に維持しつつ最大1.52倍の高速化が示されました。
VLN-Cache:視覚/セマンティック・ダイナミクスに対応したVLNモデルのトークンキャッシュ手法
arXiv cs.RO / 2026/4/30
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この論文は、視覚と言語によるナビゲーション(VLN)モデルの推論コストを削減し、リアルタイム運用を可能にするための学習不要のトークンキャッシュ手法としてVLN-Cacheを提案します。
- 従来のキャッシュ手法がVLNでは破綻しやすい理由として、(1) 視点の変化によってトークン位置がフレーム間でずれる「視覚ダイナミクス」、(2) ナビゲーションの進行に伴ってトークンの意味的な重要度が変わりキャッシュが陳腐化する「セマンティック・ダイナミクス」を指摘します。
- VLN-Cacheは、幾何学的対応関係を取り戻す「視点整合リマッピング」と、意味の切り替わりでの再利用を無効化する「タスク関連度のサリエンシフィルタ」によりこれらの問題を解決します。
- さらに、層ごとの再利用予算を調整する「層適応型エントロピー方針」を用いることで、速度と精度のトレードオフを改善します。
- R2R-CEシミュレーションのベンチマークで、VLN-Cacheは最大1.52倍の高速化を達成しつつ、ナビゲーション成功率は競争力を維持しています。
