VLN-Cache：視覚／セマンティック・ダイナミクスに対応したVLNモデルのトークンキャッシュ手法

arXiv cs.RO / 2026/4/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この論文は、視覚と言語によるナビゲーション（VLN）モデルの推論コストを削減し、リアルタイム運用を可能にするための学習不要のトークンキャッシュ手法としてVLN-Cacheを提案します。
従来のキャッシュ手法がVLNでは破綻しやすい理由として、(1) 視点の変化によってトークン位置がフレーム間でずれる「視覚ダイナミクス」、(2) ナビゲーションの進行に伴ってトークンの意味的な重要度が変わりキャッシュが陳腐化する「セマンティック・ダイナミクス」を指摘します。
VLN-Cacheは、幾何学的対応関係を取り戻す「視点整合リマッピング」と、意味の切り替わりでの再利用を無効化する「タスク関連度のサリエンシフィルタ」によりこれらの問題を解決します。
さらに、層ごとの再利用予算を調整する「層適応型エントロピー方針」を用いることで、速度と精度のトレードオフを改善します。
R2R-CEシミュレーションのベンチマークで、VLN-Cacheは最大1.52倍の高速化を達成しつつ、ナビゲーション成功率は競争力を維持しています。

要旨: 画像と言語のナビゲーション（VLN）は、ますます大規模な視覚-言語モデルに依存するようになっていますが、その推論コストはリアルタイム配備と衝突します。トークンキャッシングは、フレーム間で安定した視覚トークンを再利用することで冗長な計算を回避し、訓練不要で済む有望な戦略です。しかし、既存手法は静的なカメラと固定された意味的な焦点を前提としており、VLNは本質的にこれらの前提を破ります。私たちは2つの失敗モードを特定します:（1）視覚ダイナミクス。視点の移動によりフレーム間でトークン位置がずれ、その結果、位置ごとの対応づけが不整合な内容同士を対応づけてしまうことです。（2）意味ダイナミクス。ナビゲーションが進行するにつれて、タスクの各段階でトークンの関連性が変化し、キャッシュされた状態が陳腐化することです。私たちは、視覚ダイナミクスと意味ダイナミクスの両方に対応したキャッシング枠組みであるVLN-Cacheを提案します。これは、幾何学的対応関係を復元するための視点整合リマッピングと、意味の遷移時に再利用を無効化するタスク関連度のサリーチフィルタを導入します。さらに、層適応型エントロピ方策により、層ごとの再利用予算のバランスを取ります。R2R-CEのシミュレーションベンチマークでの実験では、ナビゲーションの成功率を競争力のある水準に維持しつつ最大1.52倍の高速化が示されました。

Black Hat USA

AI Business

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

VLN-Cache：視覚／セマンティック・ダイナミクスに対応したVLNモデルのトークンキャッシュ手法

要点

関連記事

Black Hat USA

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力