概要: 画像-言語-ナビゲーション(VLN)モデルは優れたナビゲーション精度を示す一方で、高い計算オーバーヘッドを伴います。トークンキャッシングは、トークン計算結果を再利用することでこのコストを削減する、学習不要の有望な手法として注目されています。しかし、既存のトークンキャッシング手法は、キャッシュ可能なトークン選択に視覚領域の方法に依存しているため、VLNモデルに適用すると問題が生じます。1) 視点が移動すると、視覚領域の方法は無効になります。2) 視覚領域の方法は、追加のアルゴリズムの助けがないと重要なエッジ情報を見落とします。3) 視覚領域の方法は、シナリオの時間的変動を見落としており、キャッシュ予算に対する調整可能性を欠いています。本論文では、これらの課題に対して詳細な分析を行い、その影響が周波数領域において不変性と分析可能性を示すことを見いだします。これに基づき、周波数に導かれたトークンキャッシングの枠組みである FreqCache を提案します。周波数領域の固有の性質を利用することで、FreqCache は、最適なトークンキャッシュの構築、更新、そして適応的な調整を実現します。実験の結果、FreqCache は無視できるオーバーヘッドで 1.59x の高速化を達成し、VLN のトークンキャッシングに周波数領域の方法を統合する効果を示しました。
FreqCache:周波数ガイド付きトークンキャッシュによりエンボディドVLNモデルを高速化
arXiv cs.RO / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、Vision-Language-Navigation(VLN)モデルの計算負荷が高い点に着目し、トークンの計算結果を再利用する訓練不要の手法としてトークンキャッシングを扱います。
- 先行研究の多くが視覚ドメイン向けのキャッシュ選定に依存するため、VLNでは「視点移動で手法が無効化される」「エッジ情報が不十分になる」「状況の時間変化とキャッシュ予算が適応できない」といった問題が生じると指摘しています。
- 著者らは周波数領域の観点からこれらの課題を分析し、その影響が不変で解析可能であることを示します。
- その上でFreqCacheという、周波数領域の特性を用いてキャッシュの設定・更新・予算の適応調整を最適化する周波数ガイド付きトークンキャッシング枠組みを提案します。
- 実験では、無視できるオーバーヘッドで1.59×の高速化が得られ、周波数領域の考え方がVLNのトークンキャッシングに有効であることを示しています。




