VLA-IAP:視覚言語行動モデルのための相互作用アラインメントによるトレーニング不要の視覚トークン間引き

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚コンテキスト長が増大する際の推論コストを対象とした、視覚言語行動(VLA)モデル向けのトレーニング不要の視覚トークン間引き手法であるVLA-IAPを提案する。
  • 既存の間引き手法は、VLAタスクにおける連続的な物理的相互作用の重要な役割を見落としており、その結果として構造的に重要な領域が間引かれ、初期段階での挙動が不安定になる可能性があると論じる。
  • VLA-IAPは、構造アンカーを保持するための幾何学的な事前知識と、意味—動きのアラインメントに基づいて間引き強度を動的に調整するスケジュールを用いた「相互作用重視(Interaction-First)」のパラダイムを採用する。
  • LIBEROベンチマークでの実験では、成功率97.8%と1.25×の高速化を報告しており、さらに性能を間引きなしのバックボーンと同等に保ったまま最大1.54×の高速化が得られる。
  • 本手法は、複数のモデルアーキテクチャ、3つのシミュレーション環境、そして実機ロボット基盤にわたって汎化可能であり、計算資源が限られたデバイスへの実運用の可能性を示唆する。

要旨: Vision-Language-Action(VLA)モデルは、身体化された知能の発展を急速に後押しし、ロボットが複雑で命令に駆動されたタスクを実行できるようになっています。しかし、モデルの容量や視覚コンテキスト長が増大するにつれて、VLAシステムの推論コストは、資源が限られたプラットフォームでの実世界への導入における主要なボトルネックになります。既存の視覚トークン削減手法は主に意味的な重要度(semantic saliency)や単純な時間的手がかりに依存しており、VLAタスクの根本的な性質である、連続的な物理的相互作用(continuous physical interaction)を見落としています。その結果、現在のアプローチは、操作を支える構造的に重要な領域を維持しつつも視覚的には疎な領域を削減してしまうことが多く、そのためタスクの初期フェーズで挙動が不安定になります。これを克服するために、私たちは明示的な「Interaction-First」パラダイムへの転換を提案します。提案手法である私たちの extbf{学習不要(training-free)} の方法、VLA-IAP(Interaction-Aligned Pruning:相互作用整合的削減)では、構造的アンカーを保持するための幾何学的事前知識(geometric prior)機構と、意味—運動アラインメントに基づいて削減の強度を適応させる動的スケジューリング戦略を導入します。これにより、初期の不確実性に対しては保守的に、相互作用が確立されてからは攻めた削減へと移行することで、堅牢性と効率性の両立を実現します。広範な実験の結果、VLA-IAPはLIBEROベンチマークで extbf{97.8 o success rate(97.8 ext%の成功率)} を達成し、さらに extbf{1.25 imes speedup} を実現しました。また、性能を extbf{未削減のバックボーンと同等に維持} しながら、最大で extbf{1.54 imes speedup} を示します。加えて、この手法は複数のモデルアーキテクチャと3つの異なるシミュレーション環境、ならびに実機ロボットプラットフォームにおいて、優れており一貫した性能を示しました。これにより、高い汎化能力と実用性が検証されています。プロジェクトのWebサイトは:
\href{https://chengjt1999.github.io/VLA-IAP.github.io/}{VLA-IAP.com}。

VLA-IAP:視覚言語行動モデルのための相互作用アラインメントによるトレーニング不要の視覚トークン間引き | AI Navigate