ETA-VLA：時間的フュージョンとIntra-LLMスパース化による、ビジョン・言語・行動モデルのための効率的なトークン適応

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転に用いられるビジョン・言語・行動（VLA）モデル向けの効率的なトークン適応手法 ETA-VLA を提案し、過去のマルチビュー映像フレームを取り込むことに伴う高コストを対象とする。
ETA-VLA は Intra-LLM Sparse Aggregator（ILSA）を導入する。これは、テキストに導かれたスコアリングと時間的整合性を用いて、冗長な視覚トークンを動的に間引きつつ、シーン理解に必要な代表的な部分集合を保持する。
この手法は、人間の運転者が注意を配分する方法に着想を得ており、大規模モデルに典型的な二次の自己注意オーバーヘッドを回避しながら、時間的推論の精度を維持することを狙う。
NAVSIM v2 での実験により、ETA-VLA は最先端の運転性能と同等の結果を達成しつつ、計算量の FLOPs を約 32% 削減する。また、視覚トークンの 85% を間引き、FLOPs を 61% 削減しながら、元の精度のおよそ 94% を維持することを報告している。
全体として、本研究は実用的な効率と精度のトレードオフを示しており、VLA ベースの自動運転システムをリアルタイム推論でより計算可能にする可能性がある。

Abstract

自動運転システムにVision-Language-Action（VLA）モデルを統合することは、複雑なシーンを解釈し、制御コマンドを実行するための統一された枠組みを提供します。しかし、正確な時間的推論のために過去のマルチビューのフレームを取り込む必要があるため、自己注意機構がLarge Language Models（LLMs）において持つ二次の計算量に主に起因して、深刻な計算負担が課されます。このボトルネックを緩和するために、我々はVLAモデルのための効率的トークン適応フレームワークであるETA-VLAを提案します。ETA-VLAはマルチビュー画像の過去

n

フレームを処理し、新しいIntra-LLM Sparse Aggregator（ILSA）を導入します。人間の運転者における注意配分から着想を得て、ILSAはテキストによるクエリと時間的な整合性に導かれ、冗長な視覚トークンを動的に特定して剪定（プルーニング）します。具体的には、テキスト誘導のスコアリング機構と、多様性を維持するスパーシフィケーション戦略を組み合わせて、重要なトークンの疎な部分集合を選択し、運転シーンに対する包括的な認識を確実にします。NAVSIM v2における大規模な実験の結果、ETA-VLAは最先端のベースラインと同等の運転性能を達成しつつ、計算FLOPsを約32 e削減することが示されました。特に、我々の手法は視覚トークンの85%を剪定し、推論FLOPsを61 e%削減しますが、それでもNAVSIM v2ベンチマークにおいて元の精度の94%を維持しています。