Abstract
自動運転システムにVision-Language-Action(VLA)モデルを統合することは、複雑なシーンを解釈し、制御コマンドを実行するための統一された枠組みを提供します。しかし、正確な時間的推論のために過去のマルチビューのフレームを取り込む必要があるため、自己注意機構がLarge Language Models(LLMs)において持つ二次の計算量に主に起因して、深刻な計算負担が課されます。このボトルネックを緩和するために、我々はVLAモデルのための効率的トークン適応フレームワークであるETA-VLAを提案します。ETA-VLAはマルチビュー画像の過去nフレームを処理し、新しいIntra-LLM Sparse Aggregator(ILSA)を導入します。人間の運転者における注意配分から着想を得て、ILSAはテキストによるクエリと時間的な整合性に導かれ、冗長な視覚トークンを動的に特定して剪定(プルーニング)します。具体的には、テキスト誘導のスコアリング機構と、多様性を維持するスパーシフィケーション戦略を組み合わせて、重要なトークンの疎な部分集合を選択し、運転シーンに対する包括的な認識を確実にします。NAVSIM v2における大規模な実験の結果、ETA-VLAは最先端のベースラインと同等の運転性能を達成しつつ、計算FLOPsを約32
e削減することが示されました。特に、我々の手法は視覚トークンの85%を剪定し、推論FLOPsを61
e%削減しますが、それでもNAVSIM v2ベンチマークにおいて元の精度の94%を維持しています。