注意の大きさを超えて:層間の順位整合性を活用した効率的なビジョン・ランゲージ・アクション(VLA)モデル

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビジョン・ランゲージ・アクション(VLA)におけるトークン削減を注意(attention)の大きさだけで行うのは信頼できないと主張する。「高い注意」を受けるトークンはタスク依存であり、それがポリシー性能を悪化させ得るからである。
  • 提案手法はTIES(Tau-guided Inter-layer Efficient Selection)であり、注意の大きさとのバランスを取りつつ、層間の順位(rank)の整合性を用いる動的なトークン選択方法である。
  • TIESは追加の学習なしに、各層でのトークン順位における一致(agreement)を利用することで、頑健に選択を行う。
  • CogACT + SIMPLERベンチマークでの実験では、平均成功率が6%向上し、トークン使用量が78%削減された。
  • 本手法は、異なるデコーダやベンチマーク間で強い汎化性を示しており、VLA推論の効率改善に幅広く適用できることを示唆している。

Abstract

Vision-Language-Action(VLA)モデルはロボット操作において優れていますが、密な視覚トークンを処理することによって推論レイテンシが大きくなるという問題があります。既存のトークン削減手法は主に、注意(attention)の大きさを静的な選択基準として用いることに依存しています。本研究では、この前提に挑戦し、高注意トークンはタスク依存であり、さらにはポリシーの性能を低下させ得ることを明らかにします。これに対処するために、層間トークン順位付けの一貫性に導かれる動的フレームワークとして、 \textbf{TIES}(\textbf{T}auに導かれた\textbf{I}nter-layer \textbf{E}fficient \textbf{S}election)を提案します。注意の大きさと順位付けの一貫性を適応的にバランスさせることで、TIESは追加の学習を必要とせずに頑健なトークン選択を実現します。CogACT + SIMPLERベンチマークにおいて、TIESはトークン使用量を78%削減しつつ平均成功率を6%向上させ、さまざまなデコーダとベンチマークにわたって強い汎化性能を示します。