注意の大きさを超えて:層間の順位整合性を活用した効率的なビジョン・ランゲージ・アクション(VLA)モデル
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビジョン・ランゲージ・アクション(VLA)におけるトークン削減を注意(attention)の大きさだけで行うのは信頼できないと主張する。「高い注意」を受けるトークンはタスク依存であり、それがポリシー性能を悪化させ得るからである。
- 提案手法はTIES(Tau-guided Inter-layer Efficient Selection)であり、注意の大きさとのバランスを取りつつ、層間の順位(rank)の整合性を用いる動的なトークン選択方法である。
- TIESは追加の学習なしに、各層でのトークン順位における一致(agreement)を利用することで、頑健に選択を行う。
- CogACT + SIMPLERベンチマークでの実験では、平均成功率が6%向上し、トークン使用量が78%削減された。
- 本手法は、異なるデコーダやベンチマーク間で強い汎化性を示しており、VLA推論の効率改善に幅広く適用できることを示唆している。