注意の大きさを超えて：層間の順位整合性を活用した効率的なビジョン・ランゲージ・アクション（VLA）モデル

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビジョン・ランゲージ・アクション（VLA）におけるトークン削減を注意（attention）の大きさだけで行うのは信頼できないと主張する。「高い注意」を受けるトークンはタスク依存であり、それがポリシー性能を悪化させ得るからである。
提案手法はTIES（Tau-guided Inter-layer Efficient Selection）であり、注意の大きさとのバランスを取りつつ、層間の順位（rank）の整合性を用いる動的なトークン選択方法である。
TIESは追加の学習なしに、各層でのトークン順位における一致（agreement）を利用することで、頑健に選択を行う。
CogACT + SIMPLERベンチマークでの実験では、平均成功率が6%向上し、トークン使用量が78%削減された。
本手法は、異なるデコーダやベンチマーク間で強い汎化性を示しており、VLA推論の効率改善に幅広く適用できることを示唆している。

Abstract

Vision-Language-Action（VLA）モデルはロボット操作において優れていますが、密な視覚トークンを処理することによって推論レイテンシが大きくなるという問題があります。既存のトークン削減手法は主に、注意（attention）の大きさを静的な選択基準として用いることに依存しています。本研究では、この前提に挑戦し、高注意トークンはタスク依存であり、さらにはポリシーの性能を低下させ得ることを明らかにします。これに対処するために、層間トークン順位付けの一貫性に導かれる動的フレームワークとして、 \textbf{TIES}（\textbf{T}auに導かれた\textbf{I}nter-layer \textbf{E}fficient \textbf{S}election）を提案します。注意の大きさと順位付けの一貫性を適応的にバランスさせることで、TIESは追加の学習を必要とせずに頑健なトークン選択を実現します。CogACT + SIMPLERベンチマークにおいて、TIESはトークン使用量を78%削減しつつ平均成功率を6%向上させ、さまざまなデコーダとベンチマークにわたって強い汎化性能を示します。

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

注意の大きさを超えて：層間の順位整合性を活用した効率的なビジョン・ランゲージ・アクション（VLA）モデル

要点

Abstract

関連記事

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer