FocusVLA: Vision-Language-Actionモデルのための焦点化された視覚利用

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VLA（Vision-Language-Action）モデルの行動生成が、視覚情報の「使われ方」に起因する3つのボトルネック（視覚ディテールの見落とし、視覚トークン過多による注意散漫、タスク不要情報によるノイズ）で大きく制約されることを実験的に検証しています。
既存の視覚表現の品質よりも、視覚情報をどのように利用するかが性能を主に左右していると示しています。
提案手法FocusVLAは、タスク関連領域への注意集中を促すためにModality Cascaded Attentionでショートカット経路を抑制し、さらにFocus Attentionでタスク関連パッチを動的に選択して情報量と影響度を制御する設計です。
シミュレーションおよび実環境のロボティクス・ベンチマークで、器用な操作の達成に加え、多様なタスクで性能向上と学習の収束加速を同時に示しています。

Abstract

Vision-Language-Action（VLA）モデルは、豊富な視覚-言語情報に基づいて方策を条件付けることで、アクション生成を改善します。しかし、現在の自己回帰型方策には3つのボトルネックがあります: （1）アーキテクチャ上のバイアスにより、モデルが視覚的な詳細を見落としやすいこと、（2）過剰な数の視覚トークンによって注意の焦点を正しい領域に合わせることが困難になること、（3）タスクに無関係な視覚情報が実質的なノイズを導入すること――これらが一体となってアクションの質を大きく損なっています。本論文では、アクション生成に向けて異なる視覚表現を効果的に活用する方法を調査します。そこでまず、上記の問題を経験的に検証し、VLAの性能が視覚表現の質そのものではなく、視覚情報の利用方法によって主に制限されていることを示します。これらの洞察に基づき、FocusVLAという新しいパラダイムを提案します。これは、タスクに関連する視覚領域にモデルの注意を向けることで、視覚からアクションへの橋渡しを効果的に行います。具体的には、まず近道（shortcut）経路を排除するために、Modality Cascaded Attentionを提案し、それによってVLAモデルに対し、アクション生成のためにタスクに関連する視覚的な詳細へ依存することを強制します。さらに、Focus Attentionを提案します。これは、情報量を制御するためにタスクに関連する視覚パッチを動的に選択し、同時にそれらの影響を明示的に調整することで、タスクに無関係なノイズを抑制します。シミュレーションおよび現実世界のロボティクスベンチマークの両方での大規模な実験により、FocusVLAが巧みな操作を行うために視覚的な詳細を効果的に活用できるだけでなく、さまざまなタスクにおいて性能を大幅に向上させ、収束を加速することも示されます。