FocusVLA: Vision-Language-Actionモデルのための焦点化された視覚利用
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VLA(Vision-Language-Action)モデルの行動生成が、視覚情報の「使われ方」に起因する3つのボトルネック(視覚ディテールの見落とし、視覚トークン過多による注意散漫、タスク不要情報によるノイズ)で大きく制約されることを実験的に検証しています。
- 既存の視覚表現の品質よりも、視覚情報をどのように利用するかが性能を主に左右していると示しています。
- 提案手法FocusVLAは、タスク関連領域への注意集中を促すためにModality Cascaded Attentionでショートカット経路を抑制し、さらにFocus Attentionでタスク関連パッチを動的に選択して情報量と影響度を制御する設計です。
- シミュレーションおよび実環境のロボティクス・ベンチマークで、器用な操作の達成に加え、多様なタスクで性能向上と学習の収束加速を同時に示しています。




